|

楼主 |
发表于 2007-10-16 10:16:05
|
显示全部楼层
Post by chaisave
嘿,我就是 findsun 说的 Kov Chai。我也曾有改进 scim-pinyin 的想法,但是由于各种原因,一直没有实际的成果出来。
我想,对于输入法来说,算法很关键,但是词库也很重要。希望 novel-pinyin 能重视一下语料库的收集和处理(平滑,聚类之类的)。 chaisave敬仰敬仰,非常佩服您在这么快的时间内port sunpinyin到scim平台。欢迎提出各种建议。
语料库的平滑算法已经有一个参考实现,是在实验原型中实现的,backoff和interpolation都有,效果还不错。
目前关心的是算法性能的问题。在语料库的处理上,前期打算用最简单的cut-off prune比sunpinyin现在用的要简单一些,在后期可能会使用基于distribution的算法。
我的词库已经出来了,欢迎提出修改意见,请见http://novel-pinyin.cvs.sourcefo ... pinyin/data/origin/.
是基于cedict制作出来的,没有版权问题。 |
|