|
发表于 2006-7-19 23:36:38
|
显示全部楼层
一个好的输入法,不光是要有一个好的词库。关键是要有一个好的算法。算法决定了词库里面要包含的信息。比如为了支持基于语义分析的整句输入法,词库里面就要包含词语的词性信息。
如果用基于统计的整句算法,词库里面可能还有包含词与词之间的同现概率。
另外,完全自动标注拼音是基本不可行的,因为多音字太多了。必须手工剔除那些错误的拼音组合。举例来说,“便宜”读作 pian2yi2, 但是 “方便”却读作 fang1bian4。bian4yi2 和 fang1pian2 都不对。这样的问题是自动标注最大的障碍。 |
|