LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
楼主: wpyh

为fcitx开发词库,征网友的帮助:)

[复制链接]
发表于 2006-7-19 23:38:44 | 显示全部楼层
Post by ylam
我个人认为,输入法里面的词组,越短越好,例如:
奔走呼号  不如 只收 奔走、呼号 算了。
又例如:不知深浅  不如只收 不知、深浅 算了。

但又不能一概而论:例如 百业萧条 ,就当然要 百业萧条, 百业, 萧条都收。

我看了 Fang Q 的词裤,里面太多质量不太好的长词,所以说质量不高。
对不起。


对于基于词语的输入法,从搜索引擎中抓取数据也许可行。但是对于整句输入法,这绝对是不可行的。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2006-7-19 23:46:54 | 显示全部楼层
嗯,我看了CC的Attribution License。我觉得没必要用这个,直接用BSD得了。但是,我有一个更好的方法:如果怕有人(比如说商业开发者,或者某某人),那么我们可以采取一个自己的协议:

Copyright (c) 2006 xxx

This is a copyrighted work. You are free to do anything with this work, provided that you meet all the following requirements:
1. You choose an Open Source license approved by the OSI (www.opensource.org), and
2. You adhere to all its terms and conditions.
回复 支持 反对

使用道具 举报

发表于 2006-7-20 11:56:16 | 显示全部楼层
授权我还没有决定,不过肯定是开放的。如果需要很多劳动的话(比如分类和词频),我倾向于把那些部分使用GPL或者BSD。其他简单的词汇部分,CC,BSD或者public domain应该都可以吧。

自动注音对于一字多音的问题只能是后面进行词组匹配,统一替换了,先用最常见的读音生成底稿。好在这些常见容易读错的汉字google一下应该能找到不少(比如http://www.zgma.com/wenxuebaoku/yongcuozi.htm),这样统一整理几次就应该至少"可用"了。

开发一个自动注音的程序其实也是很有用的,每个汉字指定一个默认读音,然后再添加一组修订规则,每个规则包括一个特征串,特征串的位置(在这个汉字的前面或者后面),该汉字的读音和声调。
回复 支持 反对

使用道具 举报

发表于 2006-7-20 12:00:17 | 显示全部楼层
Post by wpyh
因为我个人喜欢简单的文本文件,呵呵。不知道你觉得哪一个好?我是觉得mysql有点overkill了……

mysql只是一个数据的在线存储方式,真正操作还是要dump成文本后才来做。perl+mysql只提供在线录入、搜索的界面。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2006-7-20 20:39:27 | 显示全部楼层
哦,这样,我以为最后的词库也是mysql数据库格式的……如果可以dump成text好:)

开发那种自动拼音的程序我觉得不是很容易(做完整的难,往往是10%的bug占了90%的开发时间,但是做简单的不是很难),不如直接输出所有可能的拼音,然后手工整理。

你是说,简单的.org格式的可以Public Domain,然后“加工”后的是BSD/GPL?这个可以啊,我没意见,因为我一般也用的是GPL软件。但是,我觉得可能有些人觉得GPL束缚性太强了,如果是GPL的话,空怕很多人都没有得到利益。或者,可以这样:GPL+exception,exception是让使用者可以随意使用该词库,商业软件也可以,但是必须提供源代码(也就是说原形的词库),类似arphic font的协议吧。
回复 支持 反对

使用道具 举报

发表于 2006-7-24 20:32:05 | 显示全部楼层
Post by wpyh
哦,这样,我以为最后的词库也是mysql数据库格式的……如果可以dump成text好:)

开发那种自动拼音的程序我觉得不是很容易(做完整的难,往往是10%的bug占了90%的开发时间,但是做简单的不是很难),不如直接输出所有可能的拼音,然后手工整理。

你是说,简单的.org格式的可以Public Domain,然后“加工”后的是BSD/GPL?这个可以啊,我没意见,因为我一般也用的是GPL软件。但是,我觉得可能有些人觉得GPL束缚性太强了,如果是GPL的话,空怕很多人都没有得到利益。或者,可以这样:GPL+exception,exception是让使用者可以随意使用该词库,商业软件也可以,但是必须提供源代码(也就是说原形的词库),类似arphic font的协议吧。

怎么感觉这个exception有不有都差不多啊
回复 支持 反对

使用道具 举报

 楼主| 发表于 2006-8-2 20:15:34 | 显示全部楼层
嗯,这个exception其实只是说明一下协议。

过了几个星期,还是没有人给我发词库,呵呵 看来得自己继续做下去了……

我后来发现CEDICT并不是Public Domain,不允许商业应用,FangQ可能需要考虑这一点:)
回复 支持 反对

使用道具 举报

发表于 2006-8-3 04:31:07 | 显示全部楼层
我已经给CEDICT project的maillist发了封信询问license的问题。public domain与non-commertial use本身就是矛盾的。

关于文泉驿的词库,前一段suzhe(SCIM的作者)告诉我他那里有比较全的词库(60万词汇量),他希望合作完成对词库的分类整理工作。等收到他的资料后我会作一个更新,我希望更多的人一起来完成这个工作。
回复 支持 反对

使用道具 举报

发表于 2006-8-3 12:56:03 | 显示全部楼层
是的。我也会尽快发布新的中文拼音处理库,和辅助工具,来帮助制作这个词库。
回复 支持 反对

使用道具 举报

发表于 2006-8-8 03:02:44 | 显示全部楼层
建议参考林顺凡的拼音佳佳词库,我感觉非常好,是txt文本的。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表