|

楼主 |
发表于 2007-7-14 12:44:22
|
显示全部楼层
ctqucl:
我目前只是一个人在开发词库,所以开发也很慢。基本上就是:
- 上网,打字,写论文,这些词会自动加到我的个人词库里面。
- 然后我有时间的时候,或者无聊的时候,把个人词库拿出来,转化成txt格式的
- 转化成txt完了,整理,然后发布
所以比较慢。我之前是说了,大家给我发,发给我了就会加到词库里面,但是……没有人给我发。(可能是邮箱错了吧?我改改邮箱)
你的建议,我觉得首先要看,sogou的词库,是什么版权?有版权还是public domain的?还是有什么协议?
我的另一种想法是,能不能找大量的public domain的文字数据,然后自动分词。用过OpenOffice的同学应该知道,OpenOffice是会识别词的。虽然不可能100%准确,但是分词完了可以人工检查。
总之,目前需要public domain的词,否则还不如继续用pyjj的词库了。虽然public domain还是可能被某些大公司滥用,但是目前这是唯一可行的方法。也许GPL也可以,但是GPL的话很多别的项目就不能用我们的词库了,我觉得这样不好。除非著作权的拥有者只有一个,或者只有一个组织,比如说“词库开发团队”,我们用GPL形式的话很麻烦的,假设一个BSD项目想要用我们词库,那么我们就必须找齐所有的开发者。 |
|