LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
楼主: wpyh

为fcitx开发词库,征网友的帮助:)

[复制链接]
 楼主| 发表于 2007-6-21 23:50:19 | 显示全部楼层
@hsmwrv: 那些词库有没有协议呢?还是public domain?
@vbbjq : 其实fcitx本身就已经自带拼音佳佳的词库。但是这个词库的协议不太爽──只能在fcitx中使用,而这是doc/pinyin.txt的内容:

拼音词库取自于 拼音佳佳4.0(已经经作者本人同意使用)。
请未经作者本人同意,禁止将该词库用于其它场合。
有关版权问题,请与QQ:70387370(拼音佳佳)联系。
其它问题(如注音错误等),请与本人联系(yuking_net@sohu.com)。

我还没有跟拼音佳佳联系(最近没有上qq了,呵呵)但是我觉得既然有这种限制性的条件,怎么能称为开源的呢?fcitx本身是开源的,但是词库不是。还不如做一个开放的词库。。。
回复 支持 反对

使用道具 举报

发表于 2007-6-22 01:55:22 | 显示全部楼层
如果有人愿意做一个在线上传、分析、整理词库的web应用程序,我愿意提供一台服务器资源……

感觉做一个实现了下面功能的web程序来达到整理词库的目的还是不错的:
1、用户上传词库,自动合并到已有词库并调整相应词频。
2、用户可以在页面上汇报bug,比如某个词的音是错的,某个词有白字等等。管理者通过后直接作用在已有词库上,进行相应的增删、修改。
3、用户可以将较长短语(比如唐诗宋词)和专业性较强的词汇(比如堆栈)等进行在线分类,管理者通过后直接作用在已有词库上进行相应分类。用来实现类似sogou将要推出的3.0beta2的所谓“细胞词库”功能。
4、越方便越好,操作越方便,就有越多的人乐于把自己的词库上传。

服务器相关配置:双核双Xeon 2.66 64bit,2G ECC RAM,250G SATA。apache,php,mod_python。
回复 支持 反对

使用道具 举报

发表于 2007-7-13 23:24:35 | 显示全部楼层
很希望能实现类似sogou的细胞词库功能,我急需一个股票名称缩写的词库,省事啊。
细胞词库的格式希望能用开放的格式,xml什么之类的,维护也方便,词库也占不了多少空间,sogou已经开始封闭其词库资源了,不是个好现象啊,如果fcitx有了自己的细胞词库系统,借助广大爱好者的支持,肯定会壮大起来,而且也许会得到其它输入法软件的支持,版权还是希望GPL,这东西卖不了钱的,还不如干脆点,最大限度的保护它本身吧。

同样还是希望能把fcitx的开发继续下去,两者真正的合而为一才更有意义啊。:D,我不知道谁写代码专业不专业,我只知道软件适合我用就是好软件,应用为本,作者您也许有些意懒了,不过我还是求求您继续开发吧,如果能有细胞词库功能,我一定尽我一份力,写代码我没能力接您班,不过弄些词库什么的我很有积极性参与的,
我并不想期待某某商业公司将来开发这样的产品,fcitx毕竟存在很多年,大家都习惯了,也有感情了,而且网友作品,多有个性啊。
回复 支持 反对

使用道具 举报

发表于 2007-7-14 11:28:37 | 显示全部楼层
今天研究了下fcitx的词库,哪位能写个代码让词库的词能由单字库里的字的注音自动生成词的注音?
这样我立马就可以使用sogou上面的词库的txt文本了。
虽然这样生成的词库注音会存在多音字的错误,但是比一个个手动输要方便太多了。
当然,最好还是希望fcitx能直接支持没有注音的词库,这样会更方便,而且容错上也会更好。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2007-7-14 12:44:22 | 显示全部楼层
ctqucl:

我目前只是一个人在开发词库,所以开发也很慢。基本上就是:
- 上网,打字,写论文,这些词会自动加到我的个人词库里面。
- 然后我有时间的时候,或者无聊的时候,把个人词库拿出来,转化成txt格式的
- 转化成txt完了,整理,然后发布
所以比较慢。我之前是说了,大家给我发,发给我了就会加到词库里面,但是……没有人给我发。(可能是邮箱错了吧?我改改邮箱)

你的建议,我觉得首先要看,sogou的词库,是什么版权?有版权还是public domain的?还是有什么协议?

我的另一种想法是,能不能找大量的public domain的文字数据,然后自动分词。用过OpenOffice的同学应该知道,OpenOffice是会识别词的。虽然不可能100%准确,但是分词完了可以人工检查。

总之,目前需要public domain的词,否则还不如继续用pyjj的词库了。虽然public domain还是可能被某些大公司滥用,但是目前这是唯一可行的方法。也许GPL也可以,但是GPL的话很多别的项目就不能用我们的词库了,我觉得这样不好。除非著作权的拥有者只有一个,或者只有一个组织,比如说“词库开发团队”,我们用GPL形式的话很麻烦的,假设一个BSD项目想要用我们词库,那么我们就必须找齐所有的开发者。
回复 支持 反对

使用道具 举报

发表于 2007-8-1 09:56:58 | 显示全部楼层
要是能用谷歌拼音的词库就好了
回复 支持 反对

使用道具 举报

发表于 2008-12-21 17:24:20 | 显示全部楼层
re出来,这个其实还有没进行的....
回复 支持 反对

使用道具 举报

发表于 2008-12-21 17:27:45 | 显示全部楼层
弱问这个还有在进行中吗
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表