LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
查看: 1485|回复: 12

关于词库的一个建议

[复制链接]
发表于 2007-3-16 17:44:29 | 显示全部楼层 |阅读模式
在linux下使用fcitx,在windows下使用sogou。

发现即使是以词库著称的sogou输入法,也有一些非常常用的日常词汇没有收入词库,使用初期还是需要一些训练。fcitx相对来说要稍差一些,很奇怪的是相当一部分常用词汇在词库里有,但是打出来时被排在后边,而排前几位的是一些明显不靠普的词,感觉fcitx的词频处理还大有提高空间:)

言归正传。我想一些简单常见、但是被词库忽略的词汇,被大量用户在本地训练并加入本地词库。如果能支持用户词汇上传,那么这些“边边角角”的常见词汇就会很快充实到服务器词库中。再被其它用户下载,或随下一版软件发布,我想能很好的提高用户的使用舒适感。

当然用户词汇上传也存在一些问题。一是自动上传的用户隐私问题,在开源软件里,这个有很多种方法可以解决,例如使用手动上传。另一个问题是防止恶意干扰问题,可能存在恶意上传非法言论,或恶意上传版权词库的问题,这个需要好好考虑看如何能解决。

开源的开放词库如果能形成规范标准,将会在整体上提高开源中文输入法的词库水平。如果能有助于改进词频信息就更好了。不知道大家以为如何?是否有人感兴趣?
发表于 2007-3-17 16:01:47 | 显示全部楼层
还是需要词库的。呵呵
回复 支持 反对

使用道具 举报

发表于 2007-3-23 10:33:13 | 显示全部楼层
有些字,词的 次序问题太烦人了,
我在WIN下用 海峰五笔86 版,在 Linux下用 FCITX ,
很多字和词的次序不一样,熟悉了其中一种的话,换到另一种经常打错字。。。
回复 支持 反对

使用道具 举报

发表于 2007-3-23 12:11:19 | 显示全部楼层
呵呵,我已经很多年不用拼音了,所以fcitx的拼音输入做得怎样我没法评价,但不管是什么拼音输入法,我认为必须有如下两个功能才算是好的输入法

1、使用词库动态调整,功能最好更灵活点,比如可以设置用户最多使用优先或最近使用优先等。
2、容量适中的基本词库+扩展词库,基本词库要稳定,扩展词库留给用户自己选择
回复 支持 反对

使用道具 举报

发表于 2007-4-3 09:56:16 | 显示全部楼层
----------------------------------
安装时没注意,发现 win2fcitx 可以转换win下的码表,
自己做了一个 海峰五笔86版的,重码率低多了,感谢作者
回复 支持 反对

使用道具 举报

发表于 2007-4-5 10:14:21 | 显示全部楼层
希望yuking兄能够改造一下fcitx,主要是拼音的词库和输入法的配置的问题,新手不容易上手呀!!!
回复 支持 反对

使用道具 举报

发表于 2007-4-5 13:01:28 | 显示全部楼层
能不能给点具体的建议?
回复 支持 反对

使用道具 举报

发表于 2007-4-7 09:39:36 | 显示全部楼层
现在的功能已经比较不错了,就是易配置性稍差,应该学习紫光或者搜狗输入法:
1、实现在图形界面下面配置fcitx,比如快捷键、外观等,新手一般不愿意改配置文件
   他们嫌麻烦,这个似乎有人在linux公社做了,可以整合进去。
2、实现拼音的用户词库的保存,因为每一个人的行业不一,总是有特殊的词频要求或
   者词组偏好,也就是拼音的基本词库由fcitx提供,但是拼音的用户词库由用户保
   存。输入法没有一个好的词库将来注定会走向消亡,比如chinput就是如此。
回复 支持 反对

使用道具 举报

发表于 2007-4-7 10:19:23 | 显示全部楼层
众口难调,做成模块化吧,像极点一样(别扔鸡蛋)
像我就不喜欢图形配置,不用二笔,几乎不用拼音。。。
回复 支持 反对

使用道具 举报

发表于 2007-4-7 12:36:37 | 显示全部楼层
Post by econy
现在的功能已经比较不错了,就是易配置性稍差,应该学习紫光或者搜狗输入法:
1、实现在图形界面下面配置fcitx,比如快捷键、外观等,新手一般不愿意改配置文件
   他们嫌麻烦,这个似乎有人在linux公社做了,可以整合进去。
2、实现拼音的用户词库的保存,因为每一个人的行业不一,总是有特殊的词频要求或
   者词组偏好,也就是拼音的基本词库由fcitx提供,但是拼音的用户词库由用户保
   存。输入法没有一个好的词库将来注定会走向消亡,比如chinput就是如此。

先谢谢~
是有人做了个GTK的配置工具,我正在改它,以便适应新的版本。
现在的拼音词库是拼音佳佳的,感觉还好,就是错的比较多(主要是多音字组词的音不准)。现在fcitx有保存词频和用户词组的功能啊,只是在init 5的方式下使用X时,退出X时,可能会导致可能最后那些词频信息丢失。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表