LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
查看: 10012|回复: 38

86+98五笔码表[GPL]+如何将文本码表转换为FCITX&SCIM码表?

[复制链接]
发表于 2006-6-13 23:25:28 | 显示全部楼层 |阅读模式
这些词库是我去年作的,没有怎么努力推广,所以不怎么出名-_-#   不过我相信它是非常优秀的
在GOOGLE中搜索“飞光  五笔”得到这个链接(光本来就会飞的……“飞光”是祝酒辞,李贺有一首同名小诗…………这样看起来会不会比较不恶俗一点-_-#)
http://www.wbfans.com/bbs/dispbb ... p;skin=0&Star=1
不知道五笔爱好者论坛怎么了,似乎登录不上。。。

飞光词库已随Yuking大侠的Fcitx3.2.1一同发布,建议五笔使用者更新Fcitx
九八版五笔词库在七楼,为CoolIME格式文本码表,可以自行下载后转换


本词库为一二级简码增加二三重码,例如:
a 工 或 戈
第一重码为“工”,与原版保持一致
第二三重码分别为“或”、“戈”,建议使用二三重码选择键(通常为左右Shift)快速选取。习惯之后,比用数字键选重码快得多。

下面是本词库单字部分相对于原版词库的部分改动:(改动原因见结尾部分)
u 着 产
h 上 点 此
wf 会 什 传
ug 美 病 闰
fc 去 云 支
kq 兄 史 吹

另外:八六五笔中的几个“经典”编码也作了人性化处理
如 “蔻”字,原版为 “apfl”,众所周知,这个编码是一个笑话。
为了保持与原版兼容,这个怪诞的编码予以保留,同时收录了正确的编码 “apfc”

少数特殊词组,进行了特殊处理,如下:
qtqt 猖獗 狡猾 狼狈
khkh 跳跃 踊跃 践踏 跟踪
……
qrqj 狐狸
qjqj 猩猩
……
在五笔中,个别部件取码非常不合理,比如“犬” 、 “足” 、“鱼”等偏旁都要两码,而类似偏旁的词组中,叠词比较多,比如“狐狸””猩猩“……,所以含此类偏旁的叠词中,偏旁只取第一码(常用词组和传统编码保持兼容,如上。)
比如:
狐狸 qrqj
猩猩 qjqj
……
猖獗 qjqd
(很多高手研究决定的一个解决方案,如有不适,可打单字



以下为简介:

1、词库将近七万(约69696-_-#……反正我用极点的词库工具统计是这个数字。另有两个早期版本,根据文件大小估算,词组差不多分别为3万和9万?不过不打算推荐:)
有一种理论说,对于高手来讲,三万左右的词库是最好的。(最受五笔老手欢迎的一剑词库大约三万多词组,熟手比较喜欢的极爽词库,还有aipc词库,也是四万左右)
个人观点,三万左右的词库只包含了常用词,对于倾向打单字的高手,一万来词组就够用了-_-#以通常的情况来看,七万左右的词库确实有点大了,不过,如果对词语排序进行充分的优化,词库略大一些完全不会影响到效率(我使过很长时间的一剑词库,而使用我的词库,选重码的次数不比一剑词库要多)

2、部分一级简码进行了调整
这一点是非常有争议的,也可能是出于这个原因,使很多人不敢尝试的我词库。(其实八六五笔中有很多地方是非常别扭非常不人性的,我只是纠正了这些地方,特别是尽可能的降低了对于识别码让人恼火的依赖)
比如一级简码  u  ,原版的五笔中为  “产”  ,而我的词库中为 “着”
可能在五笔刚诞生的时期,共产或者生产之类的词汇是非常流行的,但是以现在来看,“产”字的使用频率明显低了许多;而“着”永远都是高频字(似乎我也从来没有一级简码打过“产”字,即使标准五笔,我也是“ut“,这很说明问题)
当然了,对于一级简码的调整还是必须谨慎的,我大约调整了二三处(一级简码的第一重码只有“产”字作了调整,修正了若干二三重码……主要是妥协到大家的情绪-_-#)
二三级简码的调整也遵循了这个原则
如:ug  原版为“闰” 我改成了“美”,“病”排在第二们,“闰”排在第三位 (“美”:1、使用率高 2、拆字比较难  见下面的简短说明)

3、使用二、三重码
也就是说,99%以上的词汇,它的重码不超过三个
使用 ; ‘ 键选二三重码,这样比用数字键选要快得多,在重码不多的情况下。
上面例子中的“ug”便可以使用 “ ’ ” 选 “闰”

…………暂时先这么多吧-_-#…………



词库制作方法及调整原则:


①词频筛选

词频是不能量化的。第一是因为词频会随时间变化而变化,例如“非典”曾经是一个高频词,现在不是。第二是因为不同的语境下词频是不同的,例如“搜索引擎”和“人民日报”,在google中,“搜索引擎”词频较高;在人民日报中则相反。我们不能google一下,然后就得出结论“搜索引擎”比“人民日报”词频高!

所以对待词频的态度应从词频至上转为词频筛选,把词频分为高、中、低三个等级(多数字词为中级词频),在此基础上应用其它原则,词频至此已经发挥了全部的效用。

词频应该以一种更为温和的方式影响词库作者的决断,那就是词频筛选,而非词频至上。

☆当单字与词重码时,如果该字通常组词出现,那么不管它多么常见,它的词频也可能很低。



②信息完整

单字的编码应尽量完整的反映出该字的信息。如:弓口虫  强  ,其二级简码为“弓口”,显然缺失了“虫”部,为信息缺失编码;全码为“弓口虫+y”,多出识别码“y”,为信息冗余编码。

当然 “弓口 强”这一编码在码长上是有优势的,但是却增加了码表的不确定性。没有形成动力定型之前,我们录入“强”字,在键入“弓口”的时候,就要检查是否有“强”字候选出现,如果没有,继续“弓口虫”,检查候选,如果还没有,则是“弓口虫y”;录入“绳”字也要这样一个过程,可能每个字都得如此办理……这样反倒不如“弓口虫”更有效率。动力定型后,速度当然会有少许的提高,不过动力定型的一个特征为,需要大量的练习来强化反射。如果类似的编码(包括三级简码)数量庞大的话,熟练所花费的时间是惊人的。

☆信息密度均匀

词组取码时,每字取前两码或者第一码,在编码上是均匀的、有节奏的。如果前两字取第一码,第三字取末码,那么就打破了这种节奏。



③难度优先

主要应用于简码,信息完整的因素基本排除。在词频差别不大时,难拆字优先。

这也考虑了替代性原则——易拆字可以使用全码(信息完整编码)来拆解录入,难拆字你可能不知道它的编码。

例如:fg 二 干 十        “干”比“十”更难拆解,所以“干”字优先。而“十”可以用“十  一丨”来拆解。

─────────────────
飛光飛光 勸爾一杯酒
─────────────────
另:由于上传的词库为我经常使用的词库,所以里面有我用过的一个ID,编码为jykh,如有不适,请自行处理
 楼主| 发表于 2006-6-13 23:33:54 | 显示全部楼层
附件为tar.bz2的压缩包
超过了大小,我使用slipt分割了一下

内容为文本码表,我转换成SCIM文本码表的格式,但是不知道怎么转换成二进制码表-_-#
望知道的大侠告之,不胜感激:)

版权什么的嘛。。嗯,虽然我得承认我的码表很优秀。。。不过嘛。。。就这么个东西,也就不好意思嘛版权不版权的了。
大家觉得怎么合适就怎么来。。。
特别声明一点,如果进行传播的话,可以署我的名字。。。当然,如果你愿意,也可以署自己的名字-_-#

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

 楼主| 发表于 2006-6-13 23:59:20 | 显示全部楼层
这个词库我是用VIM转的,词频一律设置为22……不知道有没有什么问题(主要是以“zz”引导的编码,里面有很多特殊符号,比如一些UNICODE中的符号,像扑克中的红心方块梅花等-_-# 特殊符号的输入方式和五笔加加、极点等输入法的是相同的,应该算比较通用。)
如果有必要,我可以提供原WINDOWS下的码表。
回复 支持 反对

使用道具 举报

发表于 2006-6-14 01:09:34 | 显示全部楼层
要有98版的就好了。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2006-6-14 01:18:40 | 显示全部楼层
呵呵  98版的也有。。。不过不如八六版的。。。主要是词组太多了,具体我记不得了,反正要比八六版的多很多,而且维护也比较少(后来不怎么用九八的说)
但是对于单字和词组的优化还是遵行了我的理念(我上面说明里的是经过大量精减后的版本,因为方法太多太复杂了只有专业的词库作者会去看:)

我记得那个词库在永硕E盘上有存的,待我去看看,有的话我便发来,没有的话我会联系下朋友,看能不能帮我找到。。。如果实在找不到的话,可是不能怪我的:P
回复 支持 反对

使用道具 举报

 楼主| 发表于 2006-6-14 21:33:49 | 显示全部楼层
原来SCIM和FCITX的文本码表格式是不一样的

SCIM的码表中,是按照一级简码、二级、三级、全码这样来排序的
FCITX的码表中是按字母顺序混排的。。。

上面的那个是FCITX使用的。。。似乎使用前得用 DOS2UNIX 工具转换

现在的这个才是SCIM的-_-#
改了许多次,格式上应该是符合要求的,但是使用SCIM-MAKE-TABLE工具转换,老是提示无法读取码表。。。晕了。。。。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

 楼主| 发表于 2006-6-14 22:02:59 | 显示全部楼层
文件名为wubi86
因为这个码表是为酷极作的,酷极早期的版本不支持自定义文件名,必须是wubi86。
而上传比较匆忙,未作必要处理,海函海函

但是码表为纯正的98码表,绝对没有问题

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

 楼主| 发表于 2006-6-14 22:06:34 | 显示全部楼层
顺便说一下。。。。文件的名字是wubi86。。。大家不要误会,这个绝对是98的码表。。。
我专门找了几个字看了看   比如:  还   86编码为gip     98编码为dhp   。。绝对没问题

之所以叫作wubi86,是因为这个码表是为酷极作的,酷极早期的版本不支持自定义文件名,必须是wubi86。。。(现在酷极非常好用了,已经比较接近我理想中的输入法了。可惜我却不用WINDOWS了。。。可惜啊。。。)


另外看到论坛上有兄弟使用海峰五笔的九八版转了FCITX码表。。。那位兄弟也说了,海峰五笔的重码太多了。而且海峰的九八码表是用八六码表的词语重新编码的,不是“原生”九八码表的说。。。还有更严重的,呵呵,我也不好多说什么了
虽然我对自己的这个九八词库不是很满意,它远不及我的八六版词库。。。不过我觉得,如果和海峰词库比的话,应该是不会差的-_-#
回复 支持 反对

使用道具 举报

 楼主| 发表于 2006-6-14 22:21:35 | 显示全部楼层
想了想,标题里的”无版权“容易使人误解,保不准以为我是偷来的词库。。。。
咳。。。入乡随俗了,GPL吧:D
大家给点意见,有更好的方式请告诉我。。。
如果对于词库有什么意见也请告诉我:)

另:如果使用FCITX输入法,请务必把默认的“自动调频”选项关闭。否则,请不要告诉我这个码表不好用,我是无条件不接受的-_-#
修改 /usr/share/fcitx/data/tables.conf 文件中的
[码表]
名称=五笔型
调频=2 (?)
(UBUNTU系统下是这样修改的,其它系统不太清楚了-_-#)
回复 支持 反对

使用道具 举报

 楼主| 发表于 2006-6-14 22:23:55 | 显示全部楼层
另:不知98五笔的版权到期了没有,似乎到期的说???
如果98五笔的版权还没有到期的话,那就不能GPL了-_-#

86五笔的版权应该没有什么问题吧???这个俺也不太懂,呵呵,知道的请出来讲两句:)
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表