86+98五笔码表[GPL]+如何将文本码表转换为FCITX＆SCIM码表？

kardinal · 发表于 2006-6-13 23:25:28

这些词库是我去年作的，没有怎么努力推广，所以不怎么出名-_-# 不过我相信它是非常优秀的
在GOOGLE中搜索“飞光五笔”得到这个链接（光本来就会飞的……“飞光”是祝酒辞，李贺有一首同名小诗…………这样看起来会不会比较不恶俗一点-_-#）
http://www.wbfans.com/bbs/dispbb ... p;skin=0&Star=1
不知道五笔爱好者论坛怎么了，似乎登录不上。。。

飞光词库已随Yuking大侠的Fcitx3.2.1一同发布，建议五笔使用者更新Fcitx
九八版五笔词库在七楼，为CoolIME格式文本码表，可以自行下载后转换

本词库为一二级简码增加二三重码，例如：
a 工或戈
第一重码为“工”，与原版保持一致
第二三重码分别为“或”、“戈”，建议使用二三重码选择键（通常为左右Shift）快速选取。习惯之后，比用数字键选重码快得多。

下面是本词库单字部分相对于原版词库的部分改动：（改动原因见结尾部分）
u 着产
h 上点此
wf 会什传
ug 美病闰
fc 去云支
kq 兄史吹

另外：八六五笔中的几个“经典”编码也作了人性化处理
如 “蔻”字，原版为 “apfl”，众所周知，这个编码是一个笑话。
为了保持与原版兼容，这个怪诞的编码予以保留，同时收录了正确的编码 “apfc”

少数特殊词组，进行了特殊处理，如下：
qtqt 猖獗狡猾狼狈
khkh 跳跃踊跃践踏跟踪
……
qrqj 狐狸
qjqj 猩猩
……
在五笔中，个别部件取码非常不合理，比如“犬” 、 “足” 、“鱼”等偏旁都要两码，而类似偏旁的词组中，叠词比较多，比如“狐狸””猩猩“……，所以含此类偏旁的叠词中，偏旁只取第一码（常用词组和传统编码保持兼容，如上。）
比如：
狐狸 qrqj
猩猩 qjqj
……
猖獗 qjqd
（很多高手研究决定的一个解决方案，如有不适，可打单字

）

以下为简介：

1、词库将近七万（约69696-_-#……反正我用极点的词库工具统计是这个数字。另有两个早期版本，根据文件大小估算，词组差不多分别为3万和9万？不过不打算推荐：）
有一种理论说，对于高手来讲，三万左右的词库是最好的。（最受五笔老手欢迎的一剑词库大约三万多词组，熟手比较喜欢的极爽词库，还有aipc词库，也是四万左右）
个人观点，三万左右的词库只包含了常用词，对于倾向打单字的高手，一万来词组就够用了-_-#以通常的情况来看，七万左右的词库确实有点大了，不过，如果对词语排序进行充分的优化，词库略大一些完全不会影响到效率（我使过很长时间的一剑词库，而使用我的词库，选重码的次数不比一剑词库要多）

2、部分一级简码进行了调整
这一点是非常有争议的，也可能是出于这个原因，使很多人不敢尝试的我词库。（其实八六五笔中有很多地方是非常别扭非常不人性的，我只是纠正了这些地方，特别是尽可能的降低了对于识别码让人恼火的依赖）
比如一级简码  u  ，原版的五笔中为  “产”  ，而我的词库中为 “着”
可能在五笔刚诞生的时期，共产或者生产之类的词汇是非常流行的，但是以现在来看，“产”字的使用频率明显低了许多；而“着”永远都是高频字（似乎我也从来没有一级简码打过“产”字，即使标准五笔，我也是“ut“，这很说明问题）
当然了，对于一级简码的调整还是必须谨慎的，我大约调整了二三处（一级简码的第一重码只有“产”字作了调整，修正了若干二三重码……主要是妥协到大家的情绪-_-#）
二三级简码的调整也遵循了这个原则
如：ug  原版为“闰” 我改成了“美”，“病”排在第二们，“闰”排在第三位 (“美”：1、使用率高 2、拆字比较难  见下面的简短说明)

3、使用二、三重码
也就是说，99％以上的词汇，它的重码不超过三个
使用； ‘ 键选二三重码，这样比用数字键选要快得多，在重码不多的情况下。
上面例子中的“ug”便可以使用 “ ’ ” 选 “闰”

…………暂时先这么多吧-_-#…………

词库制作方法及调整原则：

①词频筛选

词频是不能量化的。第一是因为词频会随时间变化而变化，例如“非典”曾经是一个高频词，现在不是。第二是因为不同的语境下词频是不同的，例如“搜索引擎”和“人民日报”，在google中，“搜索引擎”词频较高；在人民日报中则相反。我们不能google一下，然后就得出结论“搜索引擎”比“人民日报”词频高！

所以对待词频的态度应从词频至上转为词频筛选，把词频分为高、中、低三个等级（多数字词为中级词频），在此基础上应用其它原则，词频至此已经发挥了全部的效用。

词频应该以一种更为温和的方式影响词库作者的决断，那就是词频筛选，而非词频至上。

☆当单字与词重码时，如果该字通常组词出现，那么不管它多么常见，它的词频也可能很低。

②信息完整

单字的编码应尽量完整的反映出该字的信息。如：弓口虫  强  ，其二级简码为“弓口”，显然缺失了“虫”部，为信息缺失编码；全码为“弓口虫+y”，多出识别码“y”，为信息冗余编码。

当然 “弓口强”这一编码在码长上是有优势的，但是却增加了码表的不确定性。没有形成动力定型之前，我们录入“强”字，在键入“弓口”的时候，就要检查是否有“强”字候选出现，如果没有，继续“弓口虫”，检查候选，如果还没有，则是“弓口虫y”；录入“绳”字也要这样一个过程，可能每个字都得如此办理……这样反倒不如“弓口虫”更有效率。动力定型后，速度当然会有少许的提高，不过动力定型的一个特征为，需要大量的练习来强化反射。如果类似的编码（包括三级简码）数量庞大的话，熟练所花费的时间是惊人的。

☆信息密度均匀

词组取码时，每字取前两码或者第一码，在编码上是均匀的、有节奏的。如果前两字取第一码，第三字取末码，那么就打破了这种节奏。

③难度优先

主要应用于简码，信息完整的因素基本排除。在词频差别不大时，难拆字优先。

这也考虑了替代性原则——易拆字可以使用全码（信息完整编码）来拆解录入，难拆字你可能不知道它的编码。

例如：fg 二干十       “干”比“十”更难拆解，所以“干”字优先。而“十”可以用“十  一丨”来拆解。

─────────────────
飛光飛光勸爾一杯酒
─────────────────
另：由于上传的词库为我经常使用的词库，所以里面有我用过的一个ID，编码为jykh，如有不适，请自行处理

kardinal · 发表于 2006-6-13 23:33:54

附件为tar.bz2的压缩包
超过了大小，我使用slipt分割了一下

内容为文本码表，我转换成SCIM文本码表的格式，但是不知道怎么转换成二进制码表-_-#
望知道的大侠告之，不胜感激：）

版权什么的嘛。。嗯，虽然我得承认我的码表很优秀。。。不过嘛。。。就这么个东西，也就不好意思嘛版权不版权的了。
大家觉得怎么合适就怎么来。。。
特别声明一点，如果进行传播的话，可以署我的名字。。。当然，如果你愿意，也可以署自己的名字-_-#

kardinal · 发表于 2006-6-13 23:59:20

这个词库我是用VIM转的，词频一律设置为22……不知道有没有什么问题（主要是以“zz”引导的编码，里面有很多特殊符号，比如一些UNICODE中的符号，像扑克中的红心方块梅花等-_-# 特殊符号的输入方式和五笔加加、极点等输入法的是相同的，应该算比较通用。）
如果有必要，我可以提供原WINDOWS下的码表。

ybyygu · 发表于 2006-6-14 01:09:34

要有98版的就好了。

kardinal · 发表于 2006-6-14 01:18:40

呵呵 98版的也有。。。不过不如八六版的。。。主要是词组太多了，具体我记不得了，反正要比八六版的多很多，而且维护也比较少（后来不怎么用九八的说）
但是对于单字和词组的优化还是遵行了我的理念（我上面说明里的是经过大量精减后的版本，因为方法太多太复杂了只有专业的词库作者会去看：）

我记得那个词库在永硕E盘上有存的，待我去看看，有的话我便发来，没有的话我会联系下朋友，看能不能帮我找到。。。如果实在找不到的话，可是不能怪我的：P

kardinal · 发表于 2006-6-14 21:33:49

原来SCIM和FCITX的文本码表格式是不一样的

SCIM的码表中，是按照一级简码、二级、三级、全码这样来排序的
FCITX的码表中是按字母顺序混排的。。。

上面的那个是FCITX使用的。。。似乎使用前得用 DOS2UNIX 工具转换

现在的这个才是SCIM的-_-#
改了许多次，格式上应该是符合要求的，但是使用SCIM－MAKE－TABLE工具转换，老是提示无法读取码表。。。晕了。。。。

kardinal · 发表于 2006-6-14 22:02:59

文件名为wubi86
因为这个码表是为酷极作的，酷极早期的版本不支持自定义文件名，必须是wubi86。
而上传比较匆忙，未作必要处理，海函海函

但是码表为纯正的98码表，绝对没有问题

kardinal · 发表于 2006-6-14 22:06:34

顺便说一下。。。。文件的名字是wubi86。。。大家不要误会，这个绝对是98的码表。。。
我专门找了几个字看了看比如：还 86编码为gip 98编码为dhp 。。绝对没问题

之所以叫作wubi86，是因为这个码表是为酷极作的，酷极早期的版本不支持自定义文件名，必须是wubi86。。。（现在酷极非常好用了，已经比较接近我理想中的输入法了。可惜我却不用WINDOWS了。。。可惜啊。。。）

另外看到论坛上有兄弟使用海峰五笔的九八版转了FCITX码表。。。那位兄弟也说了，海峰五笔的重码太多了。而且海峰的九八码表是用八六码表的词语重新编码的，不是“原生”九八码表的说。。。还有更严重的，呵呵，我也不好多说什么了
虽然我对自己的这个九八词库不是很满意，它远不及我的八六版词库。。。不过我觉得，如果和海峰词库比的话，应该是不会差的-_-#

kardinal · 发表于 2006-6-14 22:21:35

想了想，标题里的”无版权“容易使人误解，保不准以为我是偷来的词库。。。。
咳。。。入乡随俗了，GPL吧：D
大家给点意见，有更好的方式请告诉我。。。
如果对于词库有什么意见也请告诉我：）

另：如果使用FCITX输入法，请务必把默认的“自动调频”选项关闭。否则，请不要告诉我这个码表不好用，我是无条件不接受的-_-#
修改 /usr/share/fcitx/data/tables.conf 文件中的
[码表]
名称=五笔型
调频=2 (?)
（UBUNTU系统下是这样修改的，其它系统不太清楚了-_-#）

kardinal · 发表于 2006-6-14 22:23:55

另：不知98五笔的版权到期了没有，似乎到期的说？？？
如果98五笔的版权还没有到期的话，那就不能GPL了-_-#

86五笔的版权应该没有什么问题吧？？？这个俺也不太懂，呵呵，知道的请出来讲两句：）

		自动登录	找回密码
密码			注册

86+98五笔码表[GPL]+如何将文本码表转换为FCITX＆SCIM码表？

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

浏览过的版块