|
这些词库是我去年作的,没有怎么努力推广,所以不怎么出名-_-# 不过我相信它是非常优秀的
在GOOGLE中搜索“飞光 五笔”得到这个链接(光本来就会飞的……“飞光”是祝酒辞,李贺有一首同名小诗…………这样看起来会不会比较不恶俗一点-_-#)
http://www.wbfans.com/bbs/dispbb ... p;skin=0&Star=1
不知道五笔爱好者论坛怎么了,似乎登录不上。。。
飞光词库已随Yuking大侠的Fcitx3.2.1一同发布,建议五笔使用者更新Fcitx
九八版五笔词库在七楼,为CoolIME格式文本码表,可以自行下载后转换
本词库为一二级简码增加二三重码,例如:
a 工 或 戈
第一重码为“工”,与原版保持一致
第二三重码分别为“或”、“戈”,建议使用二三重码选择键(通常为左右Shift)快速选取。习惯之后,比用数字键选重码快得多。
下面是本词库单字部分相对于原版词库的部分改动:(改动原因见结尾部分)
u 着 产
h 上 点 此
wf 会 什 传
ug 美 病 闰
fc 去 云 支
kq 兄 史 吹
另外:八六五笔中的几个“经典”编码也作了人性化处理
如 “蔻”字,原版为 “apfl”,众所周知,这个编码是一个笑话。
为了保持与原版兼容,这个怪诞的编码予以保留,同时收录了正确的编码 “apfc”
少数特殊词组,进行了特殊处理,如下:
qtqt 猖獗 狡猾 狼狈
khkh 跳跃 踊跃 践踏 跟踪
……
qrqj 狐狸
qjqj 猩猩
……
在五笔中,个别部件取码非常不合理,比如“犬” 、 “足” 、“鱼”等偏旁都要两码,而类似偏旁的词组中,叠词比较多,比如“狐狸””猩猩“……,所以含此类偏旁的叠词中,偏旁只取第一码(常用词组和传统编码保持兼容,如上。)
比如:
狐狸 qrqj
猩猩 qjqj
……
猖獗 qjqd
(很多高手研究决定的一个解决方案,如有不适,可打单字 )
以下为简介:
1、词库将近七万(约69696-_-#……反正我用极点的词库工具统计是这个数字。另有两个早期版本,根据文件大小估算,词组差不多分别为3万和9万?不过不打算推荐:)
有一种理论说,对于高手来讲,三万左右的词库是最好的。(最受五笔老手欢迎的一剑词库大约三万多词组,熟手比较喜欢的极爽词库,还有aipc词库,也是四万左右)
个人观点,三万左右的词库只包含了常用词,对于倾向打单字的高手,一万来词组就够用了-_-#以通常的情况来看,七万左右的词库确实有点大了,不过,如果对词语排序进行充分的优化,词库略大一些完全不会影响到效率(我使过很长时间的一剑词库,而使用我的词库,选重码的次数不比一剑词库要多)
2、部分一级简码进行了调整
这一点是非常有争议的,也可能是出于这个原因,使很多人不敢尝试的我词库。(其实八六五笔中有很多地方是非常别扭非常不人性的,我只是纠正了这些地方,特别是尽可能的降低了对于识别码让人恼火的依赖)
比如一级简码 u ,原版的五笔中为 “产” ,而我的词库中为 “着”
可能在五笔刚诞生的时期,共产或者生产之类的词汇是非常流行的,但是以现在来看,“产”字的使用频率明显低了许多;而“着”永远都是高频字(似乎我也从来没有一级简码打过“产”字,即使标准五笔,我也是“ut“,这很说明问题)
当然了,对于一级简码的调整还是必须谨慎的,我大约调整了二三处(一级简码的第一重码只有“产”字作了调整,修正了若干二三重码……主要是妥协到大家的情绪-_-#)
二三级简码的调整也遵循了这个原则
如:ug 原版为“闰” 我改成了“美”,“病”排在第二们,“闰”排在第三位 (“美”:1、使用率高 2、拆字比较难 见下面的简短说明)
3、使用二、三重码
也就是说,99%以上的词汇,它的重码不超过三个
使用 ; ‘ 键选二三重码,这样比用数字键选要快得多,在重码不多的情况下。
上面例子中的“ug”便可以使用 “ ’ ” 选 “闰”
…………暂时先这么多吧-_-#…………
词库制作方法及调整原则:
①词频筛选
词频是不能量化的。第一是因为词频会随时间变化而变化,例如“非典”曾经是一个高频词,现在不是。第二是因为不同的语境下词频是不同的,例如“搜索引擎”和“人民日报”,在google中,“搜索引擎”词频较高;在人民日报中则相反。我们不能google一下,然后就得出结论“搜索引擎”比“人民日报”词频高!
所以对待词频的态度应从词频至上转为词频筛选,把词频分为高、中、低三个等级(多数字词为中级词频),在此基础上应用其它原则,词频至此已经发挥了全部的效用。
词频应该以一种更为温和的方式影响词库作者的决断,那就是词频筛选,而非词频至上。
☆当单字与词重码时,如果该字通常组词出现,那么不管它多么常见,它的词频也可能很低。
②信息完整
单字的编码应尽量完整的反映出该字的信息。如:弓口虫 强 ,其二级简码为“弓口”,显然缺失了“虫”部,为信息缺失编码;全码为“弓口虫+y”,多出识别码“y”,为信息冗余编码。
当然 “弓口 强”这一编码在码长上是有优势的,但是却增加了码表的不确定性。没有形成动力定型之前,我们录入“强”字,在键入“弓口”的时候,就要检查是否有“强”字候选出现,如果没有,继续“弓口虫”,检查候选,如果还没有,则是“弓口虫y”;录入“绳”字也要这样一个过程,可能每个字都得如此办理……这样反倒不如“弓口虫”更有效率。动力定型后,速度当然会有少许的提高,不过动力定型的一个特征为,需要大量的练习来强化反射。如果类似的编码(包括三级简码)数量庞大的话,熟练所花费的时间是惊人的。
☆信息密度均匀
词组取码时,每字取前两码或者第一码,在编码上是均匀的、有节奏的。如果前两字取第一码,第三字取末码,那么就打破了这种节奏。
③难度优先
主要应用于简码,信息完整的因素基本排除。在词频差别不大时,难拆字优先。
这也考虑了替代性原则——易拆字可以使用全码(信息完整编码)来拆解录入,难拆字你可能不知道它的编码。
例如:fg 二 干 十 “干”比“十”更难拆解,所以“干”字优先。而“十”可以用“十 一丨”来拆解。
─────────────────
飛光飛光 勸爾一杯酒
─────────────────
另:由于上传的词库为我经常使用的词库,所以里面有我用过的一个ID,编码为jykh,如有不适,请自行处理 |
|