LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
楼主: epico

novel-pinyin 基于自然语言处理的拼音输入法

[复制链接]
 楼主| 发表于 2007-12-20 14:05:31 | 显示全部楼层
Post by colinzhengj;1783289
I'll definitely use it if you don't have to rely on SCIM
I will consider it. But the first version will be on scim.
回复 支持 反对

使用道具 举报

 楼主| 发表于 2007-12-20 14:06:42 | 显示全部楼层
Finished n-gram storage code, and update code on http://novel-pinyin.cvs.sourcefo ... inyin/novel-pinyin/.

On currently implementation, I modified the P(P|W) from ratio which is computed from scim-pinyin, to k/n, k indicates k matched pinyins, n indicates total n pinyins for word W.
I don't know how it will influence the result of HMM correct rate, hopes it will not be bad.

Tested this approach on research prototype, the correct rate is lower. And test with manual input, it don't work too bad.

And counting the computing complexity, it seems that the speed is sufficient.
回复 支持 反对

使用道具 举报

 楼主| 发表于 2007-12-20 14:07:48 | 显示全部楼层
Upload new novel-pinyin code to sourceforge, currently finished segment & training part.

In this place, I use a modified interpolation method to ease implementation.
The parameter optimization part is done in research prototype.
So the code in novel-pinyin is relatively simple, just use parameters computed from prototype.

The word segment use shortest path algorithm to segment words, and prepare the data to training part.
回复 支持 反对

使用道具 举报

发表于 2008-5-26 03:26:48 | 显示全部楼层
不推荐加入不完整双拼,
双拼,就是要两个字幕一个汉字,这个功能也只是对频繁使用的词语起到很有限的加速效果,
既然这个输入法要做到整句输入,就不要这个功能。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-5-28 15:58:13 | 显示全部楼层
Post by bearson;1855063
不推荐加入不完整双拼,
双拼,就是要两个字幕一个汉字,这个功能也只是对频繁使用的词语起到很有限的加速效果,
既然这个输入法要做到整句输入,就不要这个功能。
我也觉得不完整双拼,和整句输入法不太好结合在一起。
当然如果有人能够提出好的想法的话,也可以参考实现一下。
呵呵。
回复 支持 反对

使用道具 举报

发表于 2008-8-8 12:12:13 | 显示全部楼层
我用拼音输入法最在意的是字音的正确性。

比如用 en 能否打出“嗯”
比如 zhen 能否打出“帧”

scim-pinyin 两个测试都失败,sun-pinyin 一对一错,相比之下,谷歌、紫光什么的都没这问题了。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-8-8 17:38:38 | 显示全部楼层
Post by lymanrb;1883880
我用拼音输入法最在意的是字音的正确性。

比如用 en 能否打出“嗯”
比如 zheng 能否打出“帧”

scim-pinyin 两个测试都失败,sun-pinyin 一对一错,相比之下,谷歌、紫光什么的都没这问题了。
谢谢,我会看一下这个问题。
回复 支持 反对

使用道具 举报

发表于 2008-8-9 10:53:31 | 显示全部楼层
Post by lymanrb;1883880
我用拼音输入法最在意的是字音的正确性。

比如用 en 能否打出“嗯”
比如 zheng 能否打出“帧”

scim-pinyin 两个测试都失败,sun-pinyin 一对一错,相比之下,谷歌、紫光什么的都没这问题了。


比如用 en 能否打出“嗯”,很可惜,en不是“嗯”的标准拼音,它的标准拼音是“ng”



你在意正确性,可是你的拼音也是不行。还是用形码吧,我以前用五笔,後来又改用二笔,现在我用了“郑码”。越用越发现“郑码”才是形码之王。我所能认识的数万漢字都能容易打出来,爽!
回复 支持 反对

使用道具 举报

发表于 2008-8-9 14:13:10 | 显示全部楼层
Post by epico;1884006
谢谢,我会看一下这个问题。


不好意思,原帖有错误

帧有两音,拼音:zhèng   zhēn,常见的应属后者,可是 scim 智能拼音只有 zheng 音。
回复 支持 反对

使用道具 举报

发表于 2008-8-9 14:43:39 | 显示全部楼层
Post by 神游九州;1884144
比如用 en 能否打出“嗯”,很可惜,en不是“嗯”的标准拼音,它的标准拼音是“ng”



你在意正确性,可是你的拼音也是不行。还是用形码吧,我以前用五笔,後来又改用二笔,现在我用了“郑码”。越用越发现“郑码”才是形码之王。我所能认识的数万漢字都能容易打出来,爽!


呵呵,关于“嗯”字的拼音标注法,或许你说的是对的。

以此为例

按现代汉语规范字典查出来是
# 嗯   ńɡ 又ń

   1. [叹]表示疑问
      ~?你怎么不说话了?|你说什么,~?

# 嗯   ňɡ 又ň

   1. [叹]表示不以为然或出乎意料
      ~,没有那么严重吧!|~,怎么会呢!

# 嗯   ǹɡ 又ǹ

   1. [叹]表示应诺
      ~,就照你说的办吧|(在电话中)~,~,你说吧。


按中学生规范词典查,则是
嗯   ēn

   1. [叹]表示应答、疑问、出乎意外或不以为然等多种思想感情,受不同语调的影响,声调比较灵活
      ~,我马上就来|~,你说什么?|~,怎么不响了?|~,有什么了不起!


问题在于,1958 年颁布的《汉语拼音方案》中根本就没有 ng 这个韵母(如果此字拼音仅由韵母构成),也没有 g 这个韵母(如果此字拼音由 n 声母 + g 韵母构成)。

我只知道,通过了国家语委审定字音的微软拼音对“嗯”作“en”处理(目前绝大多数拼音输入法均如此)。

形码我只试过五笔。三天不用准忘。现在年纪大了,也懒得再记忆其他形码方案。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表