LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
查看: 1311|回复: 7

linux下的开源简繁转换工具--支持词语转换

[复制链接]
发表于 2009-4-9 11:45:22 | 显示全部楼层 |阅读模式
源代码可在http://code.google.com/p/cconv/downloads/list

由于linux下广泛使用的iconv只支持单字一一对应转换,cconv在iconv的基础上增加了词语转换功能。

用法与iconv相同,不太了解iconv的朋友,可以先看看:
http://www.gnu.org/software/libi ... biconv/iconv.1.html

安装
http://code.google.com/p/cconv/downloads/list 下载最新的源代码文件
$tar zxvf cconv-x.x.x.tar.gz
$cd cconv-x.x.x
$ ./configure --prefix=/usr/local
$ make
$ sudo  make install

php扩展模块的安装
$tar zxvf cconv-php-x.x.x.tar.gz
$cd cconv-php-x.x.x
$phpize
$./configure
$make
$sudo make install

在php.ini中增加一行:
extension=cconv.so

使用
$ echo "内存, 海内存知己,后天,皇后,街头发钱" | cconv -f utf-8 -t utf8-tw
記憶體, 海內存知己,後天,皇后,街頭發錢
 楼主| 发表于 2009-4-9 11:57:23 | 显示全部楼层
目前,还有一些词语对照表需要整理

对于扩展模块,现在只做了php的, 现在计划陆续推出python perl的.
只是没有太多精力花在支持windows方面,如有朋友愿意帮忙的话

联系我的msn:xiaoyjy@hotmail.com
回复 支持 反对

使用道具 举报

发表于 2009-4-15 12:56:59 | 显示全部楼层
感觉词语的转换上容易出现问题,比如“我的钱包内存有100元”就变成“我的钱包记忆体有100元”,这种不好判断吧
回复 支持 反对

使用道具 举报

发表于 2009-4-15 12:59:49 | 显示全部楼层
我是楼上,sorry,没看清楼主发言,考虑到了这种情况,不过还是觉得不太好判断
回复 支持 反对

使用道具 举报

发表于 2009-4-18 13:57:06 | 显示全部楼层
我用 google 来转换
回复 支持 反对

使用道具 举报

发表于 2009-4-19 21:20:14 | 显示全部楼层
楼主有没有听说过 zh-autoconvert、hztty,或者您的软件相对它们有什么优点?
回复 支持 反对

使用道具 举报

 楼主| 发表于 2009-4-29 10:14:12 | 显示全部楼层
Post by 聚焦深空;1976682
楼主有没有听说过 zh-autoconvert、hztty,或者您的软件相对它们有什么优点?

hztty我在2006年的时候就用过了,zh-autoconvert是最近才看到了,另外还有不少其它的工具,主要以Windows下的ConvertZ,*nix下的为代表iconv为代表,目前看来,在这类转换基本上都是基于编码的转换,也就是简繁一对一的转换。

简汉字的简化过程并不是这么简单,它存在很多一对多的情况,比如“天后” 对应繁体 “天后”,而“后天” 对应 “後天”。当然,实际情况更加复杂,因为“一天后”对应 “一天後”。

google翻译目前已经有了一部分词语转换的功能,但效果不是很理想。cconv现在效果应该是要比google的好一些,但目前远没有达到我自己想要的结果,当然,我会继续努力。
我新建了一个blog http://www.yyyun.com/ 关于cconv的任何动态,我会在第一时间在那里更新,关于码表部分,会也在那里公布。
回复 支持 反对

使用道具 举报

发表于 2009-4-29 15:21:36 | 显示全部楼层
zh-autoconvert 历史可比您的软件长多啦,现在仍有 DD 在维护。
http://packages.debian.org/sid/zh-autoconvert

hztty
http://fanqiang.chinaunix.net/a1/b2/20020323/080000151_b.html
同类型的还有 yiyantang

另,wikipedia 中的繁简转换也不错,同时也包含地区性词汇转换。

如果您把各方优点集中起来,开发出更易用的软件,那会更棒。
如果是重复建设,那就有些浪费资源。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表