初来乍到,给大家提供一个小工具,设计初衷是提取中英文相似句子的,看到句子对齐的讨论较多,就改了改,看看能不能帮大家做一些句子对齐工作。
解压后有一个readme文件说明如下:
要处理的中英文文章不一定是对照的。
用你自己的中文文件替换Chinese.txt ,英文文件替换English.txt,文章越长越好。但目前只处理小于100K的文件.
目前程序处理:中文句子仅按照 " 。"分割;英文句子仅按照" . " 分割;暂未处理数字小数点等特殊情况,所以句子分的不好。简单测试对书面语结果好一些。
优点是速度快,处理非完全对照中英文文献好。
可以用来提取中英文相似句子,或者也可以用于初步句子对齐。
欢迎大家测试,反馈交流,不知道跟大家用的对齐工具差距有多大?
如果有用的话不要用于商业目的。
[Note: The attachment has been removed upon request of the author of this posting.]
解压后有一个readme文件说明如下:
要处理的中英文文章不一定是对照的。
用你自己的中文文件替换Chinese.txt ,英文文件替换English.txt,文章越长越好。但目前只处理小于100K的文件.
目前程序处理:中文句子仅按照 " 。"分割;英文句子仅按照" . " 分割;暂未处理数字小数点等特殊情况,所以句子分的不好。简单测试对书面语结果好一些。
优点是速度快,处理非完全对照中英文文献好。
可以用来提取中英文相似句子,或者也可以用于初步句子对齐。
欢迎大家测试,反馈交流,不知道跟大家用的对齐工具差距有多大?
如果有用的话不要用于商业目的。
[Note: The attachment has been removed upon request of the author of this posting.]
Last edited: