看看这个小程序是不是能帮大家做一些句子对齐工作

状态
主题已关闭, 停止回复.
初来乍到,给大家提供一个小工具,设计初衷是提取中英文相似句子的,看到句子对齐的讨论较多,就改了改,看看能不能帮大家做一些句子对齐工作。:p

解压后有一个readme文件说明如下:
要处理的中英文文章不一定是对照的。
用你自己的中文文件替换Chinese.txt ,英文文件替换English.txt,文章越长越好。但目前只处理小于100K的文件.
目前程序处理:中文句子仅按照 " 。"分割;英文句子仅按照" . " 分割;暂未处理数字小数点等特殊情况,所以句子分的不好。简单测试对书面语结果好一些。
优点是速度快,处理非完全对照中英文文献好。
可以用来提取中英文相似句子,或者也可以用于初步句子对齐。


欢迎大家测试,;)反馈交流,不知道跟大家用的对齐工具差距有多大?
如果有用的话不要用于商业目的。

[Note: The attachment has been removed upon request of the author of this posting.]
 
Last edited:
回复: 看看这个小程序是不是能帮大家做一些句子对齐工作

请问您的程序怎么样可以保存结果?

谢谢!
 
回复: 看看这个小程序是不是能帮大家做一些句子对齐工作

【开始】-【运行】-输入cmd进入command mode,找到程序所在目录,输入SimSenEx_Chong.exe >result.txt即可。
 
回复: 看看这个小程序是不是能帮大家做一些句子对齐工作

很好,谢谢。
提取中英文相似句子,你是怎么做的?查查字典?
 
回复: 看看这个小程序是不是能帮大家做一些句子对齐工作

使用中发现将很多句对就删掉了。保留系统认为的对齐句子。
 
回复: 看看这个小程序是不是能帮大家做一些句子对齐工作

;)支持原创工具,期盼实用简便.
 
回复: 看看这个小程序是不是能帮大家做一些句子对齐工作

我们(易尔译科技 www.12fanyi.cn)完成了一个英汉自动对齐软件,思路很简单,效果却很好。
一、用最大熵模型对中英文进行断句,克服简单的用正则使用标点断句的不准;就这一点就能提升不少准确率;
二、加载巨型英汉双语句对库(也是我们自己的),找出最为相似的英文句子,加载他的中文译文(去除虚词)得到字符串A,以A为基点,在中文文本中找汉字重合率最为相似的句子(用到局部最优解,句长,句位等辅助信息);
三、用奥巴马就职演说测试,准确率在98%以上。
我是易尔译科技(http://www.12fanyi.cn)的,提供一下思路,欢迎大家一起讨论与研究,也欢迎大家加入易尔译科技(http://www.12fanyi.cn)技术成长QQ群:13554183 。
 
回复: 看看这个小程序是不是能帮大家做一些句子对齐工作

我们(易尔译科技 www.12fanyi.cn)完成了一个英汉自动对齐软件,思路很简单,效果却很好。
一、用最大熵模型对中英文进行断句,克服简单的用正则使用标点断句的不准;就这一点就能提升不少准确率;
二、加载巨型英汉双语句对库(也是我们自己的),找出最为相似的英文句子,加载他的中文译文(去除虚词)得到字符串A,以A为基点,在中文文本中找汉字重合率最为相似的句子(用到局部最优解,句长,句位等辅助信息);
三、用奥巴马就职演说测试,准确率在98%以上。
我是易尔译科技(http://www.12fanyi.cn)的,提供一下思路,欢迎大家一起讨论与研究,也欢迎大家加入易尔译科技(http://www.12fanyi.cn)技术成长QQ群:13554183 。
别给咱说奥巴马98%,俺这里本拉登还100%呢.
你把你的对齐工具在本坛上秀一下,秀个demo也行,算做广告也值吧? 咱们这里可是地道的market niche.不下点真功夫,甭想撬动这帮人的钱袋袋
:D
 
回复: 看看这个小程序是不是能帮大家做一些句子对齐工作

我们(易尔译科技 www.12fanyi.cn)完成了一个英汉自动对齐软件,思路很简单,效果却很好。
一、用最大熵模型对中英文进行断句,克服简单的用正则使用标点断句的不准;就这一点就能提升不少准确率;
二、加载巨型英汉双语句对库(也是我们自己的),找出最为相似的英文句子,加载他的中文译文(去除虚词)得到字符串A,以A为基点,在中文文本中找汉字重合率最为相似的句子(用到局部最优解,句长,句位等辅助信息);
三、用奥巴马就职演说测试,准确率在98%以上。
我是易尔译科技(http://www.12fanyi.cn)的,提供一下思路,欢迎大家一起讨论与研究,也欢迎大家加入易尔译科技(http://www.12fanyi.cn)技术成长QQ群:13554183 。

请不要重复发帖!
 
回复: 看看这个小程序是不是能帮大家做一些句子对齐工作

版主能把我发的这个帖子和附件删除吗?谢谢!
 
回复: 看看这个小程序是不是能帮大家做一些句子对齐工作

The attachment has been removed upon request of the author of the original posting, and this thread is no longer open.
 
状态
主题已关闭, 停止回复.
Back
顶部