对齐语料提取,除了winalign,还有别的好用的工具吗?

使用winalign有些天了,感觉这个工具做的还是有些粗糙,有没有做的更好的工具可以介绍给老弟用用,感谢各位大牛!
谢谢!:)
 
当然有啊,不过既然你很熟悉WinAlign,在介绍别的工具前,你能不能先讲一讲WinAlign粗在哪些方面了,有什么缺陷,你还需要什么样的功能、改进来达成你的使用和研究目的?
 
回复: 对齐语料提取,除了winalign,还有别的好用的工具吗?

laohong问的好啊,呵呵。我想也知道。。呵呵
那是3大对齐软件之一,至少我这里我用过3个主流的,那是其中的一个。
 
我用过Trados的WinAlign,从使用者的角度来看,需要注意几点。一,WinAlign对纯文本文件的对齐处理准确率不高,最好能够用doc等带格式的文本,而且在对齐之前最好通过格式设置使原文和译文初步达到对齐,比如标题,正文等不同级别。二,WinAlign对齐处理之后,句子层面是对齐了,但是,原来的行文顺序却被打乱了。最后,WinAlign对齐处理要达到比较高的对齐准确性,最好同时使用双语术语帮助对齐。
大家容易弄到的对齐软件还有机助翻译软件DJV的对齐插件Aligner,对DJV的对齐插件,我只试用过一次,感觉使用起来到是很简单,但是,体会不深。
另外一个对齐软件是雅信的对齐工具。很多人都喜欢大骂自己国产的软件不如外国的,但是,从我自己试用的经验来看。我觉在我试用过的工具里面,雅信的对齐工具对齐效果可以算是最好的。
我等不会编程,不能像laohong那样去自己动手,只能这样比较被。
 
"对齐"没什么技术含量,熟能生巧.做句层面对齐更是"小工"的事,不像编程,那可是牛人的活儿呵.
附上是计算所的 1500句对规模的英汉双语句对齐语料库,可用于双语词对齐、EBMT等实验研究。 花几分钟整理一下就可以做trados 的TM了.
 
回复: Re: 对齐语料提取,除了winalign,还有别的好用的工具吗?

我用过Trados的WinAlign,从使用者的角度来看,需要注意几点。一,WinAlign对纯文本文件的对齐处理准确率不高,最好能够用doc等带格式的文本,而且在对齐之前最好通过格式设置使原文和译文初步达到对齐,比如标题,正文等不同级别。二,WinAlign对齐处理之后,句子层面是对齐了,但是,原来的行文顺序却被打乱了。最后,WinAlign对齐处理要达到比较高的对齐准确性,最好同时使用双语术语帮助对齐。
大家容易弄到的对齐软件还有机助翻译软件DJV的对齐插件Aligner,对DJV的对齐插件,我只试用过一次,感觉使用起来到是很简单,但是,体会不深。
另外一个对齐软件是雅信的对齐工具。很多人都喜欢大骂自己国产的软件不如外国的,但是,从我自己试用的经验来看。我觉在我试用过的工具里面,雅信的对齐工具对齐效果可以算是最好的。
我等不会编程,不能像laohong那样去自己动手,只能这样比较被。

雅信 的认可度很高的。
 
回复: Re: 对齐语料提取,除了winalign,还有别的好用的工具吗?

当然有啊,不过既然你很熟悉WinAlign,在介绍别的工具前,你能不能先讲一讲WinAlign粗在哪些方面了,有什么缺陷,你还需要什么样的功能、改进来达成你的使用和研究目的?

老大,看看这篇文章:http://www.docin.com/p-5986402.html (我已经下载了,高手们可研究研究),
就知道WinAlign的技术含量其实并不高了,需要改进的地方多得很呐。当然,对齐软件么,最终的目标,无非错误率降到接近于零了。

我用的Trados v6.5的winalign,而它既不基于句长,也不基于锚点(那个弱弱的term list真是负不了什么重任),几乎没有什么语言学的理论基础!举例来说吧,我们都知道,英译中的英文:中文的字数大概是5:3左右,可Winalign就是频频把20多个单词的英文segment和4个字的中文连在一起,过了一会又把一个4个单词的英文segment和两个中文segment(合计30个字)连在一起,完全是废物点心一个!!
 

附件

  • 双语语料库段落重组对齐方法研究.pdf
    1.3 MB · 浏览: 241
Last edited:
回复: 对齐语料提取,除了winalign,还有别的好用的工具吗?

谢谢分享!值得研究。
 
回复: 对齐语料提取,除了winalign,还有别的好用的工具吗?

三大对齐软件你说的是那三大?可否告知?顺便能否把下载地址也加上?
 
回复: 对齐语料提取,除了winalign,还有别的好用的工具吗?

如果是中英或中日之间的对齐,雪人CAT的对齐工具是相当不错的,只是免费版本不能把结果导出EXCEL文件。
 
回复: 对齐语料提取,除了winalign,还有别的好用的工具吗?

一个被讨论过N次的问题。准确的说这个问题在这里无解,除非自己舍得花钱买商业软件,比如说雪人,雪人的对齐效果还是相当好的。
无解的原因是高手可以自己写软件而不屑于做这种事情,写不了软件的有钱也行,估计多数人不会花解决2000元去买个雪人软件。
还有种解决方案就是找人破解,但这个论坛不允许讨论破解的相关问题。

研究了那么多对齐方法没有人去写一个软件有什么意义?写了很多论文没有投入实际应用,价值几乎等于零。
 
回复: 对齐语料提取,除了winalign,还有别的好用的工具吗?

雪人没有用过,但机器初步对齐后,后期大量的人工校对是目前所有的工具都不可避免的。
 
回复: 对齐语料提取,除了winalign,还有别的好用的工具吗?

一个被讨论过N次的问题。准确的说这个问题在这里无解,除非自己舍得花钱买商业软件,比如说雪人,雪人的对齐效果还是相当好的。
无解的原因是高手可以自己写软件而不屑于做这种事情,写不了软件的有钱也行,估计多数人不会花解决2000元去买个雪人软件。
还有种解决方案就是找人破解,但这个论坛不允许讨论破解的相关问题。

研究了那么多对齐方法没有人去写一个软件有什么意义?写了很多论文没有投入实际应用,价值几乎等于零。

他们公司提供免费把STM转为EXCEL格式的服务。
 
回复: 对齐语料提取,除了winalign,还有别的好用的工具吗?

对少量的完整文本作双语对齐,采用软件辅以人工校对是可以的,但对大批量,目前市面上的软件都是"浮云".即使花钱购买"商业软件"也无法一劳永逸地处理大批量的文本.
再高深的理论(如本帖内的附件"双语语料库段落重组对齐方法研究.pdf" ),
目前似乎仍无法解决双语完整文本句对齐的实际问题.
对齐只是简单劳动.若对完整文本双语对齐感兴趣或有需要,欢迎来绍兴这个小地方交流一下.

PS:
需要说明的是,北大有一款(柠檬水)软件,去年曾在本坛秀了一下,非常棒:能对齐的留着,无法对齐的就扔了. 厦大史博士(mandel)就更厉害了,目前已是硕果累累, 可能也是这样处理的.对于不需要完整文本对齐的语料库,请求教这于这两位高人.
 
回复: 对齐语料提取,除了winalign,还有别的好用的工具吗?

对少量的完整文本作双语对齐,采用软件辅以人工校对是可以的,但对大批量,目前市面上的软件都是"浮云".即使花钱购买"商业软件"也无法一劳永逸地处理大批量的文本.
再高深的理论(如本帖内的附件"双语语料库段落重组对齐方法研究.pdf" ),
目前似乎仍无法解决双语完整文本句对齐的实际问题.
对齐只是简单劳动.若对完整文本双语对齐感兴趣或有需要,欢迎来绍兴这个小地方交流一下.

PS:
需要说明的是,北大有一款(柠檬水)软件,去年曾在本坛秀了一下,非常棒:能对齐的留着,无法对齐的就扔了. 厦大史博士(mandel)就更厉害了,目前已是硕果累累, 可能也是这样处理的.对于不需要完整文本对齐的语料库,请求教这于这两位高人.

找了提到的帖子比较了一下对齐的结果,这个“柠檬水”软件也没有比雪人CAT的对齐好多少,并且丢弃了不少能对齐的句子。关键是这个软件没有提供进一步测试的可能,但是雪人CAT免费版本就可以随时进行测试和比较。
 
回复: 对齐语料提取,除了winalign,还有别的好用的工具吗?

能对齐的保留,无法对齐的扔掉,这种做法有点不负责任。雪人对齐能够通过词典辅助对齐,对齐的效果是目前最好的,当然要完全对齐没有错误,目前软件是没法做到的,除非软件对于句子的句法分析水平达到非常完善的程度。软件要实现这种功能必须有自学习功能,而且带有人工修改语法的功能,语法规则要达到海量的程度才差不多可以实现,当然这样的软件会非常大,而且需要一个非常有规模的团队才能完成。比如说把词典中的所有单词每个单词给定海量的不同的例句。现在软件比以前进步多了,很多软件带有自学习功能,人为什么能够顺利转换不同语言,只有软件对于人类思维进行非常完善的模拟,这些功能才能实现。估计实现这种功能的时候,软件肯定能进行非常完美的翻译了。
 
回复: 对齐语料提取,除了winalign,还有别的好用的工具吗?

能对齐的保留,无法对齐的扔掉,这种做法有点不负责任。雪人对齐能够通过词典辅助对齐,对齐的效果是目前最好的,....

俺又要得罪人啦:
你是来这里推销雪人,还是真的挺书生气的?
你用过"柠檬水"水软件吗?你了解Mandel的双语语料对齐的设计思路和用途吗?
别给雪人吹牛了, 有机会不用这两位高人出山, 我们就以手工方式和你的雪人PK一下, 如何?:D
 
回复: 对齐语料提取,除了winalign,还有别的好用的工具吗?

俺又要得罪人啦:
你是来这里推销雪人,还是真的挺书生气的?
你用过"柠檬水"水软件吗?你了解Mandel的双语语料对齐的设计思路和用途吗?
别给雪人吹牛了, 有机会不用这两位高人出山, 我们就以手工方式和你的雪人PK一下, 如何?:D

真是有本事的就把东西亮出来,做学问有讲究实事求是,一来你连测试都没做就信口开河,没有调查就没有发言权,枉你还是高级会员,算是个做学问的吗?
 
回复: 对齐语料提取,除了winalign,还有别的好用的工具吗?

本人没用过柠檬水,本人用过雪人软件,本人没兴趣给雪人做广告,但事实就是事实,在双语对齐方面人家就是做到好,不过导出功能做了限制,仅给付费用户开放。
另外对于xusun575说话的这种态度没法让人忍受,不要以为自己多了解几个软件就了不起,就算你学历再高又如何?学历高的这些人见识的多了,没见过说话这么嚣张的。上了这么多年的学白上了,中国教育怎么教育出这种人来?
 
Back
顶部