使用Trados WinAlign对齐语料的一点感想

oscar3

高级会员
#21
回复: 使用Trados WinAlign对齐语料的一点感想

oscar3在文中写到:WinAlign有两个微调工具可以帮助提高自动对齐效果,一是term list,另外一个是段落标记(tag)吗?
段落标记不是您自己加的吗? 不知道您说另外一个微调工具是不是就是您自己填加的段落标记<p>

感谢回复
Thank you for your interest in my posting, actually, I haven't used WinAlign for quite a while, because I found it is not an ideal tool for alignment. I now use a alignment tool designed by a Chinese business. However, as for the paragraph mark <p>, you are absolutely right. Good luck!
 
#22
回复: 使用Trados WinAlign对齐语料的一点感想

我知道您在使用雅信,感谢您的国产软件的支持。雅信4.0 不知道谁用过。
 
#23
回复: 使用Trados WinAlign对齐语料的一点感想

请问如何去掉winalign文本对齐之后的噪音? 想把中英对齐的文本分开存储,肖博士写的dealigner在这个论坛可以找到吗?
 
#24
回复: 使用Trados WinAlign对齐语料的一点感想

试试雪人CAT的双语对齐功能,其句级的双语对齐功能比Trados的WinAlign有过之而无不及。在此与大家分享一下:
下载地址址:http://www.newhua.com/soft/95861.htm


1. 中英文分开的TXT文件的对齐处理
例如:我们欲进行对齐的是两个TXT的文本文件,一个是英文,一个是中文,我们希望能将它们一句一句地对应起来,做成句级对齐的记忆库。


在下图雪人的“导入双语文件”窗口中,分别将这两篇文章读入或用【Ctrl+C】、【Ctrl+V】粘贴过来即可。


按确定按钮后,自动对齐工作即刻完成,如下图:雪人已经将这两个文件中的一句中文、一句英文完整地对齐了,而且准确率非常的高。


2. 对含大量软回车的WORD文档的对齐处理
由于排版等其他原因造成在不该断句的地方转行了,即文章中出现许多软回车。如下图,在“One day the”和“daughter”之间因为有个软回车而转行了,若不处理这些软回车,必然会影响对齐的效果。如果一个一个地手工删除软回车,会很耗时。


但雪人可以自动处理这些软回车,在本不该断句的地方自动接上了,如下图:


3. 中英混排的对齐
有时我们会遇到有些文章是中英混排的,它一段中文、一段英文,或者从网页中粘贴下来的,中英文混在一起,实在难以分成一个中文文件、一个英文文件。对处理这样文章,有没有省时省力的方法呢?如下面的2个图:




这种情况你只要按下【Ctrl+C】键复制后,利用雪人的“双语粘贴”就可以自动分开并进行句级对齐了。

4. 直接导入其他CAT软件译稿制作记忆库
雪人还可以直接导入其他CAT软件生产的译稿文件,将它们制作成一一对应的记忆库。目前可以直接导入的是TRADOS和雅信格式的。

5. 自动对齐后的编辑、导出
目前还没有哪个软件能百分百的准确对齐,所以自动对齐后的编辑、修改是否方便也很重要。雪人提供了非常方便的编辑功能,自动对齐后的原文、译文都可以再修改、编辑。
若断句不准确,将光标插入需要断句的地方,然后按回车键,即可断开,按【Delete】可以连接上下两句。当左右两边对齐后,我们按【F9】键,将左右两 句锁定,这时会出现一个“√”,表示这两句已经锁定,锁定后即可左右一起移动。对于某些参考价值不大的句子,可以将它删除或按【F4】键不导出,修改好 后,利用右键菜单的导出功能即可将句级对齐的记忆库导出,这样就大功告成了!


它操作简单,对齐效果准确,而且对齐处理后不会打乱原来的行文顺序。无论是纯文本、还是WORD文件其对齐效果一样理想;更妙的是雪人的“双语粘贴”,可以自动区分中英文混排的文章,这个非常的有用。有了这个双语对齐工具,创建百万级的记忆库指日可待!
 

seanxpq

corpus explorer
#25
回复: 使用Trados WinAlign对齐语料的一点感想

非常谢谢分享并提供详细的讲解!真是个很棒的软件!
 
#26
回复: 使用Trados WinAlign对齐语料的一点感想

雪人的双语对齐真是太好用了,节省大量的时间和精力。推荐推荐!谢谢分享!
 

stream

普通会员
#27
回复: 使用Trados WinAlign对齐语料的一点感想

雪人CAT的确好用,但是导出的记忆库只能是stm文件,如何打开?求高手指教,多谢!
 
顶部