使用Trados WinAlign对齐语料的一点感想

oscar3

高级会员
#1
受到Xiaoz的贴中启发,近日有时间再次试验英汉双语句级对齐处理。使用的工具为EditPlus和Trados组件WinAlign。
首先,使用EditPlus将英汉语篇作好段落对齐,并用<p>和</p>分别在段前和段落结尾处标记。当然,不作这样的标记似乎也没有问题,不过,作段落标记有助于下阶段在WinAlign中句级对齐校对。因为,作句级对齐校对不可能细读,而段落标记就起着参照作用。
接下来,将作好段落对齐的双语语料加入WinAlign。在xiaoz的贴中告诫大家不要用MSWord。我的体会是,不用word无法工作。原因是WinAlign只接受rtf,doc,xml,html等格式。首次我在EditPlus中将文件存为XML,结果WinAlign不认识。而用doc或者rtf则很顺利,要用这两种格式就得用MSword。
在用WinAlign时自动对齐时,英汉语料前面的对齐效果比较好,到后面就比较混乱了,不知道是什么原因。
WinAlign有两个微调工具可以帮助提高自动对齐效果,一是term list,即将双语文件中对应的双语术语列出置于一个文本文件中(锚点词),作为词典供WinAlign调用;另外,双语文本中的段落标记(tag)也有助于提高自动对齐精确度。
在中国大陆公开的文献中,有人曾经介绍用文本处理软件,通过find,replace,和断句标点来作句级对齐。两相比较,oscar3认为,还是使用WinAlign比较轻松。
 

laohong

管理员
Staff member
#2
回复: 使用Trados WinAlign对齐语料的一点感想

Trial and errors is the way for us to learn to become expert.
 

oscar3

高级会员
#3
回复: 使用Trados WinAlign对齐语料的一点感想

Trial and errors is the way for us to learn to become expert.
Thank you, laohong, for your encouragement. I am trying a lot, although I am not sure if I will become an expert.
 

oscar3

高级会员
#4
回复: 使用Trados WinAlign对齐语料的一点感想

在使用xiaoz编写的dealigner将WinAlign导出的bilingualtext进行分离,在汉语文本中还是留下了一些杂质,经分析,只要是有阿拉伯数字的地方就会有“{/f4” 等杂质。情况如下图:
 

附件

#5
回复: 使用Trados WinAlign对齐语料的一点感想

用WinAlign对齐的语料,还可以导入句库中,指导翻译.想想吧,在翻译文本时,有了句库的帮助,就好象请了一位诲人不倦的大师在旁指导,爽呆了呀!
 

oscar3

高级会员
#6
回复: 使用Trados WinAlign对齐语料的一点感想

问题汇报
在使用xiaoz编写的dealigner清除WinAlign对齐过程中留下的tag时后,发现一个奇怪的现象。原来导入到WinAlign中的文本经过dealigner处理后,英汉文本似乎都比原来缩减了。不知道什么原因。不知道肖博士在编写程序的时候是不是设定了文本的上限长度:confused:
 

xiaoz

永远的超级管理员
Staff member
#7
回复: 使用Trados WinAlign对齐语料的一点感想

The programs I write are always specific to the format of the input data. Numerals may not have been tagged optionally in WinAlign-ed text for my program. I am not sure which script you mean. If you can send in a sample of your WinAligned text and my program script, I will have a look for you.
 

oscar3

高级会员
#8
回复: 使用Trados WinAlign对齐语料的一点感想

问题汇报
在使用xiaoz编写的dealigner清除WinAlign对齐过程中留下的tag时后,发现一个奇怪的现象。原来导入到WinAlign中的文本经过dealigner处理后,英汉文本似乎都比原来缩减了。不知道什么原因。不知道肖博士在编写程序的时候是不是设定了文本的上限长度:confused:

有个误会,经肖博士编写的程序处理过的文本长度为改变,只是在对齐时顺序有了少许变化,造成判断失误。
 
#15
回复: 使用Trados WinAlign对齐语料的一点感想

问题汇报
在使用xiaoz编写的dealigner清除WinAlign对齐过程中留下的tag时后,发现一个奇怪的现象。原来导入到WinAlign中的文本经过dealigner处理后,英汉文本似乎都比原来缩减了。不知道什么原因。不知道肖博士在编写程序的时候是不是设定了文本的上限长度:confused:
请问,老肖先生的软件如何获得?
 

oscar3

高级会员
#18
回复: 使用Trados WinAlign对齐语料的一点感想

谢谢呀,真是好人多!

有同感。以往,我向别人索取文献,常常遭到沉默的拒绝。自从来到corpus4u之后,经常都有感动,几乎改变了我的人生态度。:)
 
#20
回复: 使用Trados WinAlign对齐语料的一点感想

oscar3在文中写到:WinAlign有两个微调工具可以帮助提高自动对齐效果,一是term list,另外一个是段落标记(tag)吗?
段落标记不是您自己加的吗? 不知道您说另外一个微调工具是不是就是您自己填加的段落标记<p>

感谢回复
 
顶部