oscar3
高级会员
受到Xiaoz的贴中启发,近日有时间再次试验英汉双语句级对齐处理。使用的工具为EditPlus和Trados组件WinAlign。
首先,使用EditPlus将英汉语篇作好段落对齐,并用<p>和</p>分别在段前和段落结尾处标记。当然,不作这样的标记似乎也没有问题,不过,作段落标记有助于下阶段在WinAlign中句级对齐校对。因为,作句级对齐校对不可能细读,而段落标记就起着参照作用。
接下来,将作好段落对齐的双语语料加入WinAlign。在xiaoz的贴中告诫大家不要用MSWord。我的体会是,不用word无法工作。原因是WinAlign只接受rtf,doc,xml,html等格式。首次我在EditPlus中将文件存为XML,结果WinAlign不认识。而用doc或者rtf则很顺利,要用这两种格式就得用MSword。
在用WinAlign时自动对齐时,英汉语料前面的对齐效果比较好,到后面就比较混乱了,不知道是什么原因。
WinAlign有两个微调工具可以帮助提高自动对齐效果,一是term list,即将双语文件中对应的双语术语列出置于一个文本文件中(锚点词),作为词典供WinAlign调用;另外,双语文本中的段落标记(tag)也有助于提高自动对齐精确度。
在中国大陆公开的文献中,有人曾经介绍用文本处理软件,通过find,replace,和断句标点来作句级对齐。两相比较,oscar3认为,还是使用WinAlign比较轻松。
首先,使用EditPlus将英汉语篇作好段落对齐,并用<p>和</p>分别在段前和段落结尾处标记。当然,不作这样的标记似乎也没有问题,不过,作段落标记有助于下阶段在WinAlign中句级对齐校对。因为,作句级对齐校对不可能细读,而段落标记就起着参照作用。
接下来,将作好段落对齐的双语语料加入WinAlign。在xiaoz的贴中告诫大家不要用MSWord。我的体会是,不用word无法工作。原因是WinAlign只接受rtf,doc,xml,html等格式。首次我在EditPlus中将文件存为XML,结果WinAlign不认识。而用doc或者rtf则很顺利,要用这两种格式就得用MSword。
在用WinAlign时自动对齐时,英汉语料前面的对齐效果比较好,到后面就比较混乱了,不知道是什么原因。
WinAlign有两个微调工具可以帮助提高自动对齐效果,一是term list,即将双语文件中对应的双语术语列出置于一个文本文件中(锚点词),作为词典供WinAlign调用;另外,双语文本中的段落标记(tag)也有助于提高自动对齐精确度。
在中国大陆公开的文献中,有人曾经介绍用文本处理软件,通过find,replace,和断句标点来作句级对齐。两相比较,oscar3认为,还是使用WinAlign比较轻松。