求助:winalign导出的句对文本如何批量去除"<Quality>89"这些标记?

用winalign对齐语料,导出后句对文本含有<Quality>89 这类标记,其中数字是变化的,请问有没有批量去除的办法?我知道如果在对齐的时候确认全部句对单元,该数字都是100,但如果不确认就导出句对,表示句对质量的数字是变化的。在此先行多谢予以解答的C友。
 
回复: 求助:winalign导出的句对文本如何批量去除"<Quality>89"这些标记?

Winalign结果文件好像是rtf吧。那就在Word里查找替换。替换栏留空即可。
<Quality>^#^#
这个表达式表示<Quality>后跟两位数字。

如果后面的数字不确定,可尝试表达式: \<Quality\>[0-9]{1,}
 

附件

  • quality89.jpg
    quality89.jpg
    50.4 KB · 浏览: 5
  • quality89b.jpg
    quality89b.jpg
    52.5 KB · 浏览: 5
回复: 求助:winalign导出的句对文本如何批量去除"<Quality>89"这些标记?

试了,可以,非常感谢许博士,神奇的正则表达式。
 
回复: 求助:winalign导出的句对文本如何批量去除"<Quality>89"这些标记?

正则表达式(Regular Expressions, 缩略为Regex或RE)有不同版本。用的较多的是Perl版本的Regex,适用于PowerGREP,UltraEdit,EditPlus,EditPad Pro,EmEditor等多数文本编辑器的版本。

适用于MS Word的正则表达式跟通常的Regex差别较多。“通配符选项”是否勾选,使用的表达式还有差别,很多需对照帮助文件才能写对。

在Word“帮助”里搜索“查找和替换"-找到用代码查找用通配符查找即可。
 
Back
顶部