Try opening the Chinese text in Word and replace ^p^p with ^p. Remember to save the result as a txt file.
本人用Gotagger0.7对平行语料库中的英文文本进行词性标注。经标注处理后的文本在在末尾都多出了一个硬回车,即一个回车符开始的空行,这使原本已经对齐的双语文本在Paraconc检索时出现了N/V。请问,有什么方法可以将Gotagger处理过程中增加的噪音去掉。谢谢!
用EditPlus去掉多余的空行:
打开文件,敲Search, Replace, 在Find What 里填入\n\n,在Replace with 里填入\n,下面选择Regular Expression, OK即可。
.....中文文本在分词和词性标注之后没有出现什么异常的现象,英文在用Gotagger标注后,一是每个文本最后都多出了一个回车,二是在用Paraconc测试检索时出现了N/V无效问题......老洪提出用\n\n 和\n处理,我试了,结果正如armstrong所说,最后一行回车无法删除。xiaoz和laohong都说到word里面看看,正如上面的截图所示,在word里面,这个回车并不存在,但是,在EditPlus中,的确有,虽然是空的,但是,应该会影响concordancer对文本的定位,因为对应的中文文本在纯文本格式下就少了一行........