词性标注处理后出现的问题

oscar3

高级会员
本人用Gotagger0.7对平行语料库中的英文文本进行词性标注。经标注处理后的文本在在末尾都多出了一个硬回车,即一个回车符开始的空行,这使原本已经对齐的双语文本在Paraconc检索时出现了N/V。请问,有什么方法可以将Gotagger处理过程中增加的噪音去掉。谢谢!:)
 
回复: 词性标注处理后出现的问题

Try opening the Chinese text in Word and replace ^p^p with ^p. Remember to save the result as a txt file.
 
回复: 词性标注处理后出现的问题

Try opening the Chinese text in Word and replace ^p^p with ^p. Remember to save the result as a txt file.

The problem is that the same file has 14 lines in EditPlus, but 13 in MS Word.
 

附件

  • rundant line.gif
    rundant line.gif
    10.8 KB · 浏览: 7
  • less.gif
    less.gif
    32.6 KB · 浏览: 5
回复: 词性标注处理后出现的问题

In your image of EditPlus, the 14th line is empty, why not simply remove it?
 
回复: 词性标注处理后出现的问题

本人用Gotagger0.7对平行语料库中的英文文本进行词性标注。经标注处理后的文本在在末尾都多出了一个硬回车,即一个回车符开始的空行,这使原本已经对齐的双语文本在Paraconc检索时出现了N/V。请问,有什么方法可以将Gotagger处理过程中增加的噪音去掉。谢谢!:)

用EditPlus去掉多余的空行:
打开文件,敲Search, Replace, 在Find What 里填入\n\n,在Replace with 里填入\n,下面选择Regular Expression, OK即可。
 
回复: 词性标注处理后出现的问题

用EditPlus去掉多余的空行:
打开文件,敲Search, Replace, 在Find What 里填入\n\n,在Replace with 里填入\n,下面选择Regular Expression, OK即可。

用此方法,最后一段的空行是删不掉的.须用人工删除.
 
回复: 词性标注处理后出现的问题

最后一行EditPlus只是显示那里,但实际并无内容。而Word里的分行/段符号是有内容才显示的。试着Select All,复制、贴到Word里看一下就明白了。
 
回复: 词性标注处理后出现的问题

谢谢xiaoz,laohong,armstrong各位C友的回复关注。本人正在对齐的语料库有将近200对中英文文本构成。汉语文本采用贺胜的CIPP分词并标注,英文采用Gotagger标注。中文文本在分词和词性标注之后没有出现什么异常的现象,英文在用Gotagger标注后,一是每个文本最后都多出了一个回车,二是在用Paraconc测试检索时出现了N/V无效问题。这些问题在标注前经测试不存在。因为文本比较多,通过手工去除回车,效率低不用说,而且容易出错。
老洪提出用\n\n 和\n处理,我试了,结果正如armstrong所说,最后一行回车无法删除。xiaoz和laohong都说到word里面看看,正如上面的截图所示,在word里面,这个回车并不存在,但是,在EditPlus中,的确有,虽然是空的,但是,应该会影响concordancer对文本的定位,因为对应的中文文本在纯文本格式下就少了一行(line)。
真感谢各位能够热心地讨论这个问题。不知道这是我个人遇到的问题,还是Gotagger存在的问题。
 
回复: 词性标注处理后出现的问题

.....中文文本在分词和词性标注之后没有出现什么异常的现象,英文在用Gotagger标注后,一是每个文本最后都多出了一个回车,二是在用Paraconc测试检索时出现了N/V无效问题......老洪提出用\n\n 和\n处理,我试了,结果正如armstrong所说,最后一行回车无法删除。xiaoz和laohong都说到word里面看看,正如上面的截图所示,在word里面,这个回车并不存在,但是,在EditPlus中,的确有,虽然是空的,但是,应该会影响concordancer对文本的定位,因为对应的中文文本在纯文本格式下就少了一行........

不知道你为什么对EditPlus里显示的最后一行那么耿耿于怀。刚才试验了一番,即使汉语中没有最后那个空行,英语中最后有个空行,ParaConc也能正确对应,没有报错。反之亦然。而且,即使在汉语和英语文本里任意加几个空行,ParaConc对应和检索也不会出错。因此,你在用Paraconc测试检索时出现了N/V无效问题应该是别的因素导致的。也许你应该上传两个例文让大家帮你看看哪里出错了。
 
回复: 词性标注处理后出现的问题

The charater in the blank line is NOT a newline character. It must be a character invisible to human eye (thus considered as a blank line). But a computer program can see it and cause misalignment.
 
回复: 词性标注处理后出现的问题

谢谢laohong和xiaozi对这个问题的关注。这几天我也一直在检查其中的问题,但,真是一筹莫展。又感觉电脑有点不正常,疑是病毒作怪,用Ghost翻新了一下。刚才看了laohong的贴,又试了一下,前几天常出现的两个问题,一是原来对齐的行数,在检索时明显不对,二是N/V这样的错误,今天居然没有了。看来我们可以得出两个结论,一是Paraconc也容易受到电脑环境的影响,比如,病毒的干扰;二是,验证了laohong的说法,类似于以上的位于结尾的空行并不影响paraconc的定位。谢谢,各位!
 

附件

  • fa.GIF
    fa.GIF
    9.8 KB · 浏览: 55
Back
顶部