BFSU ParaConc 1.2.1 检索出现问题

armstrong

高级会员
我最近利用BFSU ParaConc 1.2.1 检索汉语对应的平行语料时,如果检索词为单个字,出现结果异常,以“剂”为例,前面有许多检索行根本就不包括“剂”,结果如下图:
 

附件

  • 2014-02-20_161052.jpg
    2014-02-20_161052.jpg
    68.2 KB · 浏览: 23
回复: BFSU ParaConc 1.2.1 检索出现问题

能把您使用的语料发给我一下么,我需要测试一下。:)
 
回覆: 回复: BFSU ParaConc 1.2.1 检索出现问题

能把您使用的语料发给我一下么,我需要测试一下。:)

好的,谢谢贾老师。
这里有两篇语料,供您测试。

我以“说“为检索词,发现有三、四个句子的检索结果不含”说“。
 

附件

  • 11.EN.txt
    23.8 KB · 浏览: 7
  • 11.ZH.txt
    11.3 KB · 浏览: 5
  • 2014-02-24_124518.jpg
    2014-02-24_124518.jpg
    29 KB · 浏览: 6
回复: BFSU ParaConc 1.2.1 检索出现问题

将底层的正则检索改成了Unicode模式,解决了汉字检索的问题。原来的问题解释如下:

假如一个句子的编码如下: AA BB CC DD,现在检索“CC”如果按Unicode检索不会有问题,按ANSI检索也不会有问题。但是如果检索“AB”时,按ANSI就会出问题,第一个字的一半和第二字的另一半编码,碰巧合唱了AB,即:A[A B]B CC DD,其实这个句子中根本不含AB这个字。这就是为什么检索出来一些不含“说”字的句子的原因,现在已经修复了。
 

附件

  • BFSU ParaConc 1.2.zip
    771.8 KB · 浏览: 68
回复: BFSU ParaConc 1.2.1 检索出现问题

Thanks should go to Mr.Jia and Dr. Xu for your fixing the bug.
 
Back
顶部