AntConc 检索中文有意思的现象

对于这个软件检索中文的问题,大多数好像都谈过了,这个发这个帖子写点大家可能不清楚的内容。
这里不谈附码问题,不谈分词。这里谈谈如何让检索出来的内容不乱乎乎的一片,检索出来的结果和英文检索出来那样让人耳目一新。

先说说这个软件为何没法识别中文词。如果问一下中国人中文中什么样的叫词,估计也没多少人说出个客观标准,究竟几个字的算是词。这种问题国人都回答不了,老外更是解决不了了。而在英文中word就是词,辨别的客观标准是词与词之间有空格。而中文中全是方块字,哪有什么空格,所以按照英文处理方式当然无从解决这种问题了。所以使用这个软件的就采用了一种中庸的解决方式(加空格的方式)。

其实可以不用加空格,不过有些功能没法像检索英文那样。部分功能当然没法实现了。
先说说不加空格怎么可以检索。给大家打个比方,中文中的单个汉字就相当于英文中的单个字母,在英文中不加空格其实也能检索,只不过这个软件不知道什么样的叫word了,在Search Term后面的第一个选项中的words前面不要点选,你输入一个字母组合或者单词,然后它会检索出来。
同样道理,检索中文的时候这个words选项也不要点选,然后你输入汉字,它就会给你搜出来。而且上下能够对齐。

前提是你的文件和软件的编码方式要一致。我只在UTF-8编码下测试成功。至于那些中文编码方式都没测试成功。

其实软件作者如果修改一下代码,完全可以实现中文检索不需要加空格,甚至也不需要附码。也就是在软件中添加一个模块专门识别中文词表,或者内置中文词表,或者添加一个功能可以加载中文词表。这样处理下来检索出来的内容就可以有那种对齐效果了。

当然最好软件能加一个统一编码的功能,就是把自动把语料库的编码方式和软件的自动统一起来,这样就不会出现那些怪怪的字符了。
 
Back
顶部