回复: 用AntConc处理中文concordance, wordlist, N-gram
Many thanks! It's really helpful.
Many thanks! It's really helpful.
又出了新问题,AntConc检索出的关键词前后总是不是完整的句子,能够设置吗?
3.2.1w 是最新版本,应该不是版本问题。如果使用的是英文系统,查看你的语言和区域设置搞对了没有;如果设置没问题,或者本来就是中文系统,就检查是否做到了下面几点(都是本thread前面讨论过的,看来你需要读第三遍啊):
1、设置AntConc的Global Settings:
Global Settings, Language Encodings, Edit, choose Unicode Encodings, Unicode (utf8), Apply.
2、对文本进行分词处理或汉字加空格:
要想得到wordlist或character list,就得先把汉语文本分词处理,具体关于分词工具及其使用可在本坛查找。也可以简单地给每两个汉字间加个空格,从而达到检索目的。
3、转存文本成utf-8格式:
用Notepad或其它纯文本编辑软件如EditPlus等打开要检索的文本,然后转存,选择编码Encode为UTF-8。
4、使用AntConc得到Wordlist或Concordances。
Good luck!
为什么我用antconc3.3.4W版本的对进行分过词的文本进行检索时,查不出结果?改用3.2.1w版本的对同样的文本进行检索,但是KWIC中包括了此类的标记符号?这个问题怎么解决呢,请各位高手给予解答
The problem might be that the default character encoding changed between 3.2.1 and 3.3.x. The default setting is now UTF-8.
Laurence.
不知道laohong用的什么宝贝!
我的方法是这样的:
我刚才是把Token Definition里面的Upper Case和Mark Token Classes两项选中后,再把Chinese Encoding 里面的第一项选中就行了,下面的我想就不用我来说了。下面是我的截图!
The problem might be that the default character encoding changed between 3.2.1 and 3.3.x. The default setting is now UTF-8.
Laurence.
请问:
在用AntConc3.2.0处理中文时,使用ICTCLAS对100条索引进行分词处理后的.txt文件,在用collocates时得不到结果,为什么呢?语言编码选的是UTF-8??
O(∩_∩)O谢谢.
解决啦,用EditPlus将Encoding改为UTF-8另存一下就可以了
麻烦你帮我详细解释下,谢谢了