WordSmith 3其实可以处理中文
刚才做了一个小小的试验。
先用FreeICTCLAS(汉语文本词性标注标记工具)(ICTCLAS所有的源代码、论文和技术文档都可以在www.nlp.org.cn 或者 www.ict.ac.cn/freeware/上免费得到。)对一个中文纯文本进行分词处理。
然后用WordSmith3就可以检索了(同理用其他的Concordancer也可以)。当然,你其间会发现有一点点异样,但得到的结果确是我们所需要的。
大家试试看行不行,有问题可以一起来讨论解决。
所以,基于英文的Concordancer之所以不能处理汉语一个重要的原因是因为汉语词与词之间没有space。分词处理(segmentation)之后这个问题就解决了。
刚才做了一个小小的试验。
先用FreeICTCLAS(汉语文本词性标注标记工具)(ICTCLAS所有的源代码、论文和技术文档都可以在www.nlp.org.cn 或者 www.ict.ac.cn/freeware/上免费得到。)对一个中文纯文本进行分词处理。
然后用WordSmith3就可以检索了(同理用其他的Concordancer也可以)。当然,你其间会发现有一点点异样,但得到的结果确是我们所需要的。
大家试试看行不行,有问题可以一起来讨论解决。
所以,基于英文的Concordancer之所以不能处理汉语一个重要的原因是因为汉语词与词之间没有space。分词处理(segmentation)之后这个问题就解决了。