何谓Concordancer(索引软件)?

xujiajin

管理员
Staff member
所谓Concordancer(常译为索引软件)
Concordancer的主要功能包括KWIC(Key Word In Context)索引、搭配统计、排序、词簇统计、词表统计、功能比较强的还包括其他一些功能,包括类符(type)频数、形符(token)频数、类/形比(type/token ratio)、平均词长(mean length of words)、平均句长(mean length of sentences)等。

绝大部分的Concordancer只支持纯文本的(ASCII)编码格式文件。

现在国内外用的最多的Concordancer要算WordSmith。最专业精致的要算TACT2.1,为加拿大多伦多大学开发的,但该软件是DOS版的,处理语料量有限。

目前可以处理汉语Concordancer有R. J. C. Watt的concordance, MLCT, ConCapp, ParaConc, WordSmith 4等),但是对编码有要求,比如需要UTF-8编码。

以上内容的编写参考了李文中老师在河南师大论坛上的帖子“索引软件常见问题”。
 
谢谢Jiajin的详细介绍,中文检索工具感觉还需要开发,不知国内的有没有?
 
国内有一个上次richard提到的SearchTool.是北京怡和信有限公司2001年开发的一套可以分词处理,加索引,检索,对齐的工具。我觉得功能相当不错。
 
回复:何谓Concordancer(索引软件)?

以下是引用 清风出袖2005-7-6 13:29:11 的发言:
北京大学计算语言研究所倒是有!

这个我完全相信。实际上国内做NLP的这方面的工具一定是有的。另外,从目前的concordancer的功能来看,就编程而言并不会有太大的难度。
 
Back
顶部