所谓Concordancer(常译为索引软件)
Concordancer的主要功能包括KWIC(Key Word In Context)索引、搭配统计、排序、词簇统计、词表统计、功能比较强的还包括其他一些功能,包括类符(type)频数、形符(token)频数、类/形比(type/token ratio)、平均词长(mean length of words)、平均句长(mean length of sentences)等。
绝大部分的Concordancer只支持纯文本的(ASCII)编码格式文件。
现在国内外用的最多的Concordancer要算WordSmith。最专业精致的要算TACT2.1,为加拿大多伦多大学开发的,但该软件是DOS版的,处理语料量有限。
目前可以处理汉语Concordancer有R. J. C. Watt的concordance, MLCT, ConCapp, ParaConc, WordSmith 4等),但是对编码有要求,比如需要UTF-8编码。
以上内容的编写参考了李文中老师在河南师大论坛上的帖子“索引软件常见问题”。
Concordancer的主要功能包括KWIC(Key Word In Context)索引、搭配统计、排序、词簇统计、词表统计、功能比较强的还包括其他一些功能,包括类符(type)频数、形符(token)频数、类/形比(type/token ratio)、平均词长(mean length of words)、平均句长(mean length of sentences)等。
绝大部分的Concordancer只支持纯文本的(ASCII)编码格式文件。
现在国内外用的最多的Concordancer要算WordSmith。最专业精致的要算TACT2.1,为加拿大多伦多大学开发的,但该软件是DOS版的,处理语料量有限。
目前可以处理汉语Concordancer有R. J. C. Watt的concordance, MLCT, ConCapp, ParaConc, WordSmith 4等),但是对编码有要求,比如需要UTF-8编码。
以上内容的编写参考了李文中老师在河南师大论坛上的帖子“索引软件常见问题”。