李亮1975重庆
语料库快乐军政委
[FONT="] 《AntConc与WordSmith Tools的功能异同之我见》
[/FONT]
[FONT="] AntConc[/FONT][FONT=宋体]这款免费软件,诞生于[/FONT][FONT="]2002[/FONT][FONT=宋体]年[/FONT][FONT="]4[/FONT][FONT=宋体]月[/FONT][FONT="]16[/FONT][FONT=宋体]日(当时是[/FONT][FONT="]1.0[/FONT][FONT=宋体]版),至今刚好[/FONT][FONT="]10[/FONT][FONT=宋体]岁了,适合处理不超过[/FONT][FONT="]200MB[/FONT][FONT=宋体]的英语语料,而[/FONT][FONT="]100[/FONT][FONT=宋体]万英语单词的“中国英语学习者语料库”([/FONT][FONT="]CLEC[/FONT][FONT=宋体]库)才[/FONT][FONT="]6.6MB[/FONT][FONT=宋体]呢,足够处理[/FONT][FONT="]30[/FONT][FONT=宋体]个“[/FONT][FONT="]CLEC[/FONT][FONT=宋体]库”了,也就是[/FONT][FONT="]3[/FONT][FONT=宋体]千万单词的英语语料库;作者是长年居住在日本早稻田大学的[/FONT][FONT="]1970[/FONT][FONT=宋体]年出生的英国人,本科是物理专业,硕博士阶段就转向语言学了,读博期间开发了针对博士论文的[/FONT][FONT="]AntConc[/FONT][FONT=宋体];[/FONT][/FONT]
[FONT=宋体] 经常有人跨入语料库领域之后,频频表现出对商业版的老牌语料检索软件[/FONT] WordSmith Tools[FONT=宋体]的崇拜敬仰,甚至觉得一旦涉及语料库相关研究就必须用[/FONT]WordSmith[FONT=宋体],下面我对[/FONT]WordSmith Tools[FONT=宋体]与[/FONT]AntConc[FONT=宋体]的相同相异进行尽可能的对比,让初学者有个冷静的较全面认识……[/FONT]
[FONT=宋体]
总体上说,[/FONT] WordSmith[FONT=宋体]的功能定位是:建库辅助[/FONT]+[FONT=宋体]查库辅助,而[/FONT]AntConc[FONT=宋体]没有建库辅助,只有“查库辅助”。
什么是建库辅助呢?从微观上,[/FONT]WordSmith[FONT=宋体]能提供“字符清理”和“字符编码转换”;从中观上,[/FONT]WordSmith[FONT=宋体]能提供“语料标注的剥离”和“单词批量替换”;从宏观上,[/FONT]WordSmith[FONT=宋体]能提供“语料文件之间的对比与统计、内容查看、拆分与合并、文件批量移动,文件批量更名,文件批量核查,网页批量抓取”;在查库辅助方面,[/FONT]WordSmith[FONT=宋体]和[/FONT]AntConc[FONT=宋体]都是在词、字符串、词组、词块、搭配、标注这[/FONT]6[FONT=宋体]个层次上进行检索、统计、对比。
[/FONT] [FONT=宋体]但是,在笔者看来,“建库辅助”是五大需求的合一:[/FONT] 1[FONT=宋体]语料搜集、[/FONT]2[FONT=宋体]语料转换、[/FONT]3[FONT=宋体]语料核查、[/FONT]4[FONT=宋体]语料整理、[/FONT]5[FONT=宋体]语料标注。[/FONT]WordSmith[FONT=宋体]只是刚刚满足了这[/FONT]5[FONT=宋体]大需求的最基本状态,还远远不能适应广泛多样的语料库制作与深加工的需求。
[/FONT] [FONT=宋体]语料搜集:[/FONT] [FONT=宋体]把网页等电子形式的语料下载到硬盘,或把纸质资料按照规划进行购买;[/FONT]
[FONT=宋体]语料转换:[/FONT] [FONT=宋体]把电子图片格式或网页格式的语料转换为[/FONT]txt[FONT=宋体]格式或把图片格式的文字进行识别;[/FONT]
[FONT=宋体]语料核查:[/FONT] [FONT=宋体]组织专人或开发专门工具进行语料质量评价,确保低错误率和随后的补救操作;[/FONT]
[FONT=宋体]语料整理:[/FONT] [FONT=宋体]根据实际情况,放弃某些语料或补充某些语料或重新定位某些语料的性质;[/FONT]
[FONT=宋体]语料标注:[/FONT] [FONT=宋体]自动标注与半自动标注与人工标注相结合,尤其要做好半自动标注的开发;[/FONT]