西方的权威机构建成的语料库,很少公开提供的,商业化提供也只是一部分而已。我在bing搜索引擎中,输入“english spoken corpus”,发现了一些本族语的口语语料库的蛛丝马迹,有“The Santa Barbara Corpus of Spoken American English”,,也有“The Corpus of Spoken Professional American-English”,也有“Michigan Corpus of Academic SpokenEnglish”,也有“The London-Lund Corpus of SpokenEnglish”,也有“The Cambridge-Cornell Corpus of Spoken North American English”,也有“Hong Kong Corpus of SpokenEnglish”,品种貌似丰富。 http://www.bing.com/search?q=english+spoken+corpus&go=&qs=n&sk=&form=QBRE
语料库语言学是个特殊的领域,我把它叫做“semi-linguistics and semi-engineering”,因为从建库到用库都需要足够的IT知识。IT知识与技能,不仅包括日常的电脑操作,也包括对文字编码(UNICODE与UTF-8与ANSI)的理解,也包括对信息编码(XML,HTML,SGML)的理解,真正动手做语料库的人就会发现这些知识的极端重要性,而没有掌握这些入门知识人就往往发现“乱码奔腾”或“无所适从”。我身边的外语专业的有些硕博士甚至连“记事本”与“文本文件”的概念区别都没有,他或她把“桌面”的某个txt文件的删除叫做“删除了记事本”。外语专业的师生,80%以上是女性,她们平时都都很少独立去下载或搜索什么实用软件的,一旦遇到问题就往往求助于身边的“男高手”,但是男高手在外语界实在太少了。涉足语料库的外语师生往往对IT的基础性学习都没有展开而导致在语料库研究上的屡屡碰壁。