麻烦大家推荐几个测试环境下的英语本族语者口语语料库,万分感谢

回复: 麻烦大家推荐几个测试环境下的英语本族语者口语语料库,万分感谢

somebody helpful?
 
我不太明白,也许有更多人不太明白

测试环境是指“考试情况下”么?中国土地上发生的官方考试的问题卷和答题卷往往处于保密绝密的封锁状态,众所周知了,就算是“外国语言学及应用语言学专业的语言测试方向”的硕博士也肯定拿不到的,只能进行“隔岸观火”的研究,偶尔能拿到一鳞半爪,就庆幸得睡不着觉了。

口语语料库的文件体积很大呢,你看北外出版的口语语料库数百兆呢,虽然纯文字的转写的部分的文件体积并不算大。口语语料库的制作比笔语语料库的制作要昂贵很多倍很多倍了,其中的声音转写为文字就是庞大的工程。你瞧下面的链接,口语语料库或语音语料库往往是重大资金的长期投入且背靠着足够的技术支持才得以建成的。
http://www.cass.net.cn/cass/show_News.asp?id=79310

在国内外的互联网上,很少有个人提供自己或别人的语料库下载的,原因一是版权,原因二是自私。以官方正式的形式提供语料库下载的,一般也极为稀少,毕竟语料库就像一座矿山,而版权不仅牵涉到制作者的版权,也牵涉到文本来源的说话者或写作者的版权与意愿。

英美本族语的语料库能提供下载的就已经很少了,因为一般而言的建库往往要进行词性标注和句法标注,耗时耗钱,更不要说口语语料库之“大笔资金往往只能换来文字量并不多的库”了。

西方的权威机构建成的语料库,很少公开提供的,商业化提供也只是一部分而已。我在bing搜索引擎中,输入“english spoken corpus”,发现了一些本族语的口语语料库的蛛丝马迹,有“The Santa Barbara Corpus of Spoken American English”,,也有“The Corpus of Spoken Professional American-English”,也有“Michigan Corpus of Academic Spoken English”,也有“The London-Lund Corpus of Spoken English”,也有“The Cambridge-Cornell Corpus of Spoken North American English”,也有“Hong Kong Corpus of Spoken English”,品种貌似丰富。


http://www.bing.com/search?q=english+spoken+corpus&go=&qs=n&sk=&form=QBRE

语料库语言学是个特殊的领域,我把它叫做“semi-linguistics and semi-engineering
”,因为从建库到用库都需要足够的IT知识。IT知识与技能,不仅包括日常的电脑操作,也包括对文字编码(UNICODE与UTF-8与ANSI)的理解,也包括对信息编码(XML,HTML,SGML)的理解,真正动手做语料库的人就会发现这些知识的极端重要性,而没有掌握这些入门知识人就往往发现“乱码奔腾”或“无所适从”。我身边的外语专业的有些硕博士甚至连“记事本”与“文本文件”的概念区别都没有,他或她把“桌面”的某个txt文件的删除叫做“删除了记事本”。外语专业的师生,80%以上是女性,她们平时都都很少独立去下载或搜索什么实用软件的,一旦遇到问题就往往求助于身边的“男高手”,但是男高手在外语界实在太少了。涉足语料库的外语师生往往对IT的基础性学习都没有展开而导致在语料库研究上的屡屡碰壁。

我平时经常对身边朋友说:中国的语料库语言学是,方便搜集什么就搜集什么,能搜集多少就是多少,精品还是次品,建设还是重复建设,自己最清楚。每个人都申请大笔资金在打造中国最厉害的航空母舰,其实没有人造出来给国家国防,甚至也没有用于地区防卫(本单位的其他研究者或师生);就算某些人或某些机构都曾经打造出来了某种规模的航空母舰,也只下水一次就放进博物馆。下水一次就是“发表三五篇论文,还不一定都是核心论文”。

现实虽然残酷,机遇却是海量的,语料库语言学所依赖的自然语言处理技术正在日新月异地发展,语料库语言学不仅是教学的新动力,也更是研究的新动向。所以,让我们为语料库语言学而奋斗而疯狂吧,下面的基于《陋室铭》的《语料铭》,是赠与所有热爱语料库语言学的理论及其应用的各方人士……

《语料铭》
料不在多,上万就行。器不在名,AntConc就行。斯是小库,唯吾神气。UNICODE上阶绿,XML入帘青。谈笑有习得, 往来跨学科。可以探语义,做统计,无哲学之空谈,无技术之烦心。南有桂诗春,东有杨惠中。李亮曰:“能编程者,何惧之有?”
 
Back
顶部