语料库语言学及其应用
许智坚
提要:语料库语言学是近年来国外语言学及语言教学界讨论最多的热门 话题之一。 本文介绍了语料库语言学的发展和现状及语料库语言 学在语言研究、辞书编纂、机器翻译与校对和外语教学等领域的 应用。
关键词:语料库 应用
一、引言
语料库(corpus)亦称语库或素材,是收集并科学地组织起来的一套语言材料,这种材料是某种语言中自然出现的,可以是书面的,也可以是口头的。这些未经加工的材料是语言统计的基础,是分析和研究语言规律,编纂辞书,利用计算机加工自然语言以及语言教学绝好的第一手资料。语料语言学(corpus linguistics)是以语篇(text)语料为基础对语言进行研究的一门学科,是计算语言学(computational linguis -tics)的一个分支。过去,语料库中的材料由人工收集和整理;今天,由于使用了计算机的先进技术,语料库建设的效率和规模都大大提高了,为语料库能够得到更广泛的应用打下了坚实的基础。
二、语料库语言学的回顾
利用真实的(authentic)语言材料研究语言一直是语言学家的传统。《牛津英语辞典》的编纂者Murray和《现代英语语法》的作者Jesperson都曾以原始的方法认真积累真实语言素材,并且以这些素材为基础来发现规律和解释语言现象。但是,这种早期的语料库语言学到了本世纪50年代末,随着Chomsky生成语法学派的兴起而中断了。Chomsky区分了语言能力和语言行为。他认为,语言能力指所有说本族语的人可以理解并且说出从来没有听过的句子的能力,语言行为则指说话人实际使用的语言,即话语本身。他曾经批评说:“任何自然语言的语料都是偏颇的。有些句子显然是不会出现的,另外一些句子是假的,不会出现,还有一些句子是不礼貌的也不会出现的”。(Chomsky,1962)语料不过是语言行为(performance)的取样,与人们的语言能力(competence) 完全是两回事。所以,分析真实语篇对解释语言的语法不可能起任何作用,更不用说形成一种普遍的语言学理论。因此,Chomsky认为, 语言学的任务是研究语言能力,而不是语言行为;本族语说话人对语言的直觉才是充分的,才是语言学研究的对象。
尽管如此,英国伦敦大学的Quirk并不畏权威的批评, 开创了新一代的语料库语言学。他在1959年宣布要收集大量不同文体的英语素材,建立英国英语口语和书面语的“英语用法调查” ( The Survey of English Usage;以下简称SEU)语料库的计划,目的是要对英语语法进行全面准确的描写。此后不久,美国的Francis和Kucera 等人在布朗大学利用计算机建立了布朗语料库(Brown University Standard Corpus of Present-day American English),收集了1961 年出版的各种美国英语样本,共计100万词。1975年,Svartvik和他在Lund大学的同事开始把SEU语料库中的口语部分转变为可由计算机解读的形式, 最后建立了“伦敦-朗德英语口语语料库”(London- Lund Corpus of Spoken English)。这个语料库不仅激发了对英语口语的研究, 而且鼓舞人们进行了大量的有关语料库的研究工作,开创了语料库语言学的新局面。三十多年来,语料库语言学不断扩大研究范围,取得了丰硕的成果,巩固并提高了自己在语言学界的地位。尤其是应用不断更新的计算机技术建立的语料库,规模大、功能多、检索方便,使语言研究的手段和方法发生了巨大变化,对语言学理论探索也产生了深远的影响。1991年8 月在斯德哥尔摩召开的诺贝尔语料语言学研究会(Nobel Sympo-sium on Corpus Linguistics)上,语言学家们在认真总结和评估了这方面研究成果之后得出了这一结论:语料语言学“正在成为一个独立的学科”,而且发展前景相当广阔(Svartvik,1992)。
三、语料库的发展
一般地说,语料库的规模越大,即包含的材料越多,就越能代表实际使用中的语言。建立大规模的语料库,为科学地进行语言各领域的研究提供可靠的基础,这是教育家和语言学家孜孜以求的。早在30年代,美国的Thorndike和Lorge就组织收集了含5百万次的分类英语库,并在此基础上编出了一些著名的词汇表,如West编著的附有出现频率的2千个常用词汇表。早期的语料库是用手工抄在卡片上的,如由Quirk 1959年创立的含一百万次的SEU语料库(the Survey of English Usage)最初是用手工抄在卡片上的,该库是在计算机普及前的年代完成,因而语料的分析也是在卡片上进行的。第一个计算机语料库是 1961 - 1964 年在美国Brown大学建立的布朗大学语料库(Brown University Corpus),储存在计算机内的语料库较书写记录在卡片上的语料库有许多好处。例如,使用者自己检索起来十分方便,并可轻而易举地对语料库进行加工,世界各地学者也可以享用这些可由计算机识读的语料。另外,计算机语料库可储存大量的语料,其编制速度和存储规模在以前是不可想象的。如,Sinclair教授领导的“柯林斯─伯明翰大学国际语料库”(Collins Birmingham University International Language Database; 简称为COBUILD)1980年计划编辑含5百万的具有足够代表性的英语库,由于利用了计算机,COBUILD语料库至1996年2月,所含的语料库已由原来的6百万次扩展到2亿次,成为当今世界上最大的英语库之一。随着计算机运算速度的提高,光学扫描仪和CD-ROM (光盘只读存储器)等技术的发展和计算机语料库软件的商品化,据Leech(1991)估计,到2010 年将会出现1万亿单词规模的语料库。当然,规模的大小并不是语料库唯一的重要因素。新的形势对语料库的收集和编制提出了新的要求:
1)扩大库容,使所含的语料更加充分、更具有代表性,能够真正反映语言的实际用法。如90年代建立的“英语国家语料库”( British National Corpus;以下简称BNC),该语料库包含一亿个词的材料,其中有9000万词的书面语文本和1000万词的口语文本。书面语文本有两大 .3.
类:信息性部分和想象性部分。信息性部分从主题范围、文本类型和层次三个方面规定了百分比。按主题范围划分:自然科学(5%),社会和社区(15%),商业和金融(10%),信仰和思想(5%),应用科学(5%),国际事务(15%),艺术(10%),休闲(10%)。按文本类型划分:书籍(55-65%) ,报刊(20-30%),其它各种印刷出版了的文本(5-10%) 各种非出版的文本(5-10%),用于口述的文本(2-7%)。按层次分:专业性文本(30%),非专业性文本(50%),普及性文本(20%)。想象性文本占书面语文本的20-30%,按文本的层次分为三类:纯文学性的、中间的和通俗的各占三分之一(Leech 1993)。对于语言学家来说,这样一个广泛、全面、均衡地收集各了方面的材料的语料库对语言的研究和分析是非常有帮助的。
2)国际化,使语料代表语言的各种形式。英语语料库的建立始于英国和美国等以英语为本族语的国家。随着英语作为第二语言(TESL)和作为外语(TEFL)教学受到越来越广泛的重视,许多语言学家和语言教师开始意识到光靠英语作为本族语的语料库的帮助是不够的,因为这种语料中的材料仅仅反映了本族人使用英语的情况。而要反映外国人学习英语的情况,就必须建立英语作为第二语言或外语的语料库。为此,英国的 Greenbaum 和美国的 Meyer 酝酿建立的国际英语语料库 ( the International Corpus of English;以下简称ICE)于1988 年1月正式开始。他们把计算机化的语料库研究扩展到其他讲英语的国家和英语作为官方附加语言的国家,并将口语、手稿及刊印英语均纳入语料库之中,弥补了语料库研究的一个明显缺欠:缺少口语英语和手稿英语文本。ICE开始时有英、美、尼日利亚三个国家的专家组参与,至94 年底已有包括中国香港和新加坡在内的23个国家和地区设有工作小组。每个国家的工作组都编辑了一个核心语料库,收集一定数量的从1990至1993年间的受过教育的成人的英语书面语或口语,该语料库成为中心语料库的一部分。在此基础上各参与国努力收集具有代表性的,充分覆盖各种社会变体的文本,扩展自己的语料库或使其专门化。在我国,语料库语言学的研究是从70年代末80 年代初兴起的, 尤以上海交通大学最为活跃。
1982年底,上海交大的黄人杰、杨惠中主持完成了含1百万次的专门用途英语语料库JDEST,含2千篇(每篇至少5百字)科技英语文本。 该语料库对不同的类型与语体均有考虑并编码成系。收集的内容涉及10个专业。
3)多元化,使语料库不局限于英语,而是包含多种语言。语料库语言学发展的初期是以英语作为研究对象的。但是,现在已发展到英、法、德、西、意、荷、日、汉语等的20多个语种。如1990年由剑桥大学出版社Paul Proctor主持的剑桥语言调查(the Cambridge Language Survey;以下简称CLS)以合作伙伴的形式,平等对待所涉及的各国语言。CLS在语义方面,各语言的文化、政治内涵,语体、词组、 搭配等方面进行广泛的研究。各国语言学家不断吸收和利用新的科学技术,进行相互间的研究计划合作, 交流信息与资料。 又如 CLS 主要项目之一的Acquilex计划,这一计划的主要目标是建成一套有相当规模的多语种词汇知识信息库(Lexical Knowledge Base),应用于自动化的自然语言处理,如机器翻译,计算机辅助翻译,计算机系统(如信息库系统)之间的相互作用、办公自动化等方面的研究。该研究对机器翻译系统的潜在前景,对欧共体的经济发展和各语言库之间的互馈,实现欧共体72种语言之间互译具有重大的意义。
建立汉语语料库,对中文信息进行自动分析处理和研究到了80年代开始成为一个热门课题。1986 年8月新加坡举办了中文电脑国际会议(International Conference on Chinese Computing;简称ICCC)。 在这次会上,台北中央研究院资讯科学研究所的陈克健研究员发表了题为“汉语的句法分析”的演讲。十年来,针对这一课题,他领导的研究小组已建立了一个含9万词条的汉语词库,实现了一个基于线图( chart)的汉语句法分析器。最近,他们又在互联网络(internet)上公布了一个规模为200万字的、已带分词与词性标记的平衡语料库。 我国在汉语语料库的建立和应用方面也取得了很大的成绩。如清华大学计算机科学与技术系的孙茂松副教授解决了汉语自动分词技术上的三个难题: (1)人名、地名、译名等未登录词的辩识;(2)歧义词切分字段的辩识;(3)词表、统计数据和语言规则等资源的制备。而汉语的句法分析、汉字识别与语音识别的后处理、文-语转换、全文检索、文本校对、汉字简繁转换、词频统计、新词发现和词语搭配研究等的应用无不依赖于自动分词的结果。(黄昌宁,1996)
四、语料库语言学的应用
进入80年代以后,随着计算机技术的发展和普及,语料语言学的发展加快了步伐。许多新的语料库相继建成,对语料的处理也由较为简单的机器可读形式发展到人工或自动词性附码 ( tagging) 和句法分析(parsing)的注释(anno-tated)形式。 利用语料库对语言进行研究的成果不断出现,语料库语言学的应用范围也越来越广。从辞典、语法书编纂到对自然语言的研究,语料库语言学正在逐渐引发应用语言学特别是外语教学的一场革命。
1、语言研究。语料库为应用语言学的研究提供了丰富的语言材料。语料库语言学使得在语言理论、语言史研究和句法、词法分析及自动语法分析方面得到了充分的应用。
(1)语言学理论。60年代初期,Chomsky的转换生成语法理论风行美国和全世界的时候,处于萌芽时期的新一代语料库语言学受到了一些人的怀疑。当时转换生成学派语言学家的做法是依靠自己的直觉编造例证来证明自己的理论。Quirk对这种做法提出了批评, 他强调研究自然语言材料的重要性,并引用Aldous Hexley的话说:“我们最精到的理论,人们最细致的描写,都不过是对实际情况极度粗糙而又不讲理的简化,实际情况和每个最简单的实例都是无比复杂的。”Quirk指出, 他要研究的正是实际情况的这种复杂性(胡明杨,1992)。语料库的建立使语言的理论研究的手段和方法发生了巨大的变化,它不但修正了语言的一般性规则,而且对语言的理论探索也产生了深远的影响。
(2)语言史研究。大多数语料库的语料都有特定的年代跨度, 根据不同的研究目的, 从一年至百年不等。 如为了研究英语史而建立的Helsinki Corpus of English Tests)的历史部分,年代跨长从公元850年至1720年。这一语料库无疑为研究语言的历史和发展提供了丰富、可靠的素材。
(3)句法、词法及自动语法分析。 利用语料库进行语法分析是语料库语言学的早期目的之一。如今,人们对语料库内的语料进行更高层次的研究,对入库的语篇进一步的处理,如进行词性附码和句法分析(句法分析是指对经过自动词性附码的语料库根据某种特定的语法描述进行语法分析),使语料的自动语法分析成为可能。从而也大大方便了词的语义及功能研究、近义词的比较研究、搭配及其结构的研究、语体的研究、英语口语音型和语调研究、英语名词短语的成语性研究和英语句法发展的研究。自动语法分析还被应用于语法检查、词义排歧、自然语言接口、对名词短语辩识的改进、机器翻译等。
此外,语料库语言学还为语义学和语用学研究、话语及会话分析、言语变体(口笔语,语言与性别,文体学及方言)、语音科学、儿童语言习得和心理语言学研究等方面提供了非常丰富的实例,充分体现了语料库语言学在语言研究方面的作用。
2、编篡工具参考书籍。当代一些对外语教学有着重要影响的词典和语法书均是在语料库的基础上编写的。SEU语料库建成后,Quick等人合编了堪称权威之作的《当代英语语法》(A Grammar of Contempor- ary English),并根据充实了的语料库合编了更具权威的《英语语法大全》(A Comprehensive Grammar of the English Language)。COBUILD语料库也以其庞大的库容、多样的内容作为词典编纂不可缺少的工具。在这一语料库的基础上,现已出版了七本字典,分别是:
The Collins COBUILD English Language Dictionary;
The Collins COBUILD English Grammar;
The Collins COBUILD Student's Grammar;
The Collins COBUILD Dictionary of Phrasal Verbs;
A School Dictionary;
Collins COBUILD English Guides(to prepositions,...);
Collins COBUILD English Usage(1992).
还将计划出版的有:
The Collins COBUILD English Language Dictionary 的第二版;同义词(词库大全);各种语法书等(王建新,1997)。
颇受英语界好评的《朗曼当代英语词典》( Longman Dictionary of Con-temporary English)1995年推出了第三版(简称《三版》) 。《三版》的编写利用了三个大型的语料库:超过1亿词的BNC 语料库;3000万词的朗曼兰开斯特语料库(Longman Lancaster Corpus;该语料库专收英美人谈话的材料,是根据实际谈话录音整理而成的对研究口语非常有用)和朗曼学习者语料库(Longman Learner's Corpus;这个语料库专门收录学生,尤其是外国学生所写的英语,收集了不少典型错误,使词典编写更有针对性)。这三个语料库全面记录了语言使用的情况, 无论是书面语还是口语,标准英语还是非标准英语,英国英语还是美国英语或其他地区的英语,都广泛收罗进去(源可乐,1997)。《三版》利用语料库以及语言学研究的新成果,在语料上反映出当代英语的真面目,在设计上也作了大胆的改革,如分级标出最常用词,使用频率比较,按使用频率排列意义、成语、搭配和例句等,大大方便了使用者,把教学型词典推上了一个新台阶。
3、机器翻译及文本校对。利用计算机将语料库中的材料,按一定的要求编码、处理,如把语言的各个层级分别看待,即词、句法、语义、互指(core-ference),不同的应用将利用不同层级的信息,在词级层级上的分析应用上就可以进行词的切分和词法分析、拼写检查、全文检索、词频统计、名词短语的辩识、义类词典(thesaurus)、逐词机器翻译等。在句子(句法、语义)的分析和应用上可以进行语法检查、词义排歧、自然语言接口、对名词短语辩识的改进、机器翻译等。对机器可读的语料库进行编码处理,并赋予一定的语法规则,制作出的翻译软件、校对软件、定位检索软件、语义网等是目前语料库语言学应用研究的一大成果。它们的问世为语言工作者和学习者提供了一个十分方便的语言工具。以英汉翻译系统为例,目前我国市场上可见的译星、译林、快译通等电子词典和计算机双向全文翻译系统非常受语言学习者和语言工作者的欢迎。计算机多媒体使电子词典不仅提供了词意,而且还能模拟人声读出音来。一些专业全文翻译软件能进行双向翻译且翻译的正确率已达到了80%,翻译人员只需将本族语或目标语输入计算机, 计算机就能在几分钟内将译文输出,翻译人员再用较短的时间对其进行人工校译就能完成译文工作,大大缩短了翻译时间。将计算机的校对系统用于文字处理器中,能对所输入的文本进行自动输入校对和语法错误提示,大大地提高了输入的正确率,节省了大量的文稿校对时间。
4、外语教学。语料库不但为语言研究提供了丰富的原料,是编写词典、语法书和各种教材的重要源泉,而且在外语教学理论、内容、方法等方面也正在起着重要的作用。在外语教学中语料库语言学可以应用于(1)帮助减少课堂上教的与人们实际上正在使用的语言之间的差距;(2)发现过去被忽略的语言规律;(3) 帮助我们更清楚地认识各种语域变体的特点;(4) 帮助我们更准确地理解一些词语在实际交际中的意义和用法;(5)帮助发现学习者使用语言时的问题;(6)测试及语言错误分析等方面。在计算机辅助教学中语料库语言学能在教学中发挥更大的作用。请看计算机定位检索软件(一种用于在机器可读的语料库中检索关键词并将检索结果以定位索引的形式输出的计算机程序)在外语教学中所起的作用:
(1)教材的选择。选择合适的教材对于教学来说是非常重要的。 现在许多教材的选材以编写人员的经验或语感(intuition)为依据, 由于没有客观的量化标准,往往不能保证所选语篇真正符合教学需要。利用定位检索软件对某些词在一个语篇中的分布情况和出现频率的统计,可以较为客观地判断出该语篇的题材和难度,使取舍有了量化的标准。借助词频统计还可以确定哪些是教材中应重点讲授的核心词和语言点以作为教材编写和教学的重点。
(2)提供例句的来源。在解释词或搭配的意义和用法时, 教师不用自己去创造例句(这往往会造成不真实或不准确),而是可以借助定位检索软件在语料库中寻找以该语言为母语的人使用该词或搭配的例句。这样得到的例句既生动又真实,因而说服力强。
(3)编写练习或测试题。 使用定位检索软件准备练习题或测试题可以极大地减轻教师的工作量,并且使题目更具真实性和可靠性。
(4)学生作文分析。选择部分学生作文语体的语篇作为参照语料库,用定位检索软件分别对每个学生的作文做词频统计并将分析结果打印出来,这样教师就可以很容易地分析出学生是否能正确地使用所学的词或词组,出现了哪些语法错误等。
五、结束语
近年来,语料库语言学的发展较为迅速,它为语言研究打开了一条新的道路。越来越多的从事语言学研究的人开始注意到其重要性和发展潜力。但是,目前的语料库绝大多数是英语语料库,其它语言的语料库很少,将语料库语言学应用于外语教学相对来说也还比较薄弱。而如何借鉴世界大型语料库的成功经验与不足,使我国的语料库语言学研究与国际上的研究接轨,却是摆在我国语料库语言工作者面前的一项重大的任务。
参考文献
1、陈建生 1997,关于语料语言学,《国外语言学》第1期
2、谢应光 1996,语料库语言学与外语教学, 《外语教学与研究》第3期
3、王建新 1996,介绍当代三个英语语料库, 《外语教学与研究》第3期
4、张 煤 1997,国际英语学习者语料库与英语教学, 《国外外语教学》第1期
5、源可乐 1997, 评《朗曼当代英语词典》(第三版)《外语教学与研究》第3期
6、陈建生 1997,定位检索软件辅助英语教学, 《外语教学与研究》第2期
7、黄昌宁、孙茂松1996,中文信息处理最新成果的检阅,《国外语言学》第4期
8、胡明扬 1992,英语用法调查语料库及其他英语语料库, 《国外语言学》第4期
9、张健颖、丁 放1995,论核心词汇的判别标准,《外语界》第2期
10、顾 阳 1996,生成语法及词库中动词的一些特性,《国外语言学》 第3期
许智坚
提要:语料库语言学是近年来国外语言学及语言教学界讨论最多的热门 话题之一。 本文介绍了语料库语言学的发展和现状及语料库语言 学在语言研究、辞书编纂、机器翻译与校对和外语教学等领域的 应用。
关键词:语料库 应用
一、引言
语料库(corpus)亦称语库或素材,是收集并科学地组织起来的一套语言材料,这种材料是某种语言中自然出现的,可以是书面的,也可以是口头的。这些未经加工的材料是语言统计的基础,是分析和研究语言规律,编纂辞书,利用计算机加工自然语言以及语言教学绝好的第一手资料。语料语言学(corpus linguistics)是以语篇(text)语料为基础对语言进行研究的一门学科,是计算语言学(computational linguis -tics)的一个分支。过去,语料库中的材料由人工收集和整理;今天,由于使用了计算机的先进技术,语料库建设的效率和规模都大大提高了,为语料库能够得到更广泛的应用打下了坚实的基础。
二、语料库语言学的回顾
利用真实的(authentic)语言材料研究语言一直是语言学家的传统。《牛津英语辞典》的编纂者Murray和《现代英语语法》的作者Jesperson都曾以原始的方法认真积累真实语言素材,并且以这些素材为基础来发现规律和解释语言现象。但是,这种早期的语料库语言学到了本世纪50年代末,随着Chomsky生成语法学派的兴起而中断了。Chomsky区分了语言能力和语言行为。他认为,语言能力指所有说本族语的人可以理解并且说出从来没有听过的句子的能力,语言行为则指说话人实际使用的语言,即话语本身。他曾经批评说:“任何自然语言的语料都是偏颇的。有些句子显然是不会出现的,另外一些句子是假的,不会出现,还有一些句子是不礼貌的也不会出现的”。(Chomsky,1962)语料不过是语言行为(performance)的取样,与人们的语言能力(competence) 完全是两回事。所以,分析真实语篇对解释语言的语法不可能起任何作用,更不用说形成一种普遍的语言学理论。因此,Chomsky认为, 语言学的任务是研究语言能力,而不是语言行为;本族语说话人对语言的直觉才是充分的,才是语言学研究的对象。
尽管如此,英国伦敦大学的Quirk并不畏权威的批评, 开创了新一代的语料库语言学。他在1959年宣布要收集大量不同文体的英语素材,建立英国英语口语和书面语的“英语用法调查” ( The Survey of English Usage;以下简称SEU)语料库的计划,目的是要对英语语法进行全面准确的描写。此后不久,美国的Francis和Kucera 等人在布朗大学利用计算机建立了布朗语料库(Brown University Standard Corpus of Present-day American English),收集了1961 年出版的各种美国英语样本,共计100万词。1975年,Svartvik和他在Lund大学的同事开始把SEU语料库中的口语部分转变为可由计算机解读的形式, 最后建立了“伦敦-朗德英语口语语料库”(London- Lund Corpus of Spoken English)。这个语料库不仅激发了对英语口语的研究, 而且鼓舞人们进行了大量的有关语料库的研究工作,开创了语料库语言学的新局面。三十多年来,语料库语言学不断扩大研究范围,取得了丰硕的成果,巩固并提高了自己在语言学界的地位。尤其是应用不断更新的计算机技术建立的语料库,规模大、功能多、检索方便,使语言研究的手段和方法发生了巨大变化,对语言学理论探索也产生了深远的影响。1991年8 月在斯德哥尔摩召开的诺贝尔语料语言学研究会(Nobel Sympo-sium on Corpus Linguistics)上,语言学家们在认真总结和评估了这方面研究成果之后得出了这一结论:语料语言学“正在成为一个独立的学科”,而且发展前景相当广阔(Svartvik,1992)。
三、语料库的发展
一般地说,语料库的规模越大,即包含的材料越多,就越能代表实际使用中的语言。建立大规模的语料库,为科学地进行语言各领域的研究提供可靠的基础,这是教育家和语言学家孜孜以求的。早在30年代,美国的Thorndike和Lorge就组织收集了含5百万次的分类英语库,并在此基础上编出了一些著名的词汇表,如West编著的附有出现频率的2千个常用词汇表。早期的语料库是用手工抄在卡片上的,如由Quirk 1959年创立的含一百万次的SEU语料库(the Survey of English Usage)最初是用手工抄在卡片上的,该库是在计算机普及前的年代完成,因而语料的分析也是在卡片上进行的。第一个计算机语料库是 1961 - 1964 年在美国Brown大学建立的布朗大学语料库(Brown University Corpus),储存在计算机内的语料库较书写记录在卡片上的语料库有许多好处。例如,使用者自己检索起来十分方便,并可轻而易举地对语料库进行加工,世界各地学者也可以享用这些可由计算机识读的语料。另外,计算机语料库可储存大量的语料,其编制速度和存储规模在以前是不可想象的。如,Sinclair教授领导的“柯林斯─伯明翰大学国际语料库”(Collins Birmingham University International Language Database; 简称为COBUILD)1980年计划编辑含5百万的具有足够代表性的英语库,由于利用了计算机,COBUILD语料库至1996年2月,所含的语料库已由原来的6百万次扩展到2亿次,成为当今世界上最大的英语库之一。随着计算机运算速度的提高,光学扫描仪和CD-ROM (光盘只读存储器)等技术的发展和计算机语料库软件的商品化,据Leech(1991)估计,到2010 年将会出现1万亿单词规模的语料库。当然,规模的大小并不是语料库唯一的重要因素。新的形势对语料库的收集和编制提出了新的要求:
1)扩大库容,使所含的语料更加充分、更具有代表性,能够真正反映语言的实际用法。如90年代建立的“英语国家语料库”( British National Corpus;以下简称BNC),该语料库包含一亿个词的材料,其中有9000万词的书面语文本和1000万词的口语文本。书面语文本有两大 .3.
类:信息性部分和想象性部分。信息性部分从主题范围、文本类型和层次三个方面规定了百分比。按主题范围划分:自然科学(5%),社会和社区(15%),商业和金融(10%),信仰和思想(5%),应用科学(5%),国际事务(15%),艺术(10%),休闲(10%)。按文本类型划分:书籍(55-65%) ,报刊(20-30%),其它各种印刷出版了的文本(5-10%) 各种非出版的文本(5-10%),用于口述的文本(2-7%)。按层次分:专业性文本(30%),非专业性文本(50%),普及性文本(20%)。想象性文本占书面语文本的20-30%,按文本的层次分为三类:纯文学性的、中间的和通俗的各占三分之一(Leech 1993)。对于语言学家来说,这样一个广泛、全面、均衡地收集各了方面的材料的语料库对语言的研究和分析是非常有帮助的。
2)国际化,使语料代表语言的各种形式。英语语料库的建立始于英国和美国等以英语为本族语的国家。随着英语作为第二语言(TESL)和作为外语(TEFL)教学受到越来越广泛的重视,许多语言学家和语言教师开始意识到光靠英语作为本族语的语料库的帮助是不够的,因为这种语料中的材料仅仅反映了本族人使用英语的情况。而要反映外国人学习英语的情况,就必须建立英语作为第二语言或外语的语料库。为此,英国的 Greenbaum 和美国的 Meyer 酝酿建立的国际英语语料库 ( the International Corpus of English;以下简称ICE)于1988 年1月正式开始。他们把计算机化的语料库研究扩展到其他讲英语的国家和英语作为官方附加语言的国家,并将口语、手稿及刊印英语均纳入语料库之中,弥补了语料库研究的一个明显缺欠:缺少口语英语和手稿英语文本。ICE开始时有英、美、尼日利亚三个国家的专家组参与,至94 年底已有包括中国香港和新加坡在内的23个国家和地区设有工作小组。每个国家的工作组都编辑了一个核心语料库,收集一定数量的从1990至1993年间的受过教育的成人的英语书面语或口语,该语料库成为中心语料库的一部分。在此基础上各参与国努力收集具有代表性的,充分覆盖各种社会变体的文本,扩展自己的语料库或使其专门化。在我国,语料库语言学的研究是从70年代末80 年代初兴起的, 尤以上海交通大学最为活跃。
1982年底,上海交大的黄人杰、杨惠中主持完成了含1百万次的专门用途英语语料库JDEST,含2千篇(每篇至少5百字)科技英语文本。 该语料库对不同的类型与语体均有考虑并编码成系。收集的内容涉及10个专业。
3)多元化,使语料库不局限于英语,而是包含多种语言。语料库语言学发展的初期是以英语作为研究对象的。但是,现在已发展到英、法、德、西、意、荷、日、汉语等的20多个语种。如1990年由剑桥大学出版社Paul Proctor主持的剑桥语言调查(the Cambridge Language Survey;以下简称CLS)以合作伙伴的形式,平等对待所涉及的各国语言。CLS在语义方面,各语言的文化、政治内涵,语体、词组、 搭配等方面进行广泛的研究。各国语言学家不断吸收和利用新的科学技术,进行相互间的研究计划合作, 交流信息与资料。 又如 CLS 主要项目之一的Acquilex计划,这一计划的主要目标是建成一套有相当规模的多语种词汇知识信息库(Lexical Knowledge Base),应用于自动化的自然语言处理,如机器翻译,计算机辅助翻译,计算机系统(如信息库系统)之间的相互作用、办公自动化等方面的研究。该研究对机器翻译系统的潜在前景,对欧共体的经济发展和各语言库之间的互馈,实现欧共体72种语言之间互译具有重大的意义。
建立汉语语料库,对中文信息进行自动分析处理和研究到了80年代开始成为一个热门课题。1986 年8月新加坡举办了中文电脑国际会议(International Conference on Chinese Computing;简称ICCC)。 在这次会上,台北中央研究院资讯科学研究所的陈克健研究员发表了题为“汉语的句法分析”的演讲。十年来,针对这一课题,他领导的研究小组已建立了一个含9万词条的汉语词库,实现了一个基于线图( chart)的汉语句法分析器。最近,他们又在互联网络(internet)上公布了一个规模为200万字的、已带分词与词性标记的平衡语料库。 我国在汉语语料库的建立和应用方面也取得了很大的成绩。如清华大学计算机科学与技术系的孙茂松副教授解决了汉语自动分词技术上的三个难题: (1)人名、地名、译名等未登录词的辩识;(2)歧义词切分字段的辩识;(3)词表、统计数据和语言规则等资源的制备。而汉语的句法分析、汉字识别与语音识别的后处理、文-语转换、全文检索、文本校对、汉字简繁转换、词频统计、新词发现和词语搭配研究等的应用无不依赖于自动分词的结果。(黄昌宁,1996)
四、语料库语言学的应用
进入80年代以后,随着计算机技术的发展和普及,语料语言学的发展加快了步伐。许多新的语料库相继建成,对语料的处理也由较为简单的机器可读形式发展到人工或自动词性附码 ( tagging) 和句法分析(parsing)的注释(anno-tated)形式。 利用语料库对语言进行研究的成果不断出现,语料库语言学的应用范围也越来越广。从辞典、语法书编纂到对自然语言的研究,语料库语言学正在逐渐引发应用语言学特别是外语教学的一场革命。
1、语言研究。语料库为应用语言学的研究提供了丰富的语言材料。语料库语言学使得在语言理论、语言史研究和句法、词法分析及自动语法分析方面得到了充分的应用。
(1)语言学理论。60年代初期,Chomsky的转换生成语法理论风行美国和全世界的时候,处于萌芽时期的新一代语料库语言学受到了一些人的怀疑。当时转换生成学派语言学家的做法是依靠自己的直觉编造例证来证明自己的理论。Quirk对这种做法提出了批评, 他强调研究自然语言材料的重要性,并引用Aldous Hexley的话说:“我们最精到的理论,人们最细致的描写,都不过是对实际情况极度粗糙而又不讲理的简化,实际情况和每个最简单的实例都是无比复杂的。”Quirk指出, 他要研究的正是实际情况的这种复杂性(胡明杨,1992)。语料库的建立使语言的理论研究的手段和方法发生了巨大的变化,它不但修正了语言的一般性规则,而且对语言的理论探索也产生了深远的影响。
(2)语言史研究。大多数语料库的语料都有特定的年代跨度, 根据不同的研究目的, 从一年至百年不等。 如为了研究英语史而建立的Helsinki Corpus of English Tests)的历史部分,年代跨长从公元850年至1720年。这一语料库无疑为研究语言的历史和发展提供了丰富、可靠的素材。
(3)句法、词法及自动语法分析。 利用语料库进行语法分析是语料库语言学的早期目的之一。如今,人们对语料库内的语料进行更高层次的研究,对入库的语篇进一步的处理,如进行词性附码和句法分析(句法分析是指对经过自动词性附码的语料库根据某种特定的语法描述进行语法分析),使语料的自动语法分析成为可能。从而也大大方便了词的语义及功能研究、近义词的比较研究、搭配及其结构的研究、语体的研究、英语口语音型和语调研究、英语名词短语的成语性研究和英语句法发展的研究。自动语法分析还被应用于语法检查、词义排歧、自然语言接口、对名词短语辩识的改进、机器翻译等。
此外,语料库语言学还为语义学和语用学研究、话语及会话分析、言语变体(口笔语,语言与性别,文体学及方言)、语音科学、儿童语言习得和心理语言学研究等方面提供了非常丰富的实例,充分体现了语料库语言学在语言研究方面的作用。
2、编篡工具参考书籍。当代一些对外语教学有着重要影响的词典和语法书均是在语料库的基础上编写的。SEU语料库建成后,Quick等人合编了堪称权威之作的《当代英语语法》(A Grammar of Contempor- ary English),并根据充实了的语料库合编了更具权威的《英语语法大全》(A Comprehensive Grammar of the English Language)。COBUILD语料库也以其庞大的库容、多样的内容作为词典编纂不可缺少的工具。在这一语料库的基础上,现已出版了七本字典,分别是:
The Collins COBUILD English Language Dictionary;
The Collins COBUILD English Grammar;
The Collins COBUILD Student's Grammar;
The Collins COBUILD Dictionary of Phrasal Verbs;
A School Dictionary;
Collins COBUILD English Guides(to prepositions,...);
Collins COBUILD English Usage(1992).
还将计划出版的有:
The Collins COBUILD English Language Dictionary 的第二版;同义词(词库大全);各种语法书等(王建新,1997)。
颇受英语界好评的《朗曼当代英语词典》( Longman Dictionary of Con-temporary English)1995年推出了第三版(简称《三版》) 。《三版》的编写利用了三个大型的语料库:超过1亿词的BNC 语料库;3000万词的朗曼兰开斯特语料库(Longman Lancaster Corpus;该语料库专收英美人谈话的材料,是根据实际谈话录音整理而成的对研究口语非常有用)和朗曼学习者语料库(Longman Learner's Corpus;这个语料库专门收录学生,尤其是外国学生所写的英语,收集了不少典型错误,使词典编写更有针对性)。这三个语料库全面记录了语言使用的情况, 无论是书面语还是口语,标准英语还是非标准英语,英国英语还是美国英语或其他地区的英语,都广泛收罗进去(源可乐,1997)。《三版》利用语料库以及语言学研究的新成果,在语料上反映出当代英语的真面目,在设计上也作了大胆的改革,如分级标出最常用词,使用频率比较,按使用频率排列意义、成语、搭配和例句等,大大方便了使用者,把教学型词典推上了一个新台阶。
3、机器翻译及文本校对。利用计算机将语料库中的材料,按一定的要求编码、处理,如把语言的各个层级分别看待,即词、句法、语义、互指(core-ference),不同的应用将利用不同层级的信息,在词级层级上的分析应用上就可以进行词的切分和词法分析、拼写检查、全文检索、词频统计、名词短语的辩识、义类词典(thesaurus)、逐词机器翻译等。在句子(句法、语义)的分析和应用上可以进行语法检查、词义排歧、自然语言接口、对名词短语辩识的改进、机器翻译等。对机器可读的语料库进行编码处理,并赋予一定的语法规则,制作出的翻译软件、校对软件、定位检索软件、语义网等是目前语料库语言学应用研究的一大成果。它们的问世为语言工作者和学习者提供了一个十分方便的语言工具。以英汉翻译系统为例,目前我国市场上可见的译星、译林、快译通等电子词典和计算机双向全文翻译系统非常受语言学习者和语言工作者的欢迎。计算机多媒体使电子词典不仅提供了词意,而且还能模拟人声读出音来。一些专业全文翻译软件能进行双向翻译且翻译的正确率已达到了80%,翻译人员只需将本族语或目标语输入计算机, 计算机就能在几分钟内将译文输出,翻译人员再用较短的时间对其进行人工校译就能完成译文工作,大大缩短了翻译时间。将计算机的校对系统用于文字处理器中,能对所输入的文本进行自动输入校对和语法错误提示,大大地提高了输入的正确率,节省了大量的文稿校对时间。
4、外语教学。语料库不但为语言研究提供了丰富的原料,是编写词典、语法书和各种教材的重要源泉,而且在外语教学理论、内容、方法等方面也正在起着重要的作用。在外语教学中语料库语言学可以应用于(1)帮助减少课堂上教的与人们实际上正在使用的语言之间的差距;(2)发现过去被忽略的语言规律;(3) 帮助我们更清楚地认识各种语域变体的特点;(4) 帮助我们更准确地理解一些词语在实际交际中的意义和用法;(5)帮助发现学习者使用语言时的问题;(6)测试及语言错误分析等方面。在计算机辅助教学中语料库语言学能在教学中发挥更大的作用。请看计算机定位检索软件(一种用于在机器可读的语料库中检索关键词并将检索结果以定位索引的形式输出的计算机程序)在外语教学中所起的作用:
(1)教材的选择。选择合适的教材对于教学来说是非常重要的。 现在许多教材的选材以编写人员的经验或语感(intuition)为依据, 由于没有客观的量化标准,往往不能保证所选语篇真正符合教学需要。利用定位检索软件对某些词在一个语篇中的分布情况和出现频率的统计,可以较为客观地判断出该语篇的题材和难度,使取舍有了量化的标准。借助词频统计还可以确定哪些是教材中应重点讲授的核心词和语言点以作为教材编写和教学的重点。
(2)提供例句的来源。在解释词或搭配的意义和用法时, 教师不用自己去创造例句(这往往会造成不真实或不准确),而是可以借助定位检索软件在语料库中寻找以该语言为母语的人使用该词或搭配的例句。这样得到的例句既生动又真实,因而说服力强。
(3)编写练习或测试题。 使用定位检索软件准备练习题或测试题可以极大地减轻教师的工作量,并且使题目更具真实性和可靠性。
(4)学生作文分析。选择部分学生作文语体的语篇作为参照语料库,用定位检索软件分别对每个学生的作文做词频统计并将分析结果打印出来,这样教师就可以很容易地分析出学生是否能正确地使用所学的词或词组,出现了哪些语法错误等。
五、结束语
近年来,语料库语言学的发展较为迅速,它为语言研究打开了一条新的道路。越来越多的从事语言学研究的人开始注意到其重要性和发展潜力。但是,目前的语料库绝大多数是英语语料库,其它语言的语料库很少,将语料库语言学应用于外语教学相对来说也还比较薄弱。而如何借鉴世界大型语料库的成功经验与不足,使我国的语料库语言学研究与国际上的研究接轨,却是摆在我国语料库语言工作者面前的一项重大的任务。
参考文献
1、陈建生 1997,关于语料语言学,《国外语言学》第1期
2、谢应光 1996,语料库语言学与外语教学, 《外语教学与研究》第3期
3、王建新 1996,介绍当代三个英语语料库, 《外语教学与研究》第3期
4、张 煤 1997,国际英语学习者语料库与英语教学, 《国外外语教学》第1期
5、源可乐 1997, 评《朗曼当代英语词典》(第三版)《外语教学与研究》第3期
6、陈建生 1997,定位检索软件辅助英语教学, 《外语教学与研究》第2期
7、黄昌宁、孙茂松1996,中文信息处理最新成果的检阅,《国外语言学》第4期
8、胡明扬 1992,英语用法调查语料库及其他英语语料库, 《国外语言学》第4期
9、张健颖、丁 放1995,论核心词汇的判别标准,《外语界》第2期
10、顾 阳 1996,生成语法及词库中动词的一些特性,《国外语言学》 第3期