冯志伟等“语料库语言学在中国”专家论坛发言摘登

xujiajin

管理员
Staff member
#1
2012年外语教学与研究第3期
冯志伟等“语料库语言学在中国”专家论坛发言摘登

http://www.fleric.org.cn/clic2011/

“语料库语言学在中国”专家论坛发言摘登

编者按:2011年11月19?20日在北京外国语大学举行了“中国语料库语言学大会”,期间举办主题为“语料库语言学在中国”的专家论坛。五位专家分别就平行语料库在我国发展的现状及前景、语料库语言学研究的思路和方法,以及语料库语言学团队建设与学科交流等发表了观点。以下为该次论坛的发言摘登。

平行语料库建设对于语言学的意义

平行语料库研制已成为语料库研究的一个重点,目前正朝着不断扩大库容量、深化加工和拓展新领域等方向发展。

除了为自然语言处理而研究语言学之外,语料库建设还有语言学自身的目的:在语料库的基础上来研究语言本体,研究语言的语音、语法、语义、语用的规律,探索自然语言的数学面貌和数学规律,揭示人类自然语言本身的奥秘。

在这方面,基于平行语料库的语言研究与基于语言学家的语感和个人语言经验的语言研究有着本质的不同。在语言比较中,双语语料库是重要的语言资源,为语言学家提供了大量的语言实例,是比较语言学家运用现代化手段进行语言研究不可缺少的助手。双语平行语料库对双语词汇学和词典编纂、翻译研究都有很大促进。近年来,在我国的语料库语言学研究中,王克非等人对“汉英平行语料库”的考察等,都表明我国在利用平行语料库进行比较语言学研究方面已取得了积极的成果。

我在中国传媒大学建立的依存树库研究团队,近年来在汉语依存树库的基础上进行了一系列语言本体研究。我和刘海涛提出了概率配价模式(Probabilistic Valence Pattern,简称PVP),对于树库中的所有依存关系都计算概率,PVP为使用统计方法研究句法语义关系提供了一个数学模型。根据PVP,刘海涛、胡凤国利用汉语依存树库建立了汉语的复杂网络,他们研究了汉语复杂网络的度分布、聚集系数、依存距离等基本数学特性。其成果分别发表在Physica A和Europhysics Letter上,引起了国际物理学界的关注。刘海涛使用20种语言的树库,对这些语言中的中心词居前(head?initial)与中心词居后(head?final)的分布进行了统计分析,成果发表在国际语言学杂志Lingua上。

另外,汉英平行语料库对于汉语作为第二语言的教与学很有价值,它可以辅助汉语教师更好地了解母语为英语的学生的情况,从而根据汉语和英语的各种表达差异来制定汉语的词汇、语法等方面的教学方案。
最后,对于我国语料库语言学的学科建设提两点建议:
1)实现资源共享。由于双语平行语料库研制费时耗力,应实现资源共享。
2)开展和加强少数民族语言与汉语的双语平行语料库建设。

教育部语言文字应用研究所冯志伟


双语语料库研究之问题与课题
近十几年内双语语料库研究进步大,成绩多,但同时也出现一些问题。我主要讲三点:第一,从建库来看,现在语料库建设,尤其在双语这一块,还有一些各自为政,互相沟通不够。第二,从加工来看,对语料库的分类标注深加工不够,影响到后续研究。第三,从应用上看,基于语料库的研究潜力开发得不太够。其实双语语料库不仅可以用于跨语言的转换研究,还可进行不同翻译方向以及译出、译入翻译方向上的类比研究。利用语料库促进自动翻译研究和翻译教学,这些工作也都有待进一步展开。

研究课题非常多,我重点讲三个方面:宏观,中观,微观。宏观上,构建一个超级语料库来推进中国双语语料库的建设,即以建设中国英汉平行语料库为契机,搭建一个共享的中英语言与翻译的教学原理平台。这个平台,我希望包括综合的对应语料库,以及若干个专科的对应语料库,即corpus for specific purpose,比如说新闻的、经贸的、法律的以及电子医学等。还有专门语料库,就是corpus for special purpose,是一些专题性的,像现在有人做《红楼梦》、《莎士比亚》,还有诗歌的、广告的、应用文等专门语料库。还有多译本的语料库,可以是单语的多译本,也可以是多语多译本。这几个类型的语料库,如果综合到一个大平台上,大家研究、教学及学习者学习起来,就会更方便。

中观上,我想讲关于新型的或者复合型的语料库建设。我们知道双语语料库主要有三个类型,一是平行语料库或对应语料库,一是翻译语料库,还有一个类比语料库,我们想尝试做结合的或者复合的,相当于一个同源的专家和学习者的对应语料库。所谓同源,就是同一个来源,但是它不是一本多译。这可以观察同样的一个来源,一个蓝本,在翻译的时候,专家的,学习者的问题分别在什么地方,这对教学比较有用。它有利于教学的讲评,也有利于评估和测试,包括发现不同水平的译者以及学习者的这个critical features。

微观上就是要多开展基于语料库的新观察,新研究,如基于语料库不同翻译方向的考察。我曾经做过一个小型的从汉译到英,再从英译回汉的实验,这个实验还可以做得更大一些。还想做相反的实验,就是从英译到汉,然后再从汉译回到英,会有不同的发现。我的假设是,英汉、汉英不同方向的翻译,采取的是不同的翻译策略。这需要从语料库及其他方面来详细考察。

北京外国语大学王克非



经历?范式?理论视角
我讲三个问题。第一点讲我本人和我的团队在过去十多年中语料库研究的经历。第二点谈研究范式问题。第三点是语料库语言学的理论视角。

第一点,经历。过去十几年,我在上海交通大学跟随杨惠中老师做研究,后来杨老师退休,我带着团队继续前行。中国外语界第一代语料库JDEST是杨惠中、黄人杰等老师首创的,有100万词库容。后来发现远不够用,我带领学生继续扩容。我们做的第二个工程是中国学习者语料库CLEC,主要是李文中、濮建忠做的。后来我和李文中、濮建忠带领学生做了COLSEC口语语料库。最近几年,我和学生们在做交大平行语料库。这四个语料库都是国家社科基金项目。现在回头来看,有收获也有教训。教训之一是由于当时对语言学的认识有限,几个库的库容设计得太小。JDEST的初始规模是100万,CLEC也是100万,COLSEC口语语料库不到100万。教训之二,语料库建设的sampling、coverage、diversity一定要做好,尽量广泛和多样化。教训之三是关于语料库的标注。标注信息不宜过多。CLEC共标了11大类错误,64个子类错误。标注过多,又不见得准确;标注者自己可能搞不清楚错误到底应该划入哪一类。

第二点,研究范式。在我看来,一个研究范式必有三个要素。第一个是a framework of ideas;第二个是a set of analytical instruments;第三个是a set of central questions。有这样一套思想,一套分析工具,加上一系列的核心研究问题,就组成了一个语言学流派的研究范式。一个人写出的文章,做出的研究,应当有一个非常清晰的研究范式标志。这个问题需要我们语料库研究者思考。

第三点,理论视角。据我观察,语料库语言学领域里的博士、硕士论文有一个显著特征,就是提供大量数据。问题在于对这些数据作出什么样的理论分析和概括。我的观点是,需要一个新的研究视角,它意味着新的研究方法,意味着新的发现。希望大家听听John Sinclair的一句话,就是研究者尽可能采用一种minimal a priori assumption,先看数据。采用最小程度假设对待数据,有望对数据描述出新的趋势、新的模式。这就需要新的视角。新的视角需要通过读书得来,读经典的好书对树立新的观察视角非常必要。

北京航空航天大学卫乃兴



语料库语言学研究思路、领域和研究者素质

我讲三个方面。第一,语料库语言学应遵循的研究思路。对此我讲三点。第一点,做语料库语言学研究要把握“意义取向”。不关注意义,研究语言有何用?在这一点上John Sinclair和Wolfgang Teubert做得最深入。第二点,文本立场。做语料库语言学研究必须把文本作为出发点和立足点。因为意义只有在文本中才能找到。我们不能仅凭直觉来研究意义。第三点,在方法问题上要做到“形义统一”。形式和意义其实是一物,根本无法分开。当我们研究意义的时候,如果找到的形式不能存在意义的话,我们以后的计算就会出大的问题。

第二,谈谈语料库语言学的一些主要研究领域,发展前景比较广阔的领域。第一个就是语言教学与研究。上海交大的科技英语语料库创建之初,就是为外语教学服务的。这个还要坚持,我们本次学术会议的许多论文就属于这个领域。在语言教学和研究方面,现在比较红火的是平行语料库,就是王克非老师他们做的方向。这里面有大文章。将两门语言一起研究就会有对比而产生的优势。第二个研究领域是话语分析或批评话语分析。话语左右着我们的思想,因此批评话语分析是对社会非常有贡献的语言研究。第三个研究领域,现在也做得比较红火,就是自然语言处理。它面临的关键问题是缺乏一个好的理论来做指导。

最后,关于语料库语言学的研究者应该具备什么样的素质。我认为,一是语言学素质。关键是要找到正确的理论,并与它结缘。二是要会计算机应用技术。应该钻得更深一些,最好能编程。三是数学包括统计学方面的一些知识也需要学一点,否则你解释不清楚。

解放军外国语学院濮建忠


语料库语言学团队建设与学术交流

我今天主要说说语料库语言学的团队建设和学术交流问题。

首先,语料库语言学的发展从来就是团队的活动。早在1959年,Quirk在UCL建设“英语用法调查”语料库时候,靠的就是团队。他的团队中有后来在国际语言学界声名显赫的Sidney Greenbaum、Jan Svartvik、Geoffrey Leech、David Crystal等语言学家。Leech从中受到了启发,到兰卡斯特大学之后很快组建了自己的团队。如今的兰卡斯特大学拥有一支强大的语料库语言学团队。中国语料库语言学发展初期,杨惠中、桂诗春,冯志伟等老一代学者分别领导着自己的团队,中国的语料库语言学队伍因此不断壮大。如今,上海交通大学、河南师范大学、南京大学等都拥有或正在组建自己的团队。我们北京外国语大学也拥有一支优秀的语料库语言学团队,在王克非、文秋芳教授的指导和带领下,建设了一批有重要影响的语料库,获得了一系列国家级、省部级科研项目,产出了一大批科研成果,还开发了一系列语料库软件,定期举办“语料库语言学沙龙”等活动。在我看来,团队建设是语料库语言学得以发展的基础。

其次,团队间的学术交流与合作是语料库语言学发展的重要动力。每年召开的ICAME会议,每两年召开的“国际语料库语言学大会”,汇集了国际语料库语言学界的众多知名学者,提供了一个良好的交流平台。在国内,语料库语言学会议也越来越多。希望继在北外举办第一次全国语料库语言学大会之后,大会能够成为我国语料库语言学界的定期活动。交流让我们相互了解,更使我们视野开阔。

最后,我谈谈学术观点差异与团队间和谐的问题。2010年,International Journal of Corpus Linguistics第3期发表了一组重要文章,主要关注的是语料库语言学领域的一场辩论,称为Bootcamp Debate。有人制造了不和谐的声音,认为他们搞的语料库语言学才是语料库语言学正宗嫡传,而与他们相左的人是“绑架了”即盗用了语料库语言学这个名称。这组文章供稿人很多,几乎所有人对这种说法都持否定态度。学术讨论从来都应该秉持“和而不同”的观念。我希望与大家共同努力,为语料库语言学在中国的健康发展做出自己的贡献。

北京外国语大学梁茂成
 

附件

mayerniu

初级会员
#2
回复: 冯志伟等“语料库语言学在中国”专家论坛发言摘登

Thank you, Dr. Xu, for your introduction about this forum!
 
#3
回复: 冯志伟等“语料库语言学在中国”专家论坛发言摘登

很赞同王克非老师的观点,平行语料库和专门用途语料库将是未来语料库语言学发展的一个重要趋势
 
顶部