外语学术科研网 - 纪念专题 | 肖忠华语料库语言学答客问(下)

本文由 laohong2016-01-06 发表於 "缅怀肖忠华老师" 讨论区

  1. laohong

    laohong 管理员 Staff Member

    语料库语言学答客问

    肖忠华

    5. 您对中国语料库研究今后发展有什么样的建议和希望?


    从上述对我国语料库研究现状的讨论可以看出,今后的发展应该考虑以下几个方面。

    首先是要加强学科间的研究合作,发展跨学科研究。这种合作有利于语料库研究的深入开展,同时也是基于大数据的研究所必需的。

    第二,加强纵向项目数据管理,实现数据共享。一个好的语料库通常是可反复利用的资源,而且可以满足多种研究目的,但创建一个好的语料库常常既费时又耗资。根据不同的研究目的实现数据无偿或有偿共享,有利于节省研究时间和资金的投入。

    第三,加强研究梯队建设,提高研究质量。老一代成熟的研究人员要发挥传帮带的作用,有计划地培养早期职业研究人才,避免一窝蜂上的局面,建立语料库研究梯队,形成我国语料库研究的后劲以利于长期发展。

    最后,我国的语料库研究要立足国内,并走向世界。中文是世界上使用人数最多的语言,用中文发表研究成果本来无可厚非,但英语作为国际通用的科技和出版语言有利于世界各地的学者进行交流。实际上,有许多非英语国家的作者都是直接用英语发表论文的。我们应鼓励作者把国内包括语料库研究在内的顶级科研成果发表在高档次的国际期刊上;同时把国内发表的优秀论文全文译介到国际上以便交流。在译介我国优秀论文方面,中国知网已成立国际出版中心(http://tp.cnki.net),旨在通过组织高水平的编辑和翻译...高国际同行对我国社科领域最新研究成果的了解和认同,进一步提升中国优秀学术成果的海外影响力。

    6. 您能谈谈中国语料库研究在国际语料库研究学界应如何自我定位吗?

    我国语料库研究在国际上的自我定位,应该遵循“扬我所长、以研促用”的原则。前者是要充分利用自身的优势,后者是要提高研究的实用价值。

    具体地说,首先是研究我们的母语汉语。到目前为止,基于语料库的汉语研究基本上以现代汉语书面语为主。今后的研究可以更加注重以下几个方面。一是在平衡语料库的基础上更系统地研究现代汉语口语,并对口笔语语体进行比较。二是研究过去20年来随互联网与通讯技术发展而新出现的语体(如社交媒体)。这些新语体具有自身的语言特点,但现有的汉语平衡语料库基本上都没有包含在内。三是研制包含汉语发展各主要阶段的历时语料库。汉字是世界上最古老的文字之一,创建能反映汉语发展史的历时平衡语料库,不仅对我国古籍研究大有裨益,而且也能为自古以来中外语言接触和文化交流的研究提供研究素材和实证依据。四是创建汉语方言语料库。我国具有丰富的语言资源,各地方言多达230 多种,对语言接触和语言类型学研究具有十分重要的意义;而对于那些濒危方言,建立语料库则更能起到保护和保存作用。五是开发新的适合汉语并针对汉语特点的语料分析方法和工具。

    其次是研制包括可比语料库和平行语料库在内的多语种语料库,开展汉外语言对比与翻译研究。涉及像英、汉语这样大跨度语言之间的语言对比和翻译(包括口译)研究对于语言学理论具有重要意义,而针对主要外语语种和非通用语种的此类研究对外语教学具有指导意义。

    第三,开发教学用语料库资源,开展基于语料库的二语习得研究。教学用语料库是指我国各类学生学习外语的学习者语料库和外国人学习汉语的汉语中介语语料库。学习者语料库是语料库语言学中一个比较成熟的研究领域。我国在过去10年中已建成不少此类语料库,但还存在一些问题。比如,现有学习者英语语料库包含的基本上都是各类英语等级考试材料,而现有汉语中介语语料库基本上都只包括韩国、日本、泰国等东亚国家留学生的语料。目前教学用语料库研究存在的另一个问题是建而不研。语料库建完了项目也就算结束了,而没有对语料进行深入系统的分析,将研究成果用来指导、促进实际的教学工作。教学用语料库研究今后在语料平衡性(包括语料类型和来源等)和研用结合方面尚有待改进。

    第四,开展基于多语种平行语料库和可比语料库研究,开发机助翻译、翻译记忆库、多语种术语库等应用产品,并提高机器翻译和自动文摘等应用系统的可靠性和有效性。

    最后是利用语料库技术,针对网络欺诈欺凌等社会问题,开展司法语言学研究。网络欺凌在脸书(Facebook)和推特(Twitter)等国外社交网站屡见不鲜,国内的网络诈骗也同样层出不穷防不胜防。开展此类研究对于防范网络欺诈欺凌具有十分重要的社会意义。

    总之,“扬我所长”主要是指这前两类研究,而“以研促用”主要指后三类研究。

    7. 您如何评价您个人对语料库研究发展的贡献?

    贡献可能谈不上,不过在过去10 多年中,自我感觉还是在基于语料库的语言研究方面脚踏实地、认认真真地做了一些令自己满意的研究。

    我的主要研究领域是语言对比与翻译研究,特别是语料库翻译学和基于语料库的英汉对比研究(如Xiao 2010a)。我出版了国际上第一本基于语料库的英汉对比研究专著(Xiao & McEnery 2010)。我于2006 年在Applied Linguistics上发表的论文(Xiao & McEnery 2006)从语言对比角度探讨了英汉语中的搭配和语义韵,也具有较大的影响。由本人发起两年一届的“基于语料库的语言对比与翻译(UCCTS)”国际研讨会颇受欢迎,到2014年为止已在中国、英国和比利时成功举办4届。在语料库翻译学方面,我近年来的研究从英汉翻译和翻译体汉语的视角重新审视了以往主要局限于英语及其相近语言的翻译共性假设,对英汉翻译中翻译体汉语的系统研究(Xiao 2010b, 2011, 2015;Xiao & Dai 2014;Xiao & Hu 2015;戴光荣、肖忠华 2011;肖忠华、戴光荣 2010;肖忠华 2012)对于描写翻译学和翻译共性研究具有至关重要的意义。

    我的另一个重要研究领域是汉语语料库语言学。我于2004 年出版的Aspect in Mandarin Chinese(Xiao & McEnery 2004)是世界上第一本在真实语料基础上系统阐述汉语时体系统的专著,其学术价值得到了众多书评的认可。我在过去10多年来所建的一系列汉语语料库和平行语料库基本上全部向学术界免费公开(如LCMC、ZCTC、UCLA2、Babel),在国际上广为应用。

    在语料库分析方法创新方面,我提出的多维分析框架对Biber(1988)的模型进行了扩展,在原有语法分析的基础上增加了语义分析和类联接分析,并将多维分析模型首次应用于世界英语比较和科技论文摘要的对比分析(Xiao 2009b;Cao & Xiao 2013),最新的研究又将多维分析引入了翻译共性研究领域(Hu, Xiao & Hardie forthcoming)。

    在语料库语言学教学方面,由本人主笔合著的Corpus-based Language Studies(McEnery, Xiao & Tono 2006)是目前最流行的语料库语言学教材,被美国教育部指定为应用语言学必读参考书,并为世界各地70 多个研究生课程和本科生课程所采用。我还参与了慕课课程Corpus Linguistics: Method, Analysis, Interpretation的教学,主讲多语种语料库及其应用,该课程由兰卡斯特大学和Futurelearn推出,前两期学员人数已超过6,000 人。过去10年左右我投入较多时间和精力参与建设和管理的www.corpus4u.org 网站取得了较大的影响,为语料库研究在我国的推广普及发挥了重要作用。

    最后, 通过学术兼职为国际语料库研究领域服务。本人多年来兼任International Journal of Corpus LinguisticsCorporaChinese Language and DiscourseLanguages in Contrast等8种学术期刊的编委和近30家期刊和出版社的审稿人,以及英国社会经济研究理事会(ESRC)、英国艺术与人文研究理事会(AHRC)、美国国家科学基金会(NSF)、加拿大社会科学与人文研究理事会(SSHRC)、葡萄牙科学技术基金会(FCT)、香港研究资助局(RGC)等多个国家和地区研究基金的项目评审专家。此类学术兼职不仅使自己清楚地了解国际语料库研究的前沿动态,而且能提高国际学术界发表论文的质量。

    8. 在您看来,从事语料库研究应具备哪些方面的学科素质?您对从事语言库研究的年轻学子有什么样的忠告?

    语料库是语言研究中一种十分有用的工具和资源。虽然我们在前文已讨论过使用语料库方法的种种优势,但跟所有工具一样,语料库不是万能的。

    首先,一个语料库不可能包括一种语言的所有语句,抽样就不可避免,因而语料库涉及到代表性的问题。目前还没有可靠的科学手段来保证语料库的代表性。用Leech(1991:27)的话来说,语料库的代表性仍然是一种“信仰行为”。换言之,当一个语料库的规模和覆盖面达到一定程度时,人们对其代表性的信心就会增加。

    其次,需要用更复杂、更严格的统计方法来分析语料库数据。在语料库研究中,定量分析与定性分析同等重要。目前语料库研究中许多常用统计方法假设数据呈正态分布,而在语言运用中正态分布并不普遍。因此,我支持Gries(2006)所提出的“更严格的语料库语言学”这一观点。

    第三,语料库不能提供反面证据。一个语料库不管多么大、多么平衡,除非它代表高度专门化的语言,都不可能穷尽一种语言中的所有语句,因为语言本身就是无穷尽的。因此,语料库不能告诉我们语言中哪些现象可能,哪些不可能。比如,如果你没有在语料库中找到某个结构,也不能说该结构在语言中不存在;同样,也不能说在语料库中能找到的结构就一定合乎语法或可以接受,因为语料库数据属于语言使用数据(performance data)而有可能包含语误。

    最后,虽然语料库方法可以帮助我们观察到一些非常有趣的语言现象,却无法解释观察结果,而必须依赖于包括语言直觉在内的其他方法和资源来提供解释(Xiao 2009a)。

    尽管语料库方法存在这些问题,但由于其具备显而易见的优势,仍然越来越被语言研究者接受。其实,不同的工具具有不同的用途,关键是选对工具。比如,望远镜和显微镜都是十分有用的工具,我们不能指责显微镜无法用来观察远处的东西,而望远镜无法用来观察细微的东西。同样,我们不能指望用语料库来研究它不擅长回答的研究问题,那些问题仍然需要用其他方法来研究(Hunston 2002)。因此,取得语料库研究成功的第一步,就是要根据语料库研究方法的特点,确定哪些研究问题可以用语料库来研究而哪些不能,并且学会如何将语料库方法和其他研究方法有机结合起来,融会贯通,充分利用各种资源,使语料库研究既具描述性,又具解释性。

    由于语料库仅仅提供一种研究方法和资源,从事语料库研究时必须确定自己的研究主体。语料库方法可用来研究语言学和基于文本的人文社科领域中一系列的问题(McEnery, Xiao & Tono 2006;McEnery & Hardie 2012)。因此,针对特定的研究目的和研究问题创建或选用合适的语料库非常重要。

    就语料库分析而言,基本的统计知识和量化分析技术十分重要,因为语料库研究中定量分析和定性分析同等重要,而要使量化分析具有一定的深度,就不能仅仅局限于比较频数和百分比等描写统计方法,而应该采用更复杂、更严格的推断统计方法,甚至是各种多变量分析方法。

    熟练运用语料检索和量化分析工具在语料库研究中也很重要。要做到熟练,就必须勤学多练。现有的语料库分析工具(如AntConc、WordSmith、CQPweb 等)功能都很强大,大多数语料库研究者已不再需要学习计算机编程。当然,如果你学习一门脚本语言(如Perl、Python),那就不仅会大大提高建库或语料分析的效率,而且还能进行一些常规软件无法进行的分析。当然,编程的学习曲线很陡峭,需要花一定的时间,但一旦学会,就会终身受益。鉴于语料库语言学的研究本体是人们在真实语境中实际使用的语言,从事语料库研究就首先要求研究者对语言使用具有敏感性。这种敏感性基于语言直觉,通过长期使用语言和扩大知识面而积累起来。因此,语料库研究的初学者应该避免急功近利、一蹴即就的心态,脚踏实地把基本功打扎实,以便获得语料库研究必备的学科素质。

    原文地址: http://mp.weixin.qq.com/s?__biz=MjM...d988d6d0fdf3c&3rd=MzA3MDU4NTYzMw==&scene=6#rd