双语平行语料库的创建及应用研究

xujiajin

管理员
Staff member
双语平行语料库的创建及应用研究
北京外国语大学中国外语教育研究中心

王克非 王立弟



一、本课题研究现状及趋势,研究本课题的意义

  随着计算机技术的飞速发展和普及,语料库在开展语言学基础和应用研究中发挥着愈来愈重要的作用。目前,世界上许多国家和地区不仅建立了各种单语语料库,而且已相继建立或正在建立双语平行语料库(parallel corpora)。可以说,双语平行语料库的建设代表了当今语言对比研究的发展趋势,对于促进语言对比研究和翻译研究,改进外语教学(例如通过大量语料进行词频统计,有利于词汇分级和确定各级学习者的词汇量),提高翻译质量和改进双语词典的编纂等都具有深远的意义,还将为双语信息检索和机器翻译等相关领域的开发产生重要的影响。

  目前虽然语料库的建设和研究在国内外成为热门的研究开发项目,但是双语平行语料库的建设在我国才刚刚起步,目前仅有我基地正在建设的汉日对译文本语料库。汉英平行语料库的建立,将填补我国语料库建设的一项空白。

  双语平行语料库的建设和开发利用须解决语言单位的确定、词类标注、语法切分和多功能检索等语言研究和软件开发问题。对这些问题的研究将推动语言学、语法学、词典学、语料库语言学和计算语言学理论的发展。

二、本课题的基本内容,预计突破哪些难题

  建立双语平行语料库的一个首要问题是语料库的总体结构和子库的设计。这方面我们将参照国际上已建成的平行语料库设计,考虑双语的语言特点开展研究设计工作。初步考虑对译文本的选材分为文学类和非文学类两大类别。文学类主要是文学名著的对译本;非文学类的语料包括已公开发表的涉及经济、科技、文化、政治等不同领域的对译文本和联合国及其它国际组织的文献。语料录入的错误率保证在万分之二以内。

  语料库文本语言单位的对应是关系到双语语料库使用价值的重要问题。由于汉、英、日语分属不同的语系,它们在语序、句子结构和逻辑语义的表达方面都存在着明显的差异。语料库首先要做到段落平行对应,进而研究语句的对应问题,要妥善处理下列情况:1)一句原文对多句译文;2)多句原文对一句译文;3)原文句子与译文句子在排列顺序上不一致。对这类问题的研究不但可以帮助解决对译文本的平行对应,更重要的是有助于深入探讨关于语言单位和翻译单位等理论问题。

全文见:http://www.sinotefl.com/dire_1.htm
 
see also:
双语平行语料库的创建及应用研究(2000-2003)

发布时间:2002-10-12 编辑:215

“双语平行语料库的创建及应用研究(2000-2003)”项目教育部人文社科重点研究基地重大研究项目之一,由本中心王克非教授负责。

本项研究认为,积累大量语言素材是观察、分析语言与翻译问题的必要条件,因此首先选定创建大型双语语料库这一基础研究项目。语料库及语料库语言学近二三十年在国际上迅速发展,其主要目标是,以计算机储存大量的真实语料,对语料做各种带有研究目的的标注,利用研制的检索工具对标注语料进行快捷的搜寻和分析,以发现已往因条件所限而未能注意的语言现象。

本项目组在对国内外语料库研制与应用现状做了全面调研的基础上,创建了目前国内最大的双语平行语料库(含汉英和汉日两个库),也是国际上涉及汉语的最大双语语料库。大型语料库创建工程异常艰巨。两个语库分别得到日本奈良先端科学技术大学院大学、日立制作所中央研究所和北京大学计算语言学研究所等单位的技术支持。研制过程中,课题组研究解决了许多平行语料库难题:
1)设计方案和规模上兼顾语言与翻译研究,
2)语料取样的均衡性和代表性,
3)汉英语句自动对齐(对齐率达90左右),
4)对齐语句的自动链接式检索,
5)基本语法标注和词、词频、短语、句型、搭配等的检索,
6)所有语料均做文本类型、分类、文体、语体、时代、字数等参数标记,以及
7)应用双语库做相关语言、翻译研究。

两个双语库基本情况如下:(1)2000万字的日汉对译文本语料库(国内首家)。此库也得到国家社科基金资助并已结项。目前2000万字的平行对应语料分文学与非文学、汉译日和日译汉存放,做到段级对齐,应用研制的检索工具可对汉日语料做各种词语、短语、句型和搭配上的检索。(2)3000万字词的通用型汉英平行语料库(世界最大)。此库设计为4个子库,即“百科语料库”(抽样提取语料,分15大类别适当配置,文科约75,理科约25)、“翻译文本库”(全本收录,包括一本多译,含创作性文本和描述性文本)、“双语语句库”(收录对译短语、句子,取自各种文本)和“专科语料库”(暂缓)。 目前3000万字词语料已基本做到句级对齐,其中2000万字词语料已完成最终校对、标注、双语链接,可进行词语、词频、短语、搭配、句型等多种检索。

本项目平行语料库的独特性在于: 1)整个语料库可分可合;分开可开展单项研究,如百科语料库、双语语句库利于双语词典研编,专科语料库利于自动翻译研究,翻译文本库利于翻译文体和翻译教学研究;合则可在大规模语料基础上进行词频、搭配、对应词、句型、语体、文体等方面研究。 2)此语料库区分4种语料:英/日语原文、汉语原文、英/日语译文、汉语译文,可分别进行单语研究、双语对比研究、原文与译文语言对比研究。 3)利用此双语语料库可搜寻大量的对应词语、短语,丰富英/日-汉、汉-英/日双语词典的编纂。本方向已获得“基于双语库的英汉学习型词典研编”教育部重大项目,并已着手相关研究。

项目研究期间,项目组举行或参与了多次双语语料库研讨会(包括2003年3月在英国举行的语料库国际会议),与国内外同行进行了必要交流。课题组基于大型双语平行语料库,对汉外语句对应、句法结构对比、翻译语言特征及语料检索等许多问题取得了新认识,提出了新观点,撰写和发表论文20多篇,著作、论文集3部;主要有:

徐一平、曹大峰编,2002,《中日对译语料库的研制与应用研究论文集》。北京:外研社

王克非等,2003,《双语对应语料库:研制与应用》。北京:外研社

陈国华、戴曼纯编,2003,《当代语言学探索》。北京:外研社

Chen, Guohua. 2000. The grammaticalization of concessive markers in Early Modern English, in O. Fischer (ed) Pathways of Change: Grammaticalization in English. Amsterdam: Benjamins.

Wang, Jianxin. 2001. Recent progress in corpus linguistics in China. Intl. Journal of Corpus Linguistics Vol. 6(2)

王立弟,2001,翻译中的知识图式,《中国翻译》第2期

柯 飞(王克非),2002,语料库:翻译研究新途径,《外语与外语教学》第9期

陈国华,2002,《老子》的版本与英译,《外语教学与研究》第6期

王克非,2002,近代翻译对汉语的影响,《外语教学与研究》第6期

Yang Xiaojun, 2003, Survey and prospect of China’s corpus-based researches. Paul Rayson (ed.) Corpus Linguistics Across the World. Amsterdam: Rodopi.(英国语料库国际会议宣读论文)

王克非,2003,论翻译工具书的研编,《中国翻译》第4期

王克非,2003,英汉/汉英语句对应的语料考察,《外语教学与研究》第6期

柯 飞、秦 川,2003,汉译语言个案分析――语料库调查,《中国英语教育》(电子刊)第1期

王克非,2003,以语料观察翻译,《外语与翻译》第4期

王克非,2003,汉语把字句特点、分布及英译研究,《外语与外语教学》第12期
 
2005070304453069.jpg


The book can be ordered at the following links:

http://www.china-pub.com/computers/common/foreigninfo.asp?id=109963
http://www.xinzhi.com.cn/book.asp?id=399434
http://www.xhsd.cn/bookshow.asp?did=756004236
http://www.hanxue.net/productShow.asp?id=53852
 
Back
顶部