双语平行语料库的创建及应用研究(2000-2003)

corpus4u

初级会员
“双语平行语料库的创建及应用研究(2000-2003)”项目教育部人文社科重点研究基地重大研究项目之一,由本中心王克非教授负责。

本项研究认为,积累大量语言素材是观察、分析语言与翻译问题的必要条件,因此首先选定创建大型双语语料库这一基础研究项目。语料库及语料库语言学近二三十年在国际上迅速发展,其主要目标是,以计算机储存大量的真实语料,对语料做各种带有研究目的的标注,利用研制的检索工具对标注语料进行快捷的搜寻和分析,以发现已往因条件所限而未能注意的语言现象。
本项目组在对国内外语料库研制与应用现状做了全面调研的基础上,创建了目前国内最大的双语平行语料库(含汉英和汉日两个库),也是国际上涉及汉语的最大双语语料库。大型语料库创建工程异常艰巨。两个语库分别得到日本奈良先端科学技术大学院大学、日立制作所中央研究所和北京大学计算语言学研究所等单位的技术支持。研制过程中,课题组研究解决了许多平行语料库难题:
1)设计方案和规模上兼顾语言与翻译研究,
2)语料取样的均衡性和代表性,
3)汉英语句自动对齐(对齐率达90左右),
4)对齐语句的自动链接式检索,
5)基本语法标注和词、词频、短语、句型、搭配等的检索,
6)所有语料均做文本类型、分类、文体、语体、时代、字数等参数标记,以及
7)应用双语库做相关语言、翻译研究。

两个双语库基本情况如下:(1)2000万字的日汉对译文本语料库(国内首家)。此库也得到国家社科基金资助并已结项。目前2000万字的平行对应语料分文学与非文学、汉译日和日译汉存放,做到段级对齐,应用研制的检索工具可对汉日语料做各种词语、短语、句型和搭配上的检索。(2)3000万字词的通用型汉英平行语料库(世界最大)。此库设计为4个子库,即“百科语料库”(抽样提取语料,分15大类别适当配置,文科约75,理科约25)、“翻译文本库”(全本收录,包括一本多译,含创作性文本和描述性文本)、“双语语句库”(收录对译短语、句子,取自各种文本)和“专科语料库”(暂缓)。 目前3000万字词语料已基本做到句级对齐,其中2000万字词语料已完成最终校对、标注、双语链接,可进行词语、词频、短语、搭配、句型等多种检索。

本项目平行语料库的独特性在于: 1)整个语料库可分可合;分开可开展单项研究,如百科语料库、双语语句库利于双语词典研编,专科语料库利于自动翻译研究,翻译文本库利于翻译文体和翻译教学研究;合则可在大规模语料基础上进行词频、搭配、对应词、句型、语体、文体等方面研究。 2)此语料库区分4种语料:英/日语原文、汉语原文、英/日语译文、汉语译文,可分别进行单语研究、双语对比研究、原文与译文语言对比研究。 3)利用此双语语料库可搜寻大量的对应词语、短语,丰富英/日-汉、汉-英/日双语词典的编纂。本方向已获得“基于双语库的英汉学习型词典研编”教育部重大项目,并已着手相关研究。

项目研究期间,项目组举行或参与了多次双语语料库研讨会(包括2003年3月在英国举行的语料库国际会议),与国内外同行进行了必要交流。课题组基于大型双语平行语料库,对汉外语句对应、句法结构对比、翻译语言特征及语料检索等许多问题取得了新认识,提出了新观点,撰写和发表论文20多篇,著作、论文集3部;主要有:

徐一平、曹大峰编,2002,《中日对译语料库的研制与应用研究论文集》。北京:外研社
王克非等,2003,《双语对应语料库:研制与应用》。北京:外研社
陈国华、戴曼纯编,2003,《当代语言学探索》。北京:外研社
Chen, Guohua. 2000. The grammaticalization of concessive markers in Early Modern English, in O. Fischer (ed) Pathways of Change: Grammaticalization in English. Amsterdam: Benjamins.
Wang, Jianxin. 2001. Recent progress in corpus linguistics in China. Intl. Journal of Corpus Linguistics Vol. 6(2)
王立弟,2001,翻译中的知识图式,《中国翻译》第2期
柯 飞(王克非),2002,语料库:翻译研究新途径,《外语与外语教学》第9期
陈国华,2002,《老子》的版本与英译,《外语教学与研究》第6期
王克非,2002,近代翻译对汉语的影响,《外语教学与研究》第6期
Yang Xiaojun, 2003, Survey and prospect of China’s corpus-based researches. Paul Rayson (ed.) Corpus Linguistics Across the World. Amsterdam: Rodopi.(英国语料库国际会议宣读论文)
王克非,2003,论翻译工具书的研编,《中国翻译》第4期
王克非,2003,英汉/汉英语句对应的语料考察,《外语教学与研究》第6期
柯 飞、秦 川,2003,汉译语言个案分析――语料库调查,《中国英语教育》(电子刊)第1期
王克非,2003,以语料观察翻译,《外语与翻译》第4期
王克非,2003,汉语把字句特点、分布及英译研究,《外语与外语教学》第12期
 
Back
顶部