双语平行语料库的创建及应用研究
北京外国语大学中国外语教育研究中心
王克非 王立弟
一、本课题研究现状及趋势,研究本课题的意义
随着计算机技术的飞速发展和普及,语料库在开展语言学基础和应用研究中发挥着愈来愈重要的作用。目前,世界上许多国家和地区不仅建立了各种单语语料库,而且已相继建立或正在建立双语平行语料库(parallel corpora)。可以说,双语平行语料库的建设代表了当今语言对比研究的发展趋势,对于促进语言对比研究和翻译研究,改进外语教学(例如通过大量语料进行词频统计,有利于词汇分级和确定各级学习者的词汇量),提高翻译质量和改进双语词典的编纂等都具有深远的意义,还将为双语信息检索和机器翻译等相关领域的开发产生重要的影响。
目前虽然语料库的建设和研究在国内外成为热门的研究开发项目,但是双语平行语料库的建设在我国才刚刚起步,目前仅有我基地正在建设的汉日对译文本语料库。汉英平行语料库的建立,将填补我国语料库建设的一项空白。
双语平行语料库的建设和开发利用须解决语言单位的确定、词类标注、语法切分和多功能检索等语言研究和软件开发问题。对这些问题的研究将推动语言学、语法学、词典学、语料库语言学和计算语言学理论的发展。
二、本课题的基本内容,预计突破哪些难题
建立双语平行语料库的一个首要问题是语料库的总体结构和子库的设计。这方面我们将参照国际上已建成的平行语料库设计,考虑双语的语言特点开展研究设计工作。初步考虑对译文本的选材分为文学类和非文学类两大类别。文学类主要是文学名著的对译本;非文学类的语料包括已公开发表的涉及经济、科技、文化、政治等不同领域的对译文本和联合国及其它国际组织的文献。语料录入的错误率保证在万分之二以内。
语料库文本语言单位的对应是关系到双语语料库使用价值的重要问题。由于汉、英、日语分属不同的语系,它们在语序、句子结构和逻辑语义的表达方面都存在着明显的差异。语料库首先要做到段落平行对应,进而研究语句的对应问题,要妥善处理下列情况:1)一句原文对多句译文;2)多句原文对一句译文;3)原文句子与译文句子在排列顺序上不一致。对这类问题的研究不但可以帮助解决对译文本的平行对应,更重要的是有助于深入探讨关于语言单位和翻译单位等理论问题。
全文见:http://www.sinotefl.com/dire_1.htm
北京外国语大学中国外语教育研究中心
王克非 王立弟
一、本课题研究现状及趋势,研究本课题的意义
随着计算机技术的飞速发展和普及,语料库在开展语言学基础和应用研究中发挥着愈来愈重要的作用。目前,世界上许多国家和地区不仅建立了各种单语语料库,而且已相继建立或正在建立双语平行语料库(parallel corpora)。可以说,双语平行语料库的建设代表了当今语言对比研究的发展趋势,对于促进语言对比研究和翻译研究,改进外语教学(例如通过大量语料进行词频统计,有利于词汇分级和确定各级学习者的词汇量),提高翻译质量和改进双语词典的编纂等都具有深远的意义,还将为双语信息检索和机器翻译等相关领域的开发产生重要的影响。
目前虽然语料库的建设和研究在国内外成为热门的研究开发项目,但是双语平行语料库的建设在我国才刚刚起步,目前仅有我基地正在建设的汉日对译文本语料库。汉英平行语料库的建立,将填补我国语料库建设的一项空白。
双语平行语料库的建设和开发利用须解决语言单位的确定、词类标注、语法切分和多功能检索等语言研究和软件开发问题。对这些问题的研究将推动语言学、语法学、词典学、语料库语言学和计算语言学理论的发展。
二、本课题的基本内容,预计突破哪些难题
建立双语平行语料库的一个首要问题是语料库的总体结构和子库的设计。这方面我们将参照国际上已建成的平行语料库设计,考虑双语的语言特点开展研究设计工作。初步考虑对译文本的选材分为文学类和非文学类两大类别。文学类主要是文学名著的对译本;非文学类的语料包括已公开发表的涉及经济、科技、文化、政治等不同领域的对译文本和联合国及其它国际组织的文献。语料录入的错误率保证在万分之二以内。
语料库文本语言单位的对应是关系到双语语料库使用价值的重要问题。由于汉、英、日语分属不同的语系,它们在语序、句子结构和逻辑语义的表达方面都存在着明显的差异。语料库首先要做到段落平行对应,进而研究语句的对应问题,要妥善处理下列情况:1)一句原文对多句译文;2)多句原文对一句译文;3)原文句子与译文句子在排列顺序上不一致。对这类问题的研究不但可以帮助解决对译文本的平行对应,更重要的是有助于深入探讨关于语言单位和翻译单位等理论问题。
全文见:http://www.sinotefl.com/dire_1.htm