中国日语学习者语料库CJLC的构建

xujiajin

管理员
Staff member
【摘要】建立学习者语料库能为二语习得等方面的研究提供新的思路和方法。但是,迄今为止的语料库建设由于缺乏统一的平台支持, 存在着协同困难、重复劳动多以及升级、版权保护难等问题。通过构建整合型学习者语料库建设应用平台则能够极大地提高建设的效率和效果。

一序言

自世界上第一个机读英语语料库——布朗语料库(Brown)创建以来,语料库在语法、词汇、文体等不同领域逐渐得到广泛应用。以推进二语习得或中介语研究为目的的学习者语料库建设虽稍显滞后,但近年来也不断取得新的成果。朗文学习者语料库LLC(Longman Learner’s Corpus)、学习者英语国际语料库ICLE(International Corpus of Learner English)以及香港科技大学语料库HKUST(Hong Kong University of Science and Technology Corpus)都处在不断完善和发展的阶段[1]。通过国内学者的多年努力,中国学习者英语语料库CLEC(Chinese Learner English Corpus)、中国大学学习者英语口语语料库COLSEC(College Learners’Spoken English Corpus)和英语专业学习者语料库CEM(Corpus for English Majors)也先后建成,对我国二语习得研究和教学改革起到了巨大的推动作用,成为研究外语教学规律不可或缺的基本素材。但是,这些语料库在开发过程中都没有特定软件平台的支撑

1。数据由建设者分头输入、处理后再汇总在一起。尽管入门门槛较低,发布后也没有日常运营开支,但存在着协同困难、重复劳动多、升级繁琐以及版权保护方面的难题。随着因特网技术的不断发展,软件平台的体系结构从过去的单用户发展到今天的C/S(客户机/服务器)和B/S(浏览器/服务器)架构。这些平台体系的出现为语料库建设提供了崭新的技术手段。在很大程度上,避免了数据分发、汇总、格式统一以及升级过程中的重复劳动,提高了建库效率,降低了出错概率。本文拟以中国日语学习者语料库CJLC(Chinese Japanese Learner’s Corpus)的构建为例,探讨整和型语料库建设应用平台的方案设计及实现。二单用户系统开发模式的局限如上所述,现有的语料库多为分散开发模式。建设者只须具备基本的字处理软件使用能力即可参与开发,入门门槛不高。发布后也无需日常运营开支。但是,这种开发方式也存在着明显不足。首先,语料库建设是一项庞大的工程,为了保证语料的质量和开发效率,需要多人协同进行。由于缺乏平台支撑,在输入、校对、标注、修正等各个阶段,都必须反复进行语料的分发和汇总,重复劳动多,也容易出现差错。其次,为了提高语料的可用性,还需要对语料进行标注。

但是,仅凭字处理软件或Dreamweaver等HTML编辑工具,很难对语料进行深度标注。在赋码过程中,所有错误码和数据标签都须手工输入,既不直观,加重了标注者的负担,又提高了出错的几率。杨惠中等[2]指出,在中国大学学习者英语口语语料库(COLSEC)素材的汇总过程中,观察到了文本标签嵌套错误、标签拼写错误、标签设定不一致、全角半角不一致、错误码设置过多等诸多问题。这些都需要人工校对加以修正。而在发布之后,由于语料库分散在不同用户手中,使得开发者难以迅速、高效地对语料进行统一升级和扩充,也不利于版权保护。运用基于B/S架构的整合型语料库开发应用平台2以有效地解决这些问题,提高语料库开发效率。在B/S结构平台的支撑下,用户界面通过IE等WWW浏览器来实现,数据统一存储在服务器端,主要事务逻辑也在服务器端完成。由此简化了建库流程,实现了数据的自动分发和汇总,系统升级更为快捷方便。同时,由于支持Unicode,便于实现多语言界面,也给语料库的建设者和使用者带来了很多方便。三中国日语学习者语料库(CJLC)的总体规划中国日语学习者语料库(CJLC)为国家社会科学基金项目“中国日语学习者语料库的建设与研究”的建设内容之一,于2008年6月启动。该语料库以反映中国日语学习者的实际学习情况为目标。通过全面、系统地收集我国高校日语专业学生的语料,客观、翔实、准确地反映我国日语专业学生的语言习得和发展状况。它的建成将填补国内外在这一领域的空白,为我国高校日语专业教学大纲、课程设置、教学内容、教学标准、教学方法、词汇表的制定和完善以及教学评估提供客观依据,并有力地推动两语研究的发展。本语料库平台分为建库和应用两大子系统。各下属模块的具体功能如下表1所示。

每个模块都具有不同界面,需要特定权限方能显示和进入。系统管理员根据实际需要为用户灵活分配权限,通过网络完成输入、标注、校对、检索和管理等各项工作。由于数据库存在于服务器端,可以实现多用户共享,所以数据的输入和标注等不同阶段的工作可以同步进行,互不干扰。当然,对于某一特定语料来说,还是需要按照一定流程完成输入、标注等一系列工作(详见图1)。在互联网应用的初期,开发者多使用C或Perl等CGI语言进行Web开发。现在,已有C#/ASP.NET、JSP和PHP5等多种方案可供选择。本课题组选择了AMP(Apache/MySQL/PHP)解决方案,即以PHP5编写语料库开发平台,MySQL作为数据库,Apache为Web服务器发布软件。这些都是遵循GPL的开放源码软件,不必缴纳软件使用费。这在很大程度上降低了开发费用。同时,又拥有丰富的资源可供使用、修改或重组。在成本和可用资源方面,胜过了C#/ASP.NET/IIS解决方案。四数据库结构及输入子系统的模块设计利用学习者语料库通常可以进行中介语对比分析(CIA)和计算机辅助错误分析(CEA)两种研究[3]。前者是在母语使用者的输出和非母语学习者的输出之间或不同第一语言背景的非母语学习者之间进行定性或定量的对比分析。后者则以中介语中的错误为研究对象,对其进行标注、检索和分析。于从赋码后的语料库中能够提取出的信息远远超过原始语料[4],因此无论是哪种研究都必须对原始语料进行赋码和标注。不过,中介语对比分析和计算机辅助错误分析对语料赋码的要求有所不同。前者要求对语料添加语法码,后者则要求进行错误标注。由于在错误标注过程中,可能出现并句或分句的情况,从而导致生成的语法码和错误码在句子层面不能做到一一对应,建库模块分为输入、输入校对、语法码校对、标注和标注校对五个子模块。语料的处理流程如图1所示。

由于语言研究多以句子为单位,因此语料输入进电脑后,首先被分割成单句存入origin_sentence库表。同时,保存年份、级别、试卷类型以及句子、段落序号等信息。完成校对后,系统先根据文章编号更新origin sentence库表内对应的语料内容。随后,对书写错误码进行解析,将错误码等信息存入wrong库表。原始语料经过相应处理后存入sentence库表,留待下一步标注3。最后,系统自动调用赋码工具Chasen对语料进行词性分析,将得到的各单词的表层形、基本型以及词性等信息存入gramma库表(详见表2)。Chasen是一个运行于Dos环境下的程序,需用exec函数进行调用,通过命令行参数控制输出内容和格式。由于该程序只能处理Shift-JIS内码字符串,所以在处理前后要进行utf-8和Shift-JIS内码之间的相互转换。具体代码请参见例14。经检查,自动赋码的正确率约为96.5%,能够满足建库的基本要求。经过人工校对后,gramma库表中的语法码等信息得到更新,成为中介语对比分析研究(CIA)的分析对象。整个语料输入流程至此结束。五标注和标注校对子模块的功能设计对于计算机辅助错误分析(CEA)来说,按照统一标准对语料中存在的各类错误进行标注是不可缺少的步骤之一。由于日语书写方式的特殊性,除了语法、词汇等方面的错误以外,学习者还可能犯汉字、假名书写不规范或误用(如使用中文汉字)等错误。受字库所限,后者往往无法得到准确记录,必须在输入阶段就有针对性地进行处理5。为了方便操作,本系统在输入界面上设置了四个按钮,分别对应“汉字书写错误”、“汉字使用错误”、“假名书写错误”和“假名使用错误”。

点击后,在输入文本框的光标处插入“[kjk]”、“[kj]”、“[knk]”和“[kn]”等相应标记。当输入校对结束后,系统对这些标记进行检索,解析出错误序号、错误形式、错误码、正确形式、句子序号等相应信息存入wrong库表。同时,为错误部分添加文本颜色标签、相关信息等后存入sentence库表。例如,例2中的“锅”为中文汉字,对应的日语汉字应为“鍋”。遇到此类错误,在输入阶段,先输入正确汉字,再插入标记“[kjk]”(见例3)。待输入校对完成后,系统自动将其解析为表3所示各项信息存入wrong库表。随后,将“鍋[kjk]”字符串转换为例4划线部分形式6,连同在标注阶段,项目组邀请长年教授作文课的日籍教师对语料中出现的各类语法、词汇等错误进行标注、修改和校对。系统首先根据句子编号抽取sentence库表中相应内容合成文章并生成操作页面。当标注或校对工作完成后,系统删除wrong和sentence两库表内相应内容,再根据页面传送过来的内容,重新生成句子并插回sentence表。最后,分析句子中的标签,对大括号内的内容进行解析后将相关信息插入wrong表,成为日后计算机辅助错误分析(CEA)的研究对象。参考[6]等文献,本系统共设置了“书写”、“词汇”、“语法”、“表达”等四大类错误码共计56项(见表4)。在标注过程中,可以根据实际需要进行增减。由于错误码数量众多,难以准确记忆,故本系统采取了两级下拉式菜单输入方式。不仅更加直观,也避免了由整理提供输入错误或拼写方面出现差异。由于包括格式转换在内的所有编码工作均由系统在后台自动完成,因此避免了文本标签嵌套错误、标签拼写错误、标签设定不一致等现象的发生。上述每个步骤完成之后,系统都会通过网络回收语料,并存入相应的库表,留待下一步处理。

在库表中,专门设置了相应字段存放语料的状态信息,以实现对语料的自动管理。在某一阶段工作未完成之前,该语料对于其他工作人员(不包括管理员)不可见。这样就避免了重复或遗漏操作的可能。同时,在管理员设置了某一参与者的具体工作量之后,所有数据的分发和回收均由系统自动完成,无需人工参与,节省了这些环节上的大量操作。各阶段工作可以同步进行,也提高了建库效率。六应用子系统的功能设计拥有规模大、代表性强的语料只能算是建设的第一步。如何有效地利用这些信息无疑更为重要。本语料库的应用子系统下属检索和统计两大模块。对语料赋码后,原始文本被以单词为单位分割开来。例如,例5中的「かもしれない」被分解为「か」、「も」等5个部分(详见表5)。这给检索词组或更大单位的字符串带来了困难。但是,对于部分研究来说,这些赋码又是不可或缺的。因此,本语料库设置了两种不同的关键词匹配方式,分别对应于原始语料(origin_sentence库表)和赋码后的语料(gramma库表、wrong库表)。前者较为灵活,可以用来检索多词的组合,但精度较差,容易混入大量垃圾信息。通过后者则可以实现各种丰富的检索、统计功能,提高工作效率,更好地满足语言研究的需要。缺点在于,如果检索方式或关键词设定失当,可能造成误判或遗漏。为稳妥起见,需要将两者的检索结果进行对照和检验。(5)そうかもしれないわね。(倉本聰『北の国から後編』)从具体功能看,在现阶段,本系统的检索模块实现了“关键词检索”、“提取相邻词”、“根据相邻词词性筛选例句”、“根据特定错误筛选例句”、“根据特定错误提取相邻词”等功能。可以方便地根据研究需要从特定年份、等级和类型的素材中提取出相应语料。具体应用实例可参见[7]。为了提高研究效率,我们还需要对语料进行多角度的定量分析。本系统的统计模块实现了“高频词统计”、“特定错误统计”、“错误分类统计”、“词性分类统计”、“词表自动生成”、“词语组合的Z-score/MI-score计算”等功能。今后将根据实际应用的需要,不断丰富检索和统计功能,更好地为语言研究服务。
由于本系统采用了B/S架构,语料库各项应用的升级和维护都可以在客户端通过远程桌面连接登陆服务器完成。能够对用户需求进行及时反馈,极大地提高了建库效率,降低了维护、升级的成本。七结语本文以中国日语学习者语料库(CJLC)的建设为例,探讨了整和型语料库建设应用平台的规划和实现。通过分析可以发现,在B/S结构平台体系的支撑下,语料库建设实现了数据分发、汇总、处理的自动化以及赋码和数据结构的标准化,减少了中间环节和重复劳动,提高了输入、校对和标注的效率,降低了工作强度和出错的概率。同时,语料库的升级和扩充更为便捷,用户可以及时地分享最新的建设成果。另外,由于数据库只存在于服务器端,其整体对于用户来说并不可见,通过读取客户端信息等方式,可以方便地绑定用户,控制用户群,从而有效地保护建设者的各项权益。本平台并不仅仅适用于日语语料库的建设,也同样适用于英、法等欧美语言。只需根据赋码软件调用方式的不同,适当修改语法信息自动解析模块并调整错误码设置即可,具有较为广泛的适用性。当然,本系统尚处于不断扩充和修正过程中。在系统规划、模块设计、功能实现和数据管理等方面仍存在很多不足之处。在此仅作抛砖引玉,恳请各位专家前辈不吝赐教。注释:1例如,中国学习者英语语料库(CLEC)和中国学生英语口语语料库(COLSEC)以文本文件形式随相关研究成果提供,英语专业学习者语料库(CEM)则搭配了简单的检索软件和wordsmith语料库分析软件销售。此外,尽管通过上海交大网上语料库查询系统(http://corpus.sjtu.edu.cn/WebCast/Search.aspx
)等,可以对CLEC、JDEST、Brown和LOB等语料库进行检索,但从建库方式和平台结构来看,都属于单用户系统的网络化。与本文所述基于B/S架构的语料库建设应用平台有很大不同。2目前常见的C/S(客户机/服务器)和B/S(浏览器/服务器)架构具有不同特点,适应的需求各异。前者服务器运行负荷较轻,数据储存管理较为透明。但是,需要同时对服务器和客户端进行维护和管理,技术支持复杂,维护成本高,工作量大。而B/S(浏览器/服务器)架构只需管理服务器端,不需要数据同步,维护和升级简单,能够方便、迅速地对系统进行改进和升级。成本较低,软件平台选择更多。缺点是服务器负荷相对较重。但这对于并发用户数有限的学习者语料库来说, 不构成很大的问题。因此,课题组选择后者作为语料库的平台架构。3所以将语料另存到其他库表,是为了保存字体等信息,以便突出显示句中出现的各类错误。具体处理方式见下节。
4于赋码工具Chasen的使用技巧详见[5]。5实上,在实际输入过程中,很难将汉字书写错误等各类信息充分完整地记录下来。因此,除了电子文本之外,本系统的数据库中还收录了所有试卷的图像文件,可以方便地调用、对照。6中包含的信息分别为“字体颜色错误形式{错误序号,错误形式,错误码,正确形式}”。

参考文献
[1]Kennedy, G. An Introduction to Corpus Linguistics[M].New York: Addison Wesley Longman Limited,1998:4
[2]杨惠中,卫乃兴.中国学习者英语口语语料库建设与研究[M].上海:上海外语教育出版社,2005:13-25.
[3]Granger S.A bird’s-eye view of learner corpus research[A].Granger S, Hung J, Petch-Tyson S. Computer Learner corpora ,Second Language Acquisition and Foreign Language Teaching[C].Amsterdam: John Benjamins PublishingCompany,2002:11-14.
[4]Meunier, F. Computer tools for interlanguage analysis: A critical approach[A].Granger S. Learner English on computer[C].London and New York: Addison WesleyLongman,1998.
[5]毛文伟.论语料库信息自动筛选技术的实现及排错[J].外语电化教学,2007,1:56-60.
[6]王忻.中国日语学习者偏误分析[M].北京:外语教学与研究出版社,2006:245-248.
[7]毛文伟.语料库在历时语言学研究领域的应用[J].外语电化教学,2009,1:14-19.
本文由无忧论文网硕士(博士、职称、毕业)论文下载与发表中心独家提供资源,如有雷同,纯属盗版。 欢迎各位光临获取更多有用资料。
 
Back
顶部