“兰卡斯特汉语语料库”介绍
http://www.sinoss.com/portal/webgate/CmdArticleShow?articleID=8775
许家金
(北京外国语大学 中国外语教育研究中心,北京 100089,北京)
提要:本文介绍“兰卡斯特汉语语料库”(简称LCMC)的取样方案、文本构成、标注体系和应用方面的概况。该语料库是依照英国英语语料库FLOB的取样方案和规模创建的可比汉语语料库,适合开展英、汉语对比研究,同时也适合汉语研究。
关键词:汉语语料库;LCMC;对比研究
1.0 前言
“兰卡斯特汉语语料库”(The Lancaster Corpus of Mandarin Chinese,简称LCMC)系旅英学者肖忠华博士创建的现代汉语平衡语料库。该语料库严格按照FLOB(Freiburg-LOB Corpus of British English)模式编制,它的建成有助于开展基于语料库的汉语单语或汉英(英汉)双语对比研究及汉语研究。
2.0 LCMC语料库概况
LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库。起先建立时,它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的部分成果。肖忠华最初的设想是要将其建成同FLOB和FROWN对应的现代汉语语料库。筹建这样的一个语料库的另一个动因是:尽管已经有很多汉语语料库存在,但却没有一个完全免费对公众开放的平衡的汉语语料库[2]。
2.1 取样模式与文本收集
考虑到LCMC主要做对比研究之用,肖忠华创建语料库之初就确定了对比的对象。一方面,在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面,要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本。于是,最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于同时还有与FLOB对应的美国英语语料库Frown的存在,LCMC建成以后也可与美国英语进行比较。最后,确定下来的方案是按FLOB的构建模式,从15个文体类型(见表1)中选取500篇2,000词左右的样本。样本的出版日期基本在1991年前后。
LCMC的筹建基本上是严格按照FLOB的取样模式进行,只在两个方面做了微调。
第一、FLOB的取样范畴中,肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武侠小说”。一方面由于中国没有所谓的“西部小说”,另一方面,“武侠小说”和“西部和历险小说”从内容性质上同属一类,且在中国这一类小说中数量众多,因此有充足理由将其收入LCMC中。
...
Please cite as 许家金,2007,“兰卡斯特汉语语料库”介绍,《中国英语教育》第3期。
http://www.sinoss.com/portal/webgate/CmdArticleShow?articleID=8775
许家金
(北京外国语大学 中国外语教育研究中心,北京 100089,北京)
提要:本文介绍“兰卡斯特汉语语料库”(简称LCMC)的取样方案、文本构成、标注体系和应用方面的概况。该语料库是依照英国英语语料库FLOB的取样方案和规模创建的可比汉语语料库,适合开展英、汉语对比研究,同时也适合汉语研究。
关键词:汉语语料库;LCMC;对比研究
1.0 前言
“兰卡斯特汉语语料库”(The Lancaster Corpus of Mandarin Chinese,简称LCMC)系旅英学者肖忠华博士创建的现代汉语平衡语料库。该语料库严格按照FLOB(Freiburg-LOB Corpus of British English)模式编制,它的建成有助于开展基于语料库的汉语单语或汉英(英汉)双语对比研究及汉语研究。
2.0 LCMC语料库概况
LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库。起先建立时,它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的部分成果。肖忠华最初的设想是要将其建成同FLOB和FROWN对应的现代汉语语料库。筹建这样的一个语料库的另一个动因是:尽管已经有很多汉语语料库存在,但却没有一个完全免费对公众开放的平衡的汉语语料库[2]。
2.1 取样模式与文本收集
考虑到LCMC主要做对比研究之用,肖忠华创建语料库之初就确定了对比的对象。一方面,在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面,要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本。于是,最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于同时还有与FLOB对应的美国英语语料库Frown的存在,LCMC建成以后也可与美国英语进行比较。最后,确定下来的方案是按FLOB的构建模式,从15个文体类型(见表1)中选取500篇2,000词左右的样本。样本的出版日期基本在1991年前后。
LCMC的筹建基本上是严格按照FLOB的取样模式进行,只在两个方面做了微调。
第一、FLOB的取样范畴中,肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武侠小说”。一方面由于中国没有所谓的“西部小说”,另一方面,“武侠小说”和“西部和历险小说”从内容性质上同属一类,且在中国这一类小说中数量众多,因此有充足理由将其收入LCMC中。
...
Please cite as 许家金,2007,“兰卡斯特汉语语料库”介绍,《中国英语教育》第3期。