“兰卡斯特汉语语料库”介绍

xujiajin

管理员
Staff member
#1
“兰卡斯特汉语语料库”介绍
http://www.sinoss.com/portal/webgate/CmdArticleShow?articleID=8775
许家金

(北京外国语大学 中国外语教育研究中心,北京 100089,北京)

提要:本文介绍“兰卡斯特汉语语料库”(简称LCMC)的取样方案、文本构成、标注体系和应用方面的概况。该语料库是依照英国英语语料库FLOB的取样方案和规模创建的可比汉语语料库,适合开展英、汉语对比研究,同时也适合汉语研究。

关键词:汉语语料库;LCMC;对比研究

1.0 前言

“兰卡斯特汉语语料库”(The Lancaster Corpus of Mandarin Chinese,简称LCMC)系旅英学者肖忠华博士创建的现代汉语平衡语料库。该语料库严格按照FLOB(Freiburg-LOB Corpus of British English)模式编制,它的建成有助于开展基于语料库的汉语单语或汉英(英汉)双语对比研究及汉语研究。



2.0 LCMC语料库概况

LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库。起先建立时,它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的部分成果。肖忠华最初的设想是要将其建成同FLOB和FROWN对应的现代汉语语料库。筹建这样的一个语料库的另一个动因是:尽管已经有很多汉语语料库存在,但却没有一个完全免费对公众开放的平衡的汉语语料库[2]。

2.1 取样模式与文本收集

考虑到LCMC主要做对比研究之用,肖忠华创建语料库之初就确定了对比的对象。一方面,在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面,要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本。于是,最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于同时还有与FLOB对应的美国英语语料库Frown的存在,LCMC建成以后也可与美国英语进行比较。最后,确定下来的方案是按FLOB的构建模式,从15个文体类型(见表1)中选取500篇2,000词左右的样本。样本的出版日期基本在1991年前后。

LCMC的筹建基本上是严格按照FLOB的取样模式进行,只在两个方面做了微调。

第一、FLOB的取样范畴中,肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武侠小说”。一方面由于中国没有所谓的“西部小说”,另一方面,“武侠小说”和“西部和历险小说”从内容性质上同属一类,且在中国这一类小说中数量众多,因此有充足理由将其收入LCMC中。
...

Please cite as 许家金,2007,“兰卡斯特汉语语料库”介绍,《中国英语教育》第3期。
 

附件

戴光荣

普通会员
#3
回复: “兰卡斯特汉语语料库”介绍

请问许博士
我登陆后
您的大作为啥不能下载呢?

再问
肖博士的语料库能不能共享?
非常感谢了。
 

戴光荣

普通会员
#4
回复: “兰卡斯特汉语语料库”介绍

LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库
请问肖博士:
“每1.6个汉字对应一个英文单词折算”这样处理的技术基础或理论基础是什么?
 

xujiajin

管理员
Staff member
#5
回复: “兰卡斯特汉语语料库”介绍

有很多基于平行语料的验证,可参看王克非《双语对应语料库:研制与应用》(编著)外研社,2004。

免费注册就可以阅读所有全文。
我这里也附了word版的。
 

戴光荣

普通会员
#6
回复: “兰卡斯特汉语语料库”介绍

谢谢许博士。
能否分享您的《汉语自然会话中话语标记“那(个)”的功能分析》 [J]. 语言科学,2008,(1).
carldy@126.com
祝:
一切好。
 

xiaoz

永远的超级管理员
Staff member
#8
回复: “兰卡斯特汉语语料库”介绍

The ratio was determined by the average of a range of text cateories such as news stories, academic writing and fiction. This was used to select the Chinese text samples (we could only count in characters before the texts were tokenised), which were further adjusted when the texts were tokenised and tagged - cutting / combining to nearest of 2000 words while keeping sentences complete.

LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库
请问肖博士:
“每1.6个汉字对应一个英文单词折算”这样处理的技术基础或理论基础是什么?
 
顶部