国家语委现代汉语语料库介绍

xujiajin

管理员
Staff member
语料库是存储于计算机中并可利用计算机进行检索、查询、分析的语言素材的总体。基于语料库的分析方法是对传统的基于规则的分析语言的方法的一个重要补充。语料库具有"大规模"和"真实"这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字信息处理等领域的基础工程。
近十几年来,美、英、法、德、日等国家都投入巨资,相继建立了规模较大的语料库。我国从1990年开始建立大型的国家级语料库,该语料库由国家语言文字工作委员会主持,组织了语言学界和计算机界的专家学者共同建立。并得到了许委员长等领导自始至终的关心和支持。
当时,国内已建成几个不同规模的汉语语料库,但这些库的规模都比较小,用途单一,不能长期使用,研制工作也比较粗糙。因此,为筹建现代汉语语料库,国家语委文字应用管理司在全国范围内进行了调研,走访了机械电子工业部计算机与信息发展研究中心、机电部十五所、北京信息工程学院信息管理系、北京航空航天大学计算机系、南京大学语言工程中心、深圳大学信息中心、华南理工大学、上海交通大学计算机系和语言工程研究所等十几个单位,并访问了国内中文信息处理界的一些学者。1993年,组织建立现代汉语语料库的任务列入了国家语言文字工作委员会"三定"方案中。
1991年12月16日-19日,国家语委文字应用管理司在北京召开了第一次专家论证会。计算机界、语言学界的专家学者及计算机公司代表共30余人参加了会议。与会代表就现代汉语语料库总体设计、选材原则、建立汉语语料库的规范和标准,以及语料库的有关课题研究等问题进行了充分的协商和论证,并在以下几个方面取得了共识:现代汉语语料库应是一个大型的通用的语料库,应以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务方面;现代汉语语料库作为国家级语料库,在语料可靠、标注准确等方面应具有权威性,在汉语语料库系统开发技术上应具有国际领先水平;现代汉语语料库要面向国内外的长远需要,选材要有足够的时间跨度,语料应抽样合理、分布均匀、比例适当,科学地反映现代汉语全貌;在建立现代汉语语料库的同时,还应着手研究和制定有关语料库的统一规范和技术标准,以推动汉语语料库的建设。根据以上的用途和要求,现代汉语语料库定位为系统型语料库,库容量为7000万汉字。语料库建成后,拟每年增补350万字的新语料。
1992年4月27日至29日,国家语委文字应用管理司在京组织召开了现代汉语语料库选材原则专家论证会,在专家充分论证的基础上,于1993年1月制订出《现代汉语语料库选材原则》。具体选材任务分别由中国社会科学院语言所、北京师范大学中文系和中国人民大学中文系三个课题组承担。选材工作自1992年底开始,按照通用性、描述性、实用性等原则系统地抽样选择了1919-1992年的现代汉语语言材料7000万字,由人文与社会科学、自然科学及综合三个大类约40个小类组成。具体类别如下:
1.人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律;(2)历史:历史、考古、民族;(3)社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗;(4)经济:工业经济、农业经济、政治经济、财贸经济;(5)艺术:音乐、美术、舞蹈、戏剧;(6)文学:小说、散文、传记、报告文学、科幻、口语;(7)军体:军事、体育;(8)生活。
2.自然科学划分为6类:数理、生化、天文地理、海洋气象、农林、医药卫生。
3.综合类语料由应用文和难于归类的其他语料两部分组成。应用文使用很广泛,主要涉及以下6类:(1)行政公文:请示、报告、批复、命令、指示、布告、纪要、通知等;(2)章程法规:章程、条例、细则、制度、公约、办法、法律条文等;(3)司法文书:诉讼、辩护词、控告信、委托书等;(4)商业文告:说明、广告、调查报告、经济合同等;(5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等;(6)实用文书:请假条、检讨、申请书、请愿书等。
语料来源包括教材、报纸、综合性刊物、专业刊物、图书等。每个样本的容量为2000字左右,书籍的抽样字数一般占全书总字数的3-5%,最多不超过10000字;每本刊物上所选的总字数原则上不超过5000字。到1993年底,课题组完成了语料选材、清单制定和样本制作工作。
7000万字语料选材完成后,各类语料实际比例基本符合《选材原则》中规定的比例,但都有所调整。各类语料所占比例如下:
人文与社会科学类语料占语料总量的59.6%,自然科学类语料占语料总量的17.24%,综合类语料占语料总量的9.36%,取材于报纸的语料,难于划分门类和语体,因此单独计算,报纸语料占语料总量的13.79%。另外,取材于教材的语料总量有2000万字,已经按学科计入各类语料。
国家语委文字应用管理司于1993年9月21日至24日在北京主持召开了现代汉语语料库选材专家审定会。在京的语言学界、计算机科学界的专家学者20多人出席了会议。与会专家一致认为,该语料库的选材是国内规模最大的一次,选材论证充分,系统性强。与会专家对选材清单和语料样本进行了认真详细的审定,一致认为,该语料库的选材符合《现代汉语语料库选材原则》;清单制定和样本制作符合《现代汉语语料库选材实施过程中应遵循的原则和方法》和《现代汉语语料库选材清单项目与填写说明》中的规定和要求。
专家们还就选材的比例、内容、抽样等方面的问题提出了评价意见。在选材比例方面,多数学科的语料是严格按照选材原则依年限所分配的比例、数量进行选取的,少数学科根据语料的实际状况对事先分配的比例、数量进行了调整,专家们认为所做的调整是恰当的。在选材内容方面,做到了在严格控制比例的前提下进行广泛的采样,体现了选材原则所要求的通用性原则,即主要选取了具有高中文化程度的人能够阅读的、社会使用面较为广泛的语料;注意遵循以"门类为主、语体为辅"的原则,吸收了已进入通用语词的专业语料、已进入标准书面语的方言语料和能用书面语转述的口语语料。在抽样方面,做到了按照选材原则中规定的抽样原则进行抽样,保证了语言材料的多样性、完整性和遍历性;在实际抽样中,既坚持抽样的随机性,又按照语料的实际状况进行必要的人工干预,从而保证了语料的描述性选取和抽样的合理性。清单填写和样本制作也符合原设计要求,准确、清楚,达到了规格化的要求,具备了语料录入的条件。
为加快建库工作,使现代汉语语料库尽快发挥社会效益,首先建立了核心语料库,以适应词典编纂、办公自动化、中文信息处理等近期需要。核心语料库的字数为2000万字,由7000万语料中筛选出来。由于《选材原则》是经几次专家论证确定的,核心语料库的语料筛选工作,在语料分科、年限划分、比例、字数等方面基本上仍依照《选材原则》进行,只是结合核心语料库的用途特点,在语料筛选上突出1977年以后的新语料,注意选用内容通俗、通用性强的普及性语料,因而不同年限和门类的语料比例和字数均有小的调整。
现代汉语语料库主要服务于语言文字的信息处理、语言文字规范标准的制订、语言文字的学术研究、语文教学和语言文字的社会应用等方面。
7000万字的生语料库已于2001年底建成。现代汉语语料库的深加工和开发已列入国家《语言文字应用研究"十五"资助项目》。(晓进选辑)

来源:http://www.china-language.gov.cn/
 
Is this corpus the Chinese National Corpus mentioned in Zhou and Yu's (1997) paper in International Journal of Corpus Linguistics?

OR which is the Chinese National Corpus?
 
请教各位专家,欲做一个 英汉语中性别差异导致的语言差异 对比 。 其中,
汉语部分应该选用什么语料库? 哪里可以获得?
 
回复:国家语委现代汉语语料库介绍

以下是引用 hancunxin2005-6-30 20:52:35 的发言:
where can i get it?

don't know for sure.
 
回复:国家语委现代汉语语料库介绍

以下是引用 hancunxin2005-6-30 21:17:39 的发言:
请教各位专家,欲做一个 英汉语中性别差异导致的语言差异 对比 。 其中,
汉语部分应该选用什么语料库? 哪里可以获得?

For English, the BNC is the best. I have come across a Chinese corpus that is marked up for user genders.
 
回复:国家语委现代汉语语料库介绍

以下是引用 xiaoz2005-7-1 23:20:20 的发言:
以下是引用 hancunxin2005-6-30 21:17:39 的发言:
请教各位专家,欲做一个 英汉语中性别差异导致的语言差异 对比 。 其中,
汉语部分应该选用什么语料库? 哪里可以获得?

For English, the BNC is the best. I have come across a Chinese corpus that is marked up for user genders.
What is that Chinese corpus?
 
Ah, it's a spoken corpus of telephone conversation, CallHome Mandarin. But the LDC version has no such markups, I added them to the corpus, and also POS tagged it (all in XML) and converted it to Unicode (UTF-8). Here is a sample of corpus header:

<cesDoc id="xx_xxxx" lang="zho">
<cesHeader type="text">
<fileDesc>
<titleStmt>
<h.title>xx_xxxx.xml</h.title>
</titleStmt>
<publicationStmt>
<distributor>LDC</distributor>
<pubAddress>Linguistic Data Consortium, the University of Pennsylvania, USA</pubAddress>
<availability region="WORLD"></availability>
<pubDate>28-05-1997</pubDate>
</publicationStmt>
<profileDesc>
<langUsage>Mandarin Chinese</langUsage>
<wsdUsage>
<writingSystem id= "utf-8">Unicode Transformation Format 8 </writingSystem>
</wsdUsage>
</profileDesc>
<textClass>
<channel mode="s">Telephone call</channel>
</textClass>
</fileDesc>
<particDesc>
<speaker id="0022A" sex="female" age="adult" edu="1"></speaker>
<speaker id="0022B" sex="female" age="adult" edu="n/a"></speaker>
<speaker id="0022B1" sex="male" age="adult" edu="n/a"></speaker>
</particDesc>
</cesHeader>

The corpus is also time stamped for utterance units.

Unfortunately, if I put the corpus here, the LDC will take me to the court... It is worth 500 dollars for just a corpus of about 300K words.

但是,聪明的用户很可能会找到网上检索的链接哦,天机不可泄露。相信dzhigner 已经找到了。
 
Back
顶部