[原创]国家语委语料库

oscar3

高级会员
#1
国家语委语料库是一个大型、通用的现代汉语平衡语料库,以语言文字的信息处理、规范标准制定、学术研究、社会应用和语文教育为主要服务目标。
国家语委语料库由国家语委委托语言文字应用研究所负责建设和管理。为了更好地发挥语料库的研究价值和社会效益,现将部分标注语料(约2000万字)通过中国语言文字网向社会各界提供免费的检索服务。
在使用国家语委语料库网上检索系统之前,请您先填写有关的基本信息,以便于我们了解语料库的实际使用情况。
如有问题或希望了解国家语委语料库的更多信息,请与语用所计算室联系。(联系电话:010-65592936 电子邮件:jisuanshi@china-language.gov.cn)

检索前需要填写用户姓名,单位,邮箱等信息。

http://www.cncorpus.org/
 

xujiajin

管理员
Staff member
#8
国家语委语料库科研成果简介.pdf
http://219.238.40.213:8080/国家语委语料库科研成果简介.pdf

语料库检索系统使用说明
1 关于记录使用者个人信息
为了掌握本语料库的用户分布情况及用途,我们请所有用户在使用之前输入自己的用户姓名,所在单位后学校,研究方向的信息,请各位用户予以配合,在填写信息的时候尽量做到完整,如所在单位或学校,请您填写完整规范的中文名称(两个汉字以上),尽量不要填写英文缩写。在留言栏里您可以将您对本语料库和查询系统的意见和建议。

2 关于检索系统的使用
本检索系统提供对单一关键词的检索。由于国家语委语料库是切分标注预料库,所以关键词检索分为整词型和字符串型两种,整词检索提供所有该词确定出现的例句,而字符串检索提供所有带有包含该字符串的词的例句。如:以字符串形式检索关键词“人民”,那么所有带有“中国人民银行/ni”的例句会出现在检索结果中,而含有“多数/n 人/n 民主/n”一类字符的例句不出现在结果中。

同时,本系统提供一个前共现词和一个后共现词的共现检索。对于共现词,如果指定了该词的词类即认为对该共现词作上述的整词型检索,如果不指定共现词的词类,即认为对该共现词作上述字符串型的检索。

3 关于例句察看
本系统采用关键词居中索引的方式,同时提供完整的原句,您只需点击关键词即可打开原句察看。

本系统目前仍处在试运行阶段,提供较简单的查询功能,我们仍在不断的改进和完善中,希望您能将使用中的感想和对被系统的一些建议告诉我们。如果您发现我们的语料中存在切分和标注错误,也请您指正,您的意见能够帮助我们完善语料库,更好的为语言学及中文信息处理研究服务。电子邮件:jisuanshi@china-language.gov.cn
 
顶部