国内语料库建设一览表

xujiajin

管理员
Staff member
http://blog.csdn.net/yujun00/archive/2005/12/01/541633.aspx

国内语料库建设一览表
类型 语料库名称及大小 建设单位
英语学习者语料库(书面语及口语) 中国学习者语料库 CLEC(100万) 广外、上海交大
大学英语学习者口语语料库 COLSEC (5万) 上海交大
香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学
中国英语专业语料库 CEME (148万) 南京大学
中国英语学习者口语语料库 SECCL (100万) 南京大学
国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大
硕士写作语料库 MWC (12万) 华中科技大学
平行语料库 汉英平行语料库 PCCE 北外
南大-国关平行语料库 南京大学
英汉文学作品语料库; 外研社
冯友兰《中国哲学史》汉英对照语料库
李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库
计算机专业的双语语料库; 国家语言文字工作委员会语言文字应用研究所
柏拉图(Plato)哲学名著《理想国》的双语语料库
英汉双语语料库(15万对) 中科院软件所
英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对 中国科学院自动化研究所
英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学
英汉双语语料库(40-50万句子对) 哈尔滨工业大学
双语语料库(5万多对) 北京大学计算语言学研究所
对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学
平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾
特殊英语语料库 中国英语(China English)语料库 河南师范大学
军事英语语料库(Corpus of Military Texts) 解放军外语学院
新视野大学英语教材语料库 上海交通大学
汉语语料库 汉语现代文学作品语料库(1979年,527万字) 武汉大学
现代汉语语料库(1983年,2000万字) 北京航空航天大学
中学语文教材语料库(1983年,106万8000字) 北京师范大学
现代汉语词频统计语料库(1983年,182万字) 北京语言学院
国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会
《人民日报》语料库(2700万字) 北京大学计算机语言学研究所
大型中文语料库(5亿字,10分库) 北京语言文化大学
现代汉语语料库(1亿字) 清华大学
汉语新闻语料库;(1988年,250万字) 山西大学
标准语料库(2000年,70万字)
生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学
现代自然口语语料库 中国社会科学院语言所
旅游咨询口语对话语料库和旅馆预定口语对话语料库 中国科学院自动化所
 
回复: 国内语料库建设一览表

非常感谢许博士!国内哪里能买到用于翻译教学的语料库?最好是光盘版的。先谢了!
 
回复: 国内语料库建设一览表

请问:《人民日报》语料库(2700万字) 北京大学计算机语言学研究所,里面收集了《人民日报》从1946年以来得所有文章吗?怎样才能买到?
 
回复: 国内语料库建设一览表

这个单子挺全的,谢谢Dr. Xu费心。
 
回复: 国内语料库建设一览表

这个单子太老了,那还是n年前,不知从哪贴过来的。等有空了,再好好整理一下吧。
 
回复: Re: 回复: 国内语料库建设一览表

为什么我检索“著作”或“著作权”, 显示符合条件的不存在,而“作品”检索后出现很多“著作”

谢谢喵喵,这是大陆库的bug,少数检索词有这样的问题(这里的问题在"著").正在解决中.
香港库中也有这样的问题,如发现"市政"就无法显示,(问题在"市").
据我们的耗子说,可能是简繁转换造成的.
这里也一并求解: 盼laohong,mandel等诸君能拨冗赐教.
再次谢谢喵喵小猫,并希望发现更多的问题,以使本语料库能更好地共享.
 
Re: 回复: Re: 回复: 国内语料库建设一览表

谢谢喵喵,这是大陆库的bug,少数检索词有这样的问题(这里的问题在"著").正在解决中.
香港库中也有这样的问题,如发现"市政"就无法显示,(问题在"市").
据我们的耗子说,可能是简繁转换造成的.
这里也一并求解: 盼laohong,mandel等诸君能拨冗赐教.
再次谢谢喵喵小猫,并希望发现更多的问题,以使本语料库能更好地共享.
我也很想知道如何解决这个问题。因为也遇到这样的问题
 
回复: 国内语料库建设一览表

感谢许教授,不过弱弱地说一句, 好像这些语料库都不是公开免费使用的吧?
 
回复: 国内语料库建设一览表

各位语料库语言学的专家、教授:
我近来一直在收集路透社(分为most popular与related,如Libya issue两个子文件夹)与环球时报(分为most popular,related 以及top stories 三个文件夹 )的文章,大约有三个多月的时间了。但是实话实说,我现在还不清楚:
1. 有一些什么样的较新颖且具有较强可行性的研究问题可供研究?
2. 收集这些文章应该注意哪些法律、道德方面的问题?
请各位多提建议,谢谢!
 
Back
顶部