看来汉语语料库事业不很旺啊!

清风出袖

高级会员
这里http://www.icl.pku.edu.cn/icl_groups/corpus/dwldform1.asp有一个人民日报的语料库,有兴趣可以去看看!不过要注册的。可以用什么软件来检索么,如果可以请贴出来,让俺也知道一下!谢谢!多多关心沐浴语料库!
 
何出此言,汉语语料库做得还是很多的。
人民日报的电子版近几年的电子版的都有卖的,纯文本的。盗版的偶尔也可以碰得到的。2000年的人民日报经xiaoz博士处理后放在了People’s Daily (2000) Corpus http://bowland-files.lancs.ac.uk/corplang/pdc2000/default.htm
你去看看。还可以看看
PFR People's Daily Corpus

PH Corpus of Chinese
 
Some free online Chinese corpora

Academia Sinica Balanced Corpus of Modern Chinese
http://www.sinica.edu.tw/SinicaCorpus/

Peking University Modern Chinese Corpus
http://ccl.pku.edu.cn/ccl_corpus/xiandaihanyu/

Xiamen University corpora (registration required but free)
http://xmuoec.com/gb/hanyu/hanyu/data/corpus/index.htm

Beijing Language and Culture University corpus
http://202.112.195.8:8089/ccir_login?input=*

Lancaster Corpus of Mandarin Chinese
http://bowland-files.lancs.ac.uk/corplang/cgi-bin/conc.pl

Leeds Chinese corpus
http://corpus.leeds.ac.uk/query-zh.html

PFR People's Daily corpus (01/1998)
http://bowland-files.lancs.ac.uk/corplang/pdcorpus/pdcorpus.htm

PH corpus (Xinhua newswire data 1990-1991)
http://bowland-files.lancs.ac.uk/corplang/phcorpus/phcorpus.htm

People's Daily 2000 corpus
http://bowland-files.lancs.ac.uk/corplang/pdc2000/default.htm

Peking University Ancient Chinese Corpus
http://ccl.pku.edu.cn/ccl_corpus/jsearch/index.jsp?dir=gudai

Sinica corpus of early Chinese
http://www.sinica.edu.tw/Early_Mandarin/

Sheffield Corpus of Chinese for Diachronic Linguistic Study
http://www.shef.ac.uk/scc/

其实前面已经贴过了,只是要证明一下汉语语料库还是很兴旺的。只是国内的多半是不对外使用的。
 
回复:看来汉语语料库事业不很旺啊!

以下是引用 清风出袖2005-7-14 20:17:23 的发言:
这里http://www.icl.pku.edu.cn/icl_groups/corpus/dwldform1.asp有一个人民日报的语料库,有兴趣可以去看看!不过要注册的。可以用什么软件来检索么,如果可以请贴出来,让俺也知道一下!谢谢!多多关心沐浴语料库!
这个语料库只是1998年1月人民日报切分、标注语料库。
 
People's Daily 2000 corpus
http://bowland-files.lancs.ac.uk/corplang/pdc2000/default.htm
这是2000年全年的语料。
 
Beijing Language and Culture University corpus
http://202.112.195.8:8089/ccir_login?input=*
上面的第四个链接现在连不上了。
 
Back
顶部