求现代汉语词频表Chinese Wordlist

jiji

普通会员
#3
Thanks, Dr. Xiao. Do you think it makes any sense to compare wordlists of two balanced corpora? Or one specialized corpus vs one balanced corpus?
 

jiji

普通会员
#4
我用LCMC wordlist作refernce wordlist, 以人民日报1998年1月1日的语料(仅经分词)作为参与wordlist, 对比两者编keywords,结果WordSmith出现错误提示:"Can'nt compute key words if langauges differ". 两者明明都是中文Unicode, 为什么会出现这种错误?
 

jiji

普通会员
#6
谢谢, Dr. Xu. 国内何时有BNC、LCMC之类的词表?其实北大1998年人民日报有词表,但不公开。真希望国家通过法律,凡经国家资助,使用纳税人钱的语料库要全部公开,视情况免费或收取适当的费用。

有语料库的单位都捂着盖着,汉语何时在语言学研究中成为强势语言?唉

[本贴已被 作者 于 2006年05月13日 22时50分35秒 编辑过]
 

xiaoz

永远的超级管理员
Staff member
#7
1) Only Wordsmith generated word lists can be used to compute keywords in Wordsmith. You cannot use the wordlist I made for this purpose.

2) Make sure you have selected the same language when you make wordlist for People's Daily 9801 corpus and LCMC in wordsmith.

3) The version of LCMC downloaded at my site is in UTF-8. You should convert the data into Unicode (UTF16) by pressing the button for testing Unicode when you load the corpus in wordsmith. Similarly, you should convert the People's Daily data from GB2312 into Unicode (UTF16). This will avoid the error message about different languages.

4) The word lists for corpora such as BNC and LCMC are available worldwide.
 
#9
回复: 求现代汉语词频表

谢谢, Dr. Xu. 国内何时有BNC、LCMC之类的词表?其实北大1998年人民日报有词表,但不公开。真希望国家通过法律,凡经国家资助,使用纳税人钱的语料库要全部公开,视情况免费或收取适当的费用。

有语料库的单位都捂着盖着,汉语何时在语言学研究中成为强势语言?唉

[本贴已被 作者 于 2006年05月13日 22时50分35秒 编辑过]
完全同意,我们想买都费劲,不知道各位有何渠道介绍?
 

xujiajin

管理员
Staff member
#10
回复: 求现代汉语词频表

我曾经在图书馆看到过n本汉语词频词典,我自己还借来复印了一本,好像7-8百页的样子。可见那些项目的成果是出版的。一般人也可以买到到借到。
 
#11
回复: 求现代汉语词频表

我用LCMC wordlist作refernce wordlist, 以人民日报1998年1月1日的语料(仅经分词)作为参与wordlist, 对比两者编keywords,结果WordSmith出现错误提示:"Can'nt compute key words if langauges differ". 两者明明都是中文Unicode, 为什么会出现这种错误?
因為中文編碼也有多種 而且有時候沒有指定會被編碼成其他語言。

剛剛release了我們的新的詞頻表,希望可以幫到。
http://www.corpus4u.org/showthread.php?p=36481#post36481
 
#12
回复: 求现代汉语词频表

http://expsy.ugent.be/subtlex-ch/

SUBTLEX-CH提供基于影视字幕语料库的简体中文词频和字频。
与日渐增长的研究需求相比,可获取的中文词频资源匮乏,尤其是多字词的词频资源。因此,我们建立了四千七百万字(三千三百万词)的SUBTLEX-CH简体中文字幕语料库,对其进行了分词和词性标注,提供了字频,词频,词性(PoS),以及带词性的词频。
与之前New, Brysbaert等同事对基于字幕语料的英语,法语,荷兰语词频的研究结果相似,我们对词汇命名(word naming)和词类测试(lexical decision)任务的反应时进行了测试分析,结果表明,SUBTLEX-CH提供的字/词频对词汇阅读的行为数据的解释力显著优于现存可获取的其他字 /词频。此外,SUBTLEX-CH首次提供中文词汇的语境多样性(Contextual Diversity,出现该词的影片数量/百分比) 数据,并提供多字词的词性及带词性的词频。
我们提供非商业用途的免费下载,近期也將提供多种方式的在线查询。
技术实现,相关文献和数据库,以及更多信息,请参阅:
Cai, Q. & Brysbaert, M. (2010). SUBTLEX-CH: Chinese Word and Character Frequencies Based on Film Subtitles. PLoS ONE.
 

rainbow

初级会员
#14
回复: 求现代汉语词频表Chinese Wordlist

谢谢 eXHc, 很好的网站
问个比较低级的问题,请问汉语可不可以像英语那样设定一个节点词,再设定几个字的跨距,来研究搭配词的搭配力?如果可以,用什么软件,怎样做到?
 
顶部