李亮1975重庆
语料库快乐军政委
[FONT=隶书]《基于1亿词的Reuters Corpus语料库的3个频率表》
[/FONT](1)【词频表,2万5千个词(type),词形屈折是分开计算的】
http://corpus.leeds.ac.uk/frqc/reuters-forms.num
(2)【词类频率表,57个词类标签的频率】
http://corpus.leeds.ac.uk/frqc/reuters-pos.num
(3)【词频表,5千个词(lemma),词形屈折是合并计算的】
http://corpus.leeds.ac.uk/frqc/reuters.num
以上的第3项是天然的新闻英语最高频词汇!
第2项对外语教学与写作也很大启发!
第1项适合跟其他文体的词频表进行对比!
对于语料库编程与自然语言处理来说,可以制作为纯粹的数据库文件(access格式呀,sqlite格式呀,xml格式呀,json格式呀,CSV格式呀),有相当的利用价值啊!