基于1亿词的Reuters Corpus语料库的3个频率表

李亮1975重庆

语料库快乐军政委
[FONT=隶书]《基于1亿词的Reuters Corpus语料库的3个频率表》
[/FONT]

(1)【词频表,2万5千个词(type),词形屈折是分开计算的
http://corpus.leeds.ac.uk/frqc/reuters-forms.num
(2)【词类频率表,57个词类标签的频率
http://corpus.leeds.ac.uk/frqc/reuters-pos.num
(3)【词频表,5千个词(lemma),词形屈折是合并计算的
http://corpus.leeds.ac.uk/frqc/reuters.num

以上的第3项是天然的新闻英语最高频词汇!
第2项对外语教学与写作也很大启发!
第1项适合跟其他文体的词频表进行对比!

对于语料库编程与自然语言处理来说,可以制作为纯粹的数据库文件(access格式呀,sqlite格式呀,xml格式呀,json格式呀,CSV格式呀),有相当的利用价值啊!

 
回复: 基于1亿词的Reuters Corpus语料库的3个频率表

你好,请问老师你对UAM corpus tool这个软件熟悉吗?我在应用这个软件过程中出现了一些问题,不知道老师你可否帮忙解决?
 
UAM,我不太熟悉,很少操作,对功能语法很少碰

论坛其他成员应该不少人喜欢UAM的。不过你的问题也许不是UAM的操作问题,不妨说出来,也许我也能解答。
 
回复: 基于1亿词的Reuters Corpus语料库的3个频率表

搜索一下本站,以前有不少相关的讨论。
你有问题可以另外开贴发问。
 
Back
顶部