基于1亿词的Reuters Corpus语料库的3个频率表

李亮1975重庆 · 2014-02-11

[FONT=隶书]《基于1亿词的Reuters Corpus语料库的3个频率表》

[/FONT]
（1）【词频表，2万5千个词（type），词形屈折是分开计算的】
http://corpus.leeds.ac.uk/frqc/reuters-forms.num
（2）【词类频率表，57个词类标签的频率】
http://corpus.leeds.ac.uk/frqc/reuters-pos.num
（3）【词频表，5千个词（lemma），词形屈折是合并计算的】
http://corpus.leeds.ac.uk/frqc/reuters.num

以上的第3项是天然的新闻英语最高频词汇！
第2项对外语教学与写作也很大启发！
第1项适合跟其他文体的词频表进行对比！

对于语料库编程与自然语言处理来说，可以制作为纯粹的数据库文件（access格式呀，sqlite格式呀，xml格式呀，json格式呀，CSV格式呀），有相当的利用价值啊！

maggiemsw · 2014-02-13

回复: 基于1亿词的Reuters Corpus语料库的3个频率表

你好，请问老师你对UAM corpus tool这个软件熟悉吗？我在应用这个软件过程中出现了一些问题，不知道老师你可否帮忙解决？

李亮1975重庆 · 2014-02-13

UAM，我不太熟悉，很少操作，对功能语法很少碰

论坛其他成员应该不少人喜欢UAM的。不过你的问题也许不是UAM的操作问题，不妨说出来，也许我也能解答。

Haiyang Ai · 2014-02-13

回复: 基于1亿词的Reuters Corpus语料库的3个频率表

搜索一下本站，以前有不少相关的讨论。
你有问题可以另外开贴发问。

rowson · 2014-03-04

回复: 基于1亿词的Reuters Corpus语料库的3个频率表

李大大可以写本书了!!

基于1亿词的Reuters Corpus语料库的3个频率表

李亮1975重庆

语料库快乐军政委

maggiemsw

李亮1975重庆

语料库快乐军政委

Haiyang Ai

Administrator

rowson