我想弄一个TOP 30K和TOP 50K的列表

buddyk

普通会员
这个列表包含目前最常见的考试,比如TOEFL,IELTS,GRE,GMAT,LAST等的所有词汇。

没有那么多材料,我只是根据金山词霸的各种词汇列表做出来一个,只有14K词汇。

各位老大,研究语料库的,我只要个列表,就是所有的材料中TOP 30K和TOP 50K的列表,不要频率数据。有没有人可以帮我,谢谢!
 

xiaoz

永远的超级管理员
Staff member
I uploaded a wordlist created on the basis of the BNC some time ago.
You can lemmatise this wordlist and get your top nK lists easily.
 

xiaoz

永远的超级管理员
Staff member
I think you can use the lemmatized BNC wordlist in the section of Native Corpora to derive such lists.
 

buddyk

普通会员
已经成功了:)

可是我做了TOP 100K的词汇列表,居然还有好多考试词汇没有在这个列表。。。。
 

xiaoz

永远的超级管理员
Staff member
The BNC is a GENERAL corpus of modern British English. It can be expected that very specialized vocabulary will not stand out prominently among the top 100K.
 

xujiajin

管理员
Staff member
回复:我想弄一个TOP 30K和TOP 50K的列表

以下是引用 buddyk2005-7-6 9:41:49 的发言:
已经成功了:)

可是我做了TOP 100K的词汇列表,居然还有好多考试词汇没有在这个列表。。。。

其实这真是反映了语料库的一个本质特征,语料库中提取出来的数据体现了人们使用中的语言。而所谓的GRE,GMAT,LSAT等词表是日常生活极少用到,甚至几乎不用的一些词。换句话说,这些词极有可能为本族语者不熟知。所以这样的词,即使背了也差不多一辈子用不上一次。
 
顶部