B buddyk 普通会员 2005-07-03 #1 这个列表包含目前最常见的考试,比如TOEFL,IELTS,GRE,GMAT,LAST等的所有词汇。 没有那么多材料,我只是根据金山词霸的各种词汇列表做出来一个,只有14K词汇。 各位老大,研究语料库的,我只要个列表,就是所有的材料中TOP 30K和TOP 50K的列表,不要频率数据。有没有人可以帮我,谢谢!
这个列表包含目前最常见的考试,比如TOEFL,IELTS,GRE,GMAT,LAST等的所有词汇。 没有那么多材料,我只是根据金山词霸的各种词汇列表做出来一个,只有14K词汇。 各位老大,研究语料库的,我只要个列表,就是所有的材料中TOP 30K和TOP 50K的列表,不要频率数据。有没有人可以帮我,谢谢!
X xiaoz 永远的超级管理员 Staff member 2005-07-03 #2 I uploaded a wordlist created on the basis of the BNC some time ago. You can lemmatise this wordlist and get your top nK lists easily.
I uploaded a wordlist created on the basis of the BNC some time ago. You can lemmatise this wordlist and get your top nK lists easily.
X xiaoz 永远的超级管理员 Staff member 2005-07-05 #4 I think you can use the lemmatized BNC wordlist in the section of Native Corpora to derive such lists.
I think you can use the lemmatized BNC wordlist in the section of Native Corpora to derive such lists.
X xiaoz 永远的超级管理员 Staff member 2005-07-06 #8 The BNC is a GENERAL corpus of modern British English. It can be expected that very specialized vocabulary will not stand out prominently among the top 100K.
The BNC is a GENERAL corpus of modern British English. It can be expected that very specialized vocabulary will not stand out prominently among the top 100K.
xujiajin 管理员 Staff member 2005-07-06 #9 回复:我想弄一个TOP 30K和TOP 50K的列表 以下是引用 buddyk 在 2005-7-6 9:41:49 的发言: 已经成功了:) 可是我做了TOP 100K的词汇列表,居然还有好多考试词汇没有在这个列表。。。。 Click to expand... 其实这真是反映了语料库的一个本质特征,语料库中提取出来的数据体现了人们使用中的语言。而所谓的GRE,GMAT,LSAT等词表是日常生活极少用到,甚至几乎不用的一些词。换句话说,这些词极有可能为本族语者不熟知。所以这样的词,即使背了也差不多一辈子用不上一次。
回复:我想弄一个TOP 30K和TOP 50K的列表 以下是引用 buddyk 在 2005-7-6 9:41:49 的发言: 已经成功了:) 可是我做了TOP 100K的词汇列表,居然还有好多考试词汇没有在这个列表。。。。 Click to expand... 其实这真是反映了语料库的一个本质特征,语料库中提取出来的数据体现了人们使用中的语言。而所谓的GRE,GMAT,LSAT等词表是日常生活极少用到,甚至几乎不用的一些词。换句话说,这些词极有可能为本族语者不熟知。所以这样的词,即使背了也差不多一辈子用不上一次。