求一个语料抓取全面的法语词频表,可以使用antconc和自己生成的语料库作对比

我已经使用antconc对自己选取的的法语文本生成一个词频表,并且用 liste de lemme 去除了形态变化。想和一个比较权威的法语词频表作对比,但是已找到的词频表都是给法国中小学生使用的,le francais elementaire 词汇才1700左右,其他的最多3500左右词汇,还有wiki发布的词频表是分大小写的,而且只有10000词汇。还有一个liste de frequence 抓取129000 donnees, 但是没有去除形态变化。
因此求一个权威的,去除形态变化的法语词频表做对比。谢谢大神们。
 
显然最关键的是要有一个足够大的法语语料库,之后就容易了。这样的库似乎很难找,附件是我根据Notre-Dame de Paris小说全文提取的词频表(仅lemma,也包括标点符号)
 

附件

  • frequency_list.txt
    131.6 KB · 浏览: 15
Back
顶部