求一个语料抓取全面的法语词频表,可以使用antconc和自己生成的语料库作对比

本文由 christinalpy2017-10-07 发表於 "多语种语料库" 讨论区

  1. 我已经使用antconc对自己选取的的法语文本生成一个词频表,并且用 liste de lemme 去除了形态变化。想和一个比较权威的法语词频表作对比,但是已找到的词频表都是给法国中小学生使用的,le francais elementaire 词汇才1700左右,其他的最多3500左右词汇,还有wiki发布的词频表是分大小写的,而且只有10000词汇。还有一个liste de frequence 抓取129000 donnees, 但是没有去除形态变化。
    因此求一个权威的,去除形态变化的法语词频表做对比。谢谢大神们。
     
  2. 显然最关键的是要有一个足够大的法语语料库,之后就容易了。这样的库似乎很难找,附件是我根据Notre-Dame de Paris小说全文提取的词频表(仅lemma,也包括标点符号)
     

    附件文件:

  3. 这个是从Europarl-FR中提取的词频表
     

    附件文件: