关于词频的统计与分析的讨论

本文由 yingfei2011-05-24 发表於 "语料库与语言研究" 讨论区

  1. 在语料库的应用上。对分类后的语料进行词频统计与分析,通过数学模型分析其中的规律来指导学习有很重要的意义。也是语料库在计算机辅助学习,辅助阅读方面的重要应用。
    一、目前的统计是按词次。每个词性变化不一的各种形式分别计算。关键是要还原为原型。才更具有意义。
    词形还原,需要还原算法以及所有不规则变化的词汇表。
    有哪些朋友能够提供或交换词形词典?
    目前,我已经积累编辑约4万词次。希望有朋友参与补充扩充到10万词次。
    二、词频表的统计分析结果。出现长尾现象。语料库越大,长尾现象越显著。只出现一次的词汇约占全部词汇的1/4。有研究这一现象的朋友吗?希望一起讨论。
     
  2. dzhigner

    dzhigner Moderator

    回复: 关于词频的统计与分析的讨论

    11年看到这个帖子的时候,还不知道什么叫“长尾”,现在不一样了,对这个“长尾”我“研究”了两年多了,惭愧还没出成果。。。
    “语料库越大,长尾现象越显著”,不过,相对而言,一次词的比例是在微弱减少。。。
     
  3. 回复: 关于词频的统计与分析的讨论

    四、AntConc提取词块,碰到难题:如不包括标点,则缩写如I'm和it's都被看成两个单词(WordSmith看成一个);如包括标点,则口语语料中的停顿(即.或..或...)都被看成是单词。如要将I'm或it's看成一个单词,而停顿又不包括进去,可以吗?如何设置?
     
  4. Chuyên lắp đặt cửa kính thủy lực, cửa thủy lực cao cấp, giá rẻ với nhiều mẫu cửa thủy lực thiết kế đẹp mà vẫn đảm bảo được độ kín cách âm, cách nhiệt tốt nhất cho ngôi nhà của bạn.

    Công ty TNHH Sản Xuất thương nghiệp và Xây Dựng Việt Phong

    ĐC: Số 126 - 154 Lĩnh Nam, P.Mai Động, Hoàng Mai, Hà Nội

    Điện thoại: 04 39978085 - Hotline: 0912 876 339

    Email: vietphong126@gmail.com