在语料库的应用上。对分类后的语料进行词频统计与分析,通过数学模型分析其中的规律来指导学习有很重要的意义。也是语料库在计算机辅助学习,辅助阅读方面的重要应用。
一、目前的统计是按词次。每个词性变化不一的各种形式分别计算。关键是要还原为原型。才更具有意义。
词形还原,需要还原算法以及所有不规则变化的词汇表。
有哪些朋友能够提供或交换词形词典?
目前,我已经积累编辑约4万词次。希望有朋友参与补充扩充到10万词次。
二、词频表的统计分析结果。出现长尾现象。语料库越大,长尾现象越显著。只出现一次的词汇约占全部词汇的1/4。有研究这一现象的朋友吗?希望一起讨论。