首先还是非常感谢各位在论坛上的各种倾囊教授啊~本人是本科菜鸟一只,收益匪浅~~!!
现在论文到了比较关键的时候了,想向各位请教几个问题:
1.语料库源文件是pdf(我做的分析跟报纸有关,从网上下的原版文件),有没有什么语料库索引软件是可以从pdf直接索引的?虽然希望渺茫啊,还是大海捞针一下。
2.我现有已经从源文件中提取的语料库词表能不能以某种方式或者用某种软件跟其他词汇表作对比呢?想得出重合率,重复率或者是命中率之类的,其实就是想说看这个语料库的词表中词汇大概符合什么阶段或者什么大纲的标准。这样解释可以吧?...