首先还是非常感谢各位在论坛上的各种倾囊教授啊~本人是本科菜鸟一只,收益匪浅~~!!
现在论文到了比较关键的时候了,想向各位请教几个问题:
1.语料库源文件是pdf(我做的分析跟报纸有关,从网上下的原版文件),有没有什么语料库索引软件是可以从pdf直接索引的?虽然希望渺茫啊,还是大海捞针一下。
2.我现有已经从源文件中提取的语料库词表能不能以某种方式或者用某种软件跟其他词汇表作对比呢?想得出重合率,重复率或者是命中率之类的,其实就是想说看这个语料库的词表中词汇大概符合什么阶段或者什么大纲的标准。这样解释可以吧?
3.有没有比较优秀的软件可以从pdf里面抓取语篇呢?一篇一篇的手动贴简直贴死我了。。。或者有什么辅助工具可以比较完好的抓到所有字也可以啊,直接复制粘贴不知道为什么会有很多断词,不是pdf排版换行造成的,而是本身pdf正常行中间某个词突然就像fight跳成fi ght或者fig ht了。然后我就不停的批量替换,结果还是好累好累啊。。。
以上三个超级菜鸟问题,希望论坛里的各位大侠们不吝赐教哦~!小弟在这里先谢谢你们了!
希望能得到你们尽快的答复呢!
大家早安!
有个美好的一天!
现在论文到了比较关键的时候了,想向各位请教几个问题:
1.语料库源文件是pdf(我做的分析跟报纸有关,从网上下的原版文件),有没有什么语料库索引软件是可以从pdf直接索引的?虽然希望渺茫啊,还是大海捞针一下。
2.我现有已经从源文件中提取的语料库词表能不能以某种方式或者用某种软件跟其他词汇表作对比呢?想得出重合率,重复率或者是命中率之类的,其实就是想说看这个语料库的词表中词汇大概符合什么阶段或者什么大纲的标准。这样解释可以吧?
3.有没有比较优秀的软件可以从pdf里面抓取语篇呢?一篇一篇的手动贴简直贴死我了。。。或者有什么辅助工具可以比较完好的抓到所有字也可以啊,直接复制粘贴不知道为什么会有很多断词,不是pdf排版换行造成的,而是本身pdf正常行中间某个词突然就像fight跳成fi ght或者fig ht了。然后我就不停的批量替换,结果还是好累好累啊。。。
以上三个超级菜鸟问题,希望论坛里的各位大侠们不吝赐教哦~!小弟在这里先谢谢你们了!
希望能得到你们尽快的答复呢!
大家早安!
有个美好的一天!