回复: 回覆: 回复: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?
看你这段描述,你在提取时肯定出现了问题.
处理中的细节要注意和调整.pdf的量对识别结果是有影响的.
首先,如果你使用的是我提供的OCR稿,longman的短语动词肯定不会大写.
第二, "自动化的过程",如果是指OCR,那么肯定不会"去掉"任何内容.情况可能是有些未被识别成文字,而是作为图表(图形)保存在OCR结果文件中.
为此,建议你首先查找出这些图形部分,并逐一将其替换出相应的短语动词,(很方便,在word中有 ^g查找即可).
然后再分析文本, 以便提取所有的短语动词.