我的研究题目是要查一下在我的语料库里用了多少个英文片语.我想以牛津剑桥的英文片语字典做基础,将每个收录在这两大片语字典的片语都在我的语料库自动搜寻一下.请问各位我如何才能提取到收录在这两大英文片语字典的条目呢?是否有一个聪明的方法解决这个问题?我现在只能想到用人手每个片语输入电脑, 这可用上我几个月光阴啊!请各位高手帮忙!
谢谢指教!拿到文字档之後,文字档内会包含对每个片语的解释, 如果没有XML tags,是否真的要用人手将每一个片语的注解和它的Headword 分开呢?有没有自动化一点的方法?
看了你提供的材料,并亲手做了一下,是有"自动化一点的办法"的:熟悉正则,或熟悉word的高级查找替换,都能成功.
识别用的是abbyy9,效果非常好,好象没有比这更好的OCR工具了,你可以看一下OCR的结果.
思路就是要分析一下两种辞典的形式规律.
比如,longman的最大特点是其片语的字体和字号与其它描述部分有显著区别,这样,通过把该字体字号的找到,其它删除即可. 这个用word查找替换就可以了.
collins的特点是,大多数片语都在")"的后面,且后续的解释部分用"When..."或"If ...."开始的;如果是多重解释,且片语本身紧跟的是段落标记.这样也就很方便提取.collins用正则可能会更方便,但,word虽步骤多一点,只要习惯了,也很方便
附件的结果,都是用word做的,你可以参考一下.longman是finalised,而collins semifinal,这样你也思考一下.
使用提取过程中还有些细节,你可以边做边摸索.
OCR设置和语言选择也需要根据正率调试一下。如果这方面有困难,文件传给来,我给识别一下也非常简单。
能否麻烦孙教授把WORD中查询替换的具体过程讲讲?谢谢!
以longman为例:
字体是前三步见附图.
最后一步是存为txt除噪,导入word删除其它符号、排序整理即可。
看了你提供的材料,并亲手做了一下,是有"自动化一点的办法"的:熟悉正则,或熟悉word的高级查找替换,都能成功.
识别用的是abbyy9,效果非常好,好象没有比这更好的OCR工具了,你可以看一下OCR的结果.
思路就是要分析一下两种辞典的形式规律.
比如,longman的最大特点是其片语的字体和字号与其它描述部分有显著区别,这样,通过把该字体字号的找到,其它删除即可. 这个用word查找替换就可以了.
collins的特点是,大多数片语都在")"的后面,且后续的解释部分用"When..."或"If ...."开始的;如果是多重解释,且片语本身紧跟的是段落标记.这样也就很方便提取.collins用正则可能会更方便,但,word虽步骤多一点,只要习惯了,也很方便
附件的结果,都是用word做的,你可以参考一下.longman是finalised,而collins semifinal,这样你也思考一下.
使用提取过程中还有些细节,你可以边做边摸索.
OCR设置和语言选择也需要根据正率调试一下。如果这方面有困难,文件传给来,我给识别一下也非常简单。
老师,很感谢您详尽的解释。我试用过您介绍的Abbyy软件了,的确非常准确。可惜我还是不会调试该系统,未知可否麻烦您帮忙一下OCR两本字典,此後我会根据老师的提示自己尝试提取短语项目。谢谢你。
柯林斯字典(200MB, 希望连结能用)
http://dl.dropbox.com/u/32136110/Collins COBUILD Phrasal Verbs Dictionary.pdf
朗文字典(200MB, 希望连结能用)
http://dl.dropbox.com/u/32136110/Longman phrasal verbs dictionary.pdf
好的,晚上我给你处理一下,整个过程需要一点时间,办公室弄一下,人歇PC不歇,但愿能下载啊.
好了. 两部辞典你都试着整理一下.
先Longman后Collins, 有了心得或问题,可在这个帖子下交流,让大家分享解决.
可以考虑用powergrep运用正则表达式提取。
由于本人正则表达式也是刚刚入门,所以用了个简单的正则表达式把collins词典中的大部分片语提取出来(附件 collins.txt).
谢谢您介绍新软件PowerGREP.我正在处理朗文字典,而且都有用上Regex.我找到了朗文字典变化出五千短语的动词(因为它们都是大写的),可是这距离目标还差很远.总是觉得有部分有用的资料在自动化的过程中不慎被去掉,到时可能又要用人手对一次才能确保资料准确.
谢谢您介绍新软件PowerGREP.我正在处理朗文字典,而且都有用上Regex.我找到了朗文字典变化出五千短语的动词(因为它们都是大写的),可是这距离目标还差很远.总是觉得有部分有用的资料在自动化的过程中不慎被去掉,到时可能又要用人手对一次才能确保资料准确.
可以考虑用powergrep运用正则表达式提取。
由于本人正则表达式也是刚刚入门,所以用了个简单的正则表达式把collins词典中的大部分片语提取出来(附件 collins.txt).