语料标注删除工具李亮版.zip

李亮1975重庆

语料库快乐军政委
新工具的免费下载,已经永久在“新浪爱问”
http://ishare.iask.sina.com.cn/f/24986288.html

“I love you.”这句话被标注一下词性的话就变成“I_pron love_vt you_pron .”或者“<pron>I</pron><vt>love</vt><pron>you</pron>.”,这些新增的“有点乱糟糟的东西”,其实就是“语料标注标签”,它们有时候对我们的研究有利(例如,上面的pron表示代词pronoun,vt表示transitive verb),有时候对我们的研究造成障碍,所以在有“视觉障碍”的情况下,我们就需要得到“I love you.”这样的“清爽效果”,这个“清除”或“清洗”的过程就是“语料标注删除”。

语料标注是对语言现象进行深度挖掘与快速定位与模式提取的有效手段,因为当代的本地化的语料检索工具(concordancers)都是对无标注的语料库进行“浅层检索”或有标注的语料进行“深度检索”,但是,concordancers本身没有词类分析或句法分析或语义分析的能力,所以是“瞎子”或“弱视”,需要别人给自己“导盲”或“指路”,这个导盲或指路的行为就是taggers或parsers来做的。

想要测试一下本工具的朋友,可以在“桌面”新建一个“文本文件”,然后输入一个或两三个英语句子,或两三个英语单词也行的,然后“假惺惺地胡乱标注一下”,例如,仅仅输入corpus linguistics这两个词,然后再手工添加一下“语料标签”,例如corpus_noun linguistics_noun,然后你保存一下,退出,就启动本工具,在主界面上点“下划线型”这个选项,然后点“选择文件”这个按钮,就浏览到你的新建的这个txt文件,一秒不到,就看到“执行完毕”的消息框,就双击打开,就发现只有“corpus linguistics”静静地躺在那里了……

当然你也可以新建一个文件夹,里面再新建更多的文件夹,它们都有一个或多个文本文件,这些文件都有“语料标注”,然后你选择对应的语料标注类型之后就点“选择文件夹”这个按钮,就把这些“文件夹中的文本文件的语料标注”都清理了,这就是本工具的大致功能。

在线形式的语料库就不需要在自己的电脑中安装专门的语料检索工具了,省去了减轻了操作者与研究者的学习负担,但是在线语料库只能用固定化的检索方式,而无法由研究者自行决定如何检索和用何种工具检索,所以有较大局限性死板性。

与之前的“
李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe(超级链接,点此跳转)”相比,本工具有4大新增功能:(1)新增了对文件夹及其子文件夹的批量处理的支持,(2)新增了”对冗余的连续空格的自动清理“,(3)新增了”对目标位置上的所有.txt文件和.xml文件的同时的默认的处理“,(4)新增了“对自定义的开始标志串和结束标志串的支持“,而先前只能支持”单个字符形式的开始标志与结束标志“。

高速免费无毒的文本小工具,针对XML型等5种标签的删除,支持自定义开始标志串和结束标志串,能处理ANSI等4种文字编码,8MB每秒以上的处理速度,支持对GB级大型文件的处理,可以选择单个文件,也可以选择一个文件夹甚至也处理其子文件夹,可自动清理冗余的连续空格。针对源文件执行,请预先做好备份。适合语料库建设的专门需求。

5种类型的语料标签包括:XML型标签,下划线型标签,斜线型标签,反斜线型标签,方括号型标签”。TXT文件的4种类型的文字编码包括:ANSI, UTF-8, Unicode, Unicode big endian。


XML型语料标签就是: I <verb freq="high">love</verb> you. <adj>Good</adj> morning!
下划线型语料标签就是: I love_verb you.
斜线型语料标签就是: I love/verb you.
反斜线型语料标签就是: I love\verb you.
方括号型语料标签就是: I love[verb] you[pron type="second"].

XML型语料标签的识别算法是:删除<到>这两个符号及其之间的字符串。因此,这种算法适合规范的XML标注,也适合不规范的XML标注(例如:<verb high>love</verb>)。
下划线型语料标签的识别算法是:删除下划线到后续的第一个空格之间的字符串,但保留空格。
斜线型语料标签的识别算法是:删除斜线到后续的第一个空格之间的字符串,但保留空格。
反斜线型语料标签的识别算法是:删除反斜线到后续的第一个空格之间的字符串,但保留空格。
方括号型语料标签的识别算法是:删除[到]这两个符号及其之间的字符串。因此,这种算法适合CLEC语料库的错误码的删除任务。

哪怕用1.2GB的TXT文件进行测试也只需要2.5分钟而已;当然,每台电脑的实际处理速度跟软件硬件的内存和 CPU的档次和当前繁忙程度有重大关系。本软件对大型文件是逐行读取的形式,所以,内存占用低,虽然速度比一口气读取整个文件的处理方式要速度慢好一些, 但是,一口气读取整个文件的处理方式对内存的占用过高(尤其是几百兆的txt文件),不适合一般的家用电脑。

经VirusTotal的42款杀毒引擎检测而100%无毒。
https://www.virustotal.com/
在此网站,你可以对你的某个文件进行多达42款杀毒软件的免费检测,选择一个文件,点“Scan it”即可。

欢迎没有在本站注册的朋友在“新浪爱问”进行下载!
http://ishare.iask.sina.com.cn/f/24986288.html
 
回复: 语料标注删除工具李亮版.zip

感谢李博士的分享!To learn, to share, and to apply for the benefit of mankind!
 
Back
顶部