李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

本文由 jamson8886662011-10-27 发表於 "语料库标注" 讨论区

  1. 李亮1975重庆

    李亮1975重庆 语料库快乐军政委

    TXT全角半角批量互转器李亮版.zip

    TXT全角半角批量互转器李亮版.zip】高速免费的文本小工具,对同一文件夹(含子文件夹)的所有.txt文件本身进行半角到全角或全角到半角的编码转换,适合语料库建设或掌上阅读器的专门编码需求。例如,“ab78?!电”变成全角就是“ab78?!电”。运行前,请确保TXT是ANSI编码,其他编码将无法转换,而汉语句号转换为半角就变成英语问号且无法修复。经VirusTotal的42款杀毒引擎检测而100%无毒。
     
  2. 李亮1975重庆

    李亮1975重庆 语料库快乐军政委

    HTM全能转码器李亮版.zip

    HTM全能转码器李亮版.zip】高速免费的文本小工具。一次选中同一文件夹的所有htm文件(包括.htm与.html文件扩展名),但不包括子文件夹的,进行ANSI、 UTF-8、Unicode、Unicode big endian之间的互相转换,适合语料库建设或掌上阅读器的专门编码需求。经过VirusTotal的42款杀毒引擎的分析而100%无毒。
     

    附件文件:

    Last edited: 2012-06-16
  3. 李亮1975重庆

    李亮1975重庆 语料库快乐军政委

    文字编码批量判断器李亮版.zip

    文字编码批量判断器李亮版.zip】高速免费的文本小工具,对同一文件夹(不含子文件夹)的所有.txt与.htm与.html文件处理,进行ANSI、UTF-8、Unicode、 Unicode big endian的自动判断,最后生成report.log,集中汇报所有匹配文件的文字编码,适合语料库建设或掌上阅读器的专门编码需求。经 VirusTotal的42款杀毒引擎检测而100%无毒。report.log的格式如下:

    --- D:\ ---

    ANSI --- a.htm
    Unicode --- c.htm
    Unicode big endian --- b.txt
    UTF-8 --- c.txt
     

    附件文件:

  4. 李亮1975重庆

    李亮1975重庆 语料库快乐军政委

    TXT全能转码器李亮版.zip

    TXT全能转码器李亮版.zip】高速免费的文本小工具。自动处理所选文件夹的所有txt文件,但不包括子文件夹的,进行ANSI、UTF-8、Unicode、Unicode big endian之间的互相转换,适合语料库建设或掌上阅读器的专门编码需求。经过VirusTotal的42款杀毒引擎的分析而100%无毒。
     

    附件文件:

    Last edited: 2012-06-16
  5. wendycao

    wendycao 初级会员

    回复: 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

    十分佩服+十二分感谢!
     
  6. 李亮1975重庆

    李亮1975重庆 语料库快乐军政委

    语料标注删除工具李亮版.zip

    跟之前的“李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe”相比,本工具新增了对文件夹及其子文件夹的批量处理的支持,新增了”对冗余的连续空格的自动清理“,新增了”对目标位置上的所有.txt文件和.xml文件的同时的默认的处理“,新增了“对自定义的开始标志串和结束标志串的支持“,而先前只能支持”单个字符形式的开始标志与结束标志“。

    高速免费无毒的文本小工具,针对XML型等5种标签的删除,支持自定义开始标志串和结束标志串,能处理ANSI等4种文字编码,8MB每秒以上的处理速度,支持对GB级大型文件的处理,可以选择单个文件,也可以选择一个文件夹甚至也处理其子文件夹,可自动清理冗余的连续空格。针对源文件执行,请预先做好备份。适合语料库建设的专门需求。


    5种类型的语料标签包括:XML型标签,下划线型标签,斜线型标签,反斜线型标签,方括号型标签”。TXT文件的4种类型的文字编码包括:ANSI, UTF-8, Unicode, Unicode big endian。


    XML型语料标签就是: I <verb freq="high">love</verb> you. <adj>Good</adj> morning!
    下划线型语料标签就是: I love_verb you.
    斜线型语料标签就是: I love/verb you.
    反斜线型语料标签就是: I love\verb you.
    方括号型语料标签就是: I love[verb] you[pron type="second"].

    XML型语料标签的识别算法是:删除<到>这两个符号及其之间的字符串。因此,这种算法适合规范的XML标注,也适合不规范的XML标注(例如:<verb high>love</verb>)。
    下划线型语料标签的识别算法是:删除下划线到后续的第一个空格之间的字符串,但保留空格。
    斜线型语料标签的识别算法是:删除斜线到后续的第一个空格之间的字符串,但保留空格。
    反斜线型语料标签的识别算法是:删除反斜线到后续的第一个空格之间的字符串,但保留空格。
    方括号型语料标签的识别算法是:删除[到]这两个符号及其之间的字符串。因此,这种算法适合CLEC语料库的错误码的删除任务。

    哪怕用1.2GB的TXT文件进行测试也只需要2.5分钟而已;当然,每台电脑的实际处理速度跟软件硬件的内存和CPU的档次和当前繁忙程度有重大关系。本软件对大型文件是逐行读取的形式,所以,内存占用低,虽然速度比一口气读取整个文件的处理方式要速度慢好一些,但是,一口气读取整个文件的处理方式对内存的占用过高(尤其是几百兆的txt文件),不适合一般的家用电脑。

    经VirusTotal的42款杀毒引擎检测而100%无毒。
    https://www.virustotal.com/
    在此网站,你可以对你的某个文件进行多达42款杀毒软件的免费检测,选择一个文件,点“Scan it”即可。
     
  7. 回复: 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

    为什么你的群 都是不允许任何人加入了呢?
     
  8. 李亮1975重庆

    李亮1975重庆 语料库快乐军政委

    旧群已满200人,一个新群实行了实名制,另一个新群没有实名制

    群号121703321的QQ群,本来是能容纳200人的高级群,本来人数只有三四十人,而我在2011年3月加入之后,由于我的热心和分享,群的人数就持续攀升,最后,发展到有十个左右的电脑高手在里面,但是,10个月之后就人满了200人,新人就无法加入了,现有成员也都不愿意主动退出,虽然大部分人都出于种种原因而不发言。所以,我通告了大家之后就退出了该群。此刻,有热心Q友新建了两个Q群,核心成员们制订了新的Q群交往规定,避免Q群的盲目扩张。这两个新的Q群欢迎加入,不过有100人的上限,现在分别有二三十人在里面。

    190281969
    这个群,叫做“语料库快乐军技术小组”,实行实名制,人气旺一些,申请就可以加入,但必须实名制,因为里面都是实名的“群名片”的朋友。

    187900926这个群,叫做“语料库快乐军镜像群”,不搞实名制,人气低一些,申请就可以加入。

    我们十多个核心成员的理念是:技术群是偏重技术的水平高一些的核心成员在里面;镜像群是初学者或不愿意实名的朋友在里面,而镜像群实行“定期的成员清理”,对于长期不吭声的群友就友好地通知和劝退和“手工移除”。

    长期混Q群和论坛的朋友,对于Q群和论坛的功能区别应该都有较多体验。Q群属于“小众工具”,适合一百人之内的交流,就算是缴纳每月租金10元或更多钱而从“普通群”升级到“高级群”甚至“超级群”也只是两三百人或四五百人的规模,而Q群的经常发言者跟Q群的总人口没有直接关联,一般积极发言者只有10人左右,甚至数月都没有一个人说话或分享资料。Q群也能发起“多人语音聊天”,最多支持5人的同时语音聊天,这是挺高级的功能,不过我也只用过一次。Q群的一个缺陷是:经常错过了别人发言的时间就无法阅读到完整的信息了。Q群的本质,更像是“面对面交流的多人交流”。

    “论坛”属于“大众工具”,适合数千人甚至数十万人的交流,几乎没有人数的上限的控制,交流内容可以被成员或非成员进行搜索和反复阅读,本质上更像是“大型学术会议的发言或分组发言”。论坛中很难出现像Q群中的“拉家常”或“漏隐私”的现象,更能保护发言者的隐私。

     
  9. 李亮1975重庆

    李亮1975重庆 语料库快乐军政委

    【新工具的免费下载,已经永久在“新浪爱问”】

    http://ishare.iask.sina.com.cn/f/24986288.html

    针对XML型等5种标签的删除,支持自定义开始标志串和结束标志串,能处理ANSI等4种文字编码,8MB每秒以上的处理速度,支持对GB级大型文件的处理,可以选择单个文件,也可以选择一个文件夹甚至也处理其子文件夹,可自动清理冗余的连续空格。针对源文件执行,请预先做好备份。适合语料库建设的专门需求。

    欢迎没有在本站注册的朋友在“新浪爱问”进行下载!
     
  10. 李亮1975重庆

    李亮1975重庆 语料库快乐军政委

    【概论】VBA程序的5种类型与反思

    【概论】VBA程序的5种类型与反思
    基于2009年年初至今的4年的Office VBA开发实战,我感觉VBA程序有5种类型(教科书或教程都没有这样的类型概括哟):
    【1】纯Sub型;
    【2】基于Sub的菜单型;
    【3】基于Sub的窗体型;
    【4】基于Sub的域代码型;
    【5】基于Sub的自动运行型;

    Sub是subroutine或subprocedure的缩写,就是子程序或子模块,特点是可以接收参数却没有返回值,适合直接执行而不必返回执行结果的数值的情况。典型的一个Sub如下:

    Sub hello()
    msgbox "你好!"
    End Sub

    以上3行代码,第一行是“程序头”,第二行是“程序体”,第三行是“程序尾”,而蓝色的hello叫做“程序名”,而程序名之后的()是两个圆括号,表示这两个圆括号之间可以填入参数来更加灵活地执行。

    从最小的运行单位来说,VBA程序就是Sub或Function两种类型,前者是无返回值的运行模块,后者是可以有返回值的运行模块。Sub及其配套的 End Sub之间的这样的一个程序代码片段是可以直接执行的,具有完全的独立性;而Function及其配套的End Function之间的这样的一个程序代码片段是不可以直接执行的,只能被其他的Function或Sub调用而仅仅具有半独立性。

    一个完整独立的VBA程序,可以是:
    【1】纯Sub型,也就是由若干个sub或function所组成,它们相互调用,而你点“宏列表”中的某个sub而执行某个既定的宏代码,“宏代码”也就是sub或function了;此外,你也可以通过录制宏而设置某个组合键或热键来触发式执行某个宏或sub;
    【2】基于Sub的菜单型,也就是自己在Office中设置出自定义的菜单或子菜单或菜单项目,并且跟对应的sub进行链接,就形成了基于某个Word文件或Normal.dot模版文件的菜单性质的程序状态了;
    【3】基于Sub的窗体型,也就是你在VBA编辑器中,插入一个用户窗体,添加按钮 呀文本框呀之类的控件,然后双击控件而写出其后台的VBA代码,同时你也可以设置窗体是打开当前文件就立即运行的,你也可以随时用VBA代码设置窗体的可 见性visible为false而隐藏它,或者设置visible为true而显现该窗体;
    【4】基于Sub的域代码型,也就是你插入一个域或者MacroButton域,尤其是你插入了一个“MacroButton域”的时候你可以添加一些普通的文字作为双击而触发执行的“触发器”;
    【5】基于Sub的自动运行型,也就是Sub Document_New(),或Sub Document_Open(),或Sub Document_Close()这3个特殊名称的Sub就是在当前文件或某个Word文件被新建或打开或关闭的时候能自动执行的宏代码。

    有了我提供的对VBA程序类型的概括性认识,你就不会误以为VBA程序是没有窗体或没有菜单的,你就会深深地爱上这种如此简单且颇为颇为强大的编程语言, 她摆脱了C++和Java和C#的必须自己写出各种类和对象的做法,她摆脱了Perl和Python很容易牵涉到CGI编程和Linux操作系统的学习难 堪或学习复杂性,她摆脱了C语言只方便直接对纯txt文件进行操作的难堪局面,她也摆脱了Windows API对数据类型的严格限制而调用易出错的烦恼,她也摆脱了你必须学点互联网原理的先决条件,她也摆脱了必须学习较完整的XML DOM知识的烦恼,她也摆脱了你必须对Linux或Unix有所了解的烦恼,……
     
  11. 回复: 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

    非常给力!
     
  12. 回复: 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

    顶啊
     
  13. 回复: 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

    感谢无私分享!
     
  14. 回复: 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

    多谢分享 赞!
     
  15. 回复: 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

    李老师的这个软件下载不下来,谁可以告诉我怎么下载啊?非常感谢
     
  16. 回复: 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

    已下载:D
     
  17. mark now and check later. thank you, brother !
     
  18. 正要发帖问如何去掉BNC中的XML标记,就看到这么好的工具,非常感谢亮哥分享,给我省了大麻烦。