李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe
特点是:高速,强大,灵活,兼容
能处理各种文字编码,并且有8MB每秒以上的处理速度,哪怕用1.2GB的TXT文件进行测试也只需要2.5分钟而已,而且能对超大文件(4GB以下)进行闪电般的KWIC和Concgram的独立提取为一个txt文件呢!本软件不仅支持“语料标签删除”,也同时进行“语料标签提取”呢,对于某些特殊需要的朋友来说也是一个巨大福音!!!

由于发送不上来,劳烦有需要的同学到这个群空间去拿吧。群号121703321
 
回复: 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

这个工具是广外的一位计算词典学博士开发的,他做了5小时到8小时吧,早晨10点开始有了朦胧的冲动,中午开始编程发现有必要更多规划一下,就宏观上想了2小时左右,就动手编程了3小时就基本完工了,又编程了3小时做了一些“友好化”和“意外操作的后台限制”。非常不错。
 
回复: 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

谢谢分享!
 
回复: 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

国外的庞大软件品种中,有名为detagger的这类软件,不过都是删除HTML网页为纯文本的,只是删除,并不提取,也不会考虑到我的新工具的“5种标签”都能删除与提取这么方便,我的五种标签包括“XML标签,下划线标签,斜线标签,反斜线标签,方括号标签”,所以,我的新工具是“针对5种标签的删除与提取与自动侦测”,可以自动侦测某个文件中的标签类型,可以自定义开始标签和结束标签的ASCII值,这也提供了很大的灵活性,这就是我的新工具的全部功能,显然是corpus-oriented!
 
回复: 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

以上是李亮最新研发工具的描述,欢迎大家上语料库快乐军和 李亮博士等语料库爱好者交流、资源共享, 群号121703321
 
【源代码与源程序与GIF动画指南】VBA开发的小型语料标注标签清除工具(Word文件形式)

自动删除语料标注信息:动画指南.jpg

浏览附件自动删除语料标注信息:主程序.doc

浏览附件自动删除语料标注信息:源代码.txt

浏览附件三合一的整包:李亮版自动删除语料标注的Word工具.rar[FONT=新細明體]

经常看到网上和身边有些语料库爱好者想要寻觅detagger,也有一些朋友准备自学语料库编程
[/FONT]
,2011年7月22日的时候我做了个Word文件形式的小型语料标注标签清除工具,它就是一个Word文件而已,你打开它,就能看到上面的菜单有<自动清除语料标注>,你把你需要处理的语料粘贴到这个Word文件的正文里面,点菜单的下拉中的4个菜单子项目就可以执行语料标注标签的清除(删除)了。在office 2003中,把语料文件txt弄到正文中也可以选择菜单上的“插入”的“文件”。

这款软件是VBA语言开发的,VBA的全称是Visual Basic for Application,就是在Office文件中编程,让一个普通的Word文件也能做各种匪夷所思的事情,哈哈,当然,你也可以让你的ppt和xls文件做各种匪夷所思的事情。而一个Word文件通常直接存放的主要是有格式的文本或无格式的文本,都可以被VBA语言进行各种各样的操纵(自动排版,自动删除某些内容,自动把某些文字或句子或段落进行染色而凸显,自动把当前文件中的某些单词或句子或段落输出到另一个文件中,自动计算平均词长呀句长呀,自动进行KWIC或Concgram之类的)

在本帖的附件中,提供了“李亮版VBA开发的小型语料标注标签清除工具”的三个文件,包括“操作指南的GIF动画图片,VBA源代码,VBA主程序”。

这个VBA版的语料标签清除工具,适合小规模的语料,也就是10MB以下的语料,更大容量的语料处理任务就会导致Office Word的负担过重而陷入“假死机”,并不是本程序负担过重或处理不了,虽然跟本程序有关联,嘻嘻。

我的这个VBA版的detagger能清除4种标注标签,如下……

例如:I love you. (4种标签标注效果如下:)

(1) I <verb>love</verb> you.
(2) I love_verb you.
(3) I love/verb you.
(4) I love[verb] you.

一旦依次执行了4种标签的清除之后,这四句话都变成干干净净的”I love you.“了,哈哈

为了帮助编程初学者或对”基于VBA的语料库编程“有兴趣的朋友津津有味地阅读本程序的”运行机制“和”每行代码“,[FONT=仿宋体]下面给大家提供源代码,我给每行的VBA代码都标注了“注释”的哟,VBA是VB的小弟(精简版),都是BASIC语法,很简单的英语单词的组合和逻辑,不涉及到C语言的“指针”或C++的“对象”或汇编语言的“寄存器”或Java的“从*.java到*.class的颠来倒去”,也无需专门的编程环境的安装或虚拟机的安装或EXE文件的编译之类的严肃概念或严肃手续,所以很清新,真正堪称“最容易入门且最容易战果累累的编程语言”[/FONT]。

########以下内容就是源代码########

Sub 删除所有的大于小于符号之间的内容()
Selection.HomeKey unit:=wdStory ' 备注:本行是跳到整个文件最前面位置。
Do
Selection.EndKey unit:=wdStory, Extend:=wdExtend
a = InStr(1, Selection.Text, "<")
Selection.MoveLeft unit:=wdCharacter, Count:=1 ' 备注:本行是检测是不是剩下的内容已经没有“<”符号了。
If a = 0 Then Exit Do
' 备注:以上4行是检测是否已经删除了全部的<>及其之间的内容从而可以退出无限循环了。
Selection.MoveUntil "<" ' 备注:本行是跳到下一个<之前。
Selection.MoveEndUntil ">", Count:=wdForward ' 备注:本行和下一行代码是选中下一个<和>之间的内容。
Selection.MoveRight unit:=wdCharacter, Count:=1, Extend:=wdExtend
Selection.Delete ' 备注:本行是删除被选中的<和>之间的内容。
Loop Until b = -1 ' 变量b只是用来实现无限循环的,没有赋值,所以永远为0而不能为-1。

End Sub

Sub 删除所有的左右方括号之间的内容()
Selection.HomeKey unit:=wdStory ' 备注:本行是跳到整个文件最前面位置。
Do
Selection.EndKey unit:=wdStory, Extend:=wdExtend
a = InStr(1, Selection.Text, "[")
Selection.MoveLeft unit:=wdCharacter, Count:=1 ' 备注:本行是检测是不是剩下的内容已经没有“[”符号了。
If a = 0 Then Exit Do
' 备注:以上4行是检测是否已经删除了全部的<>及其之间的内容从而可以退出无限循环了。
Selection.MoveUntil "[" ' 备注:本行是跳到下一个[之前。
Selection.MoveEndUntil "]", Count:=wdForward ' 备注:本行和下一行代码是选中下一个[和]之间的内容。
Selection.MoveRight unit:=wdCharacter, Count:=1, Extend:=wdExtend
Selection.Delete ' 备注:本行是删除被选中的[和]之间的内容。
Loop Until b = -1 ' 变量b只是用来实现无限循环的,没有赋值,所以永远为0而不能为-1。

End Sub

Sub 删除所有的下划线与空格之间的内容()
Selection.HomeKey unit:=wdStory ' 备注:本行是跳到整个文件最前面位置。
Do
Selection.EndKey unit:=wdStory, Extend:=wdExtend
a = InStr(1, Selection.Text, "_")
Selection.MoveLeft unit:=wdCharacter, Count:=1 ' 备注:本行是检测是不是剩下的内容已经没有“_”符号了。
If a = 0 Then Exit Do
' 备注:以上4行是检测是否已经删除了全部的_与空格之间及其之间的内容从而可以退出无限循环了。
Selection.MoveUntil "_" ' 备注:本行是跳到下一个[之前。
Selection.MoveEndUntil " ", Count:=wdForward ' 备注:本行和下一行代码是选中下一个_和空格之间的内容。
Selection.MoveRight unit:=wdCharacter, Count:=1, Extend:=wdExtend
Selection.Delete ' 备注:本行是删除被选中的_和空格之间的内容。
Loop Until b = -1 ' 变量b只是用来实现无限循环的,没有赋值,所以永远为0而不能为-1。

End Sub

Sub 删除所有的斜线与空格之间的内容()
Selection.HomeKey unit:=wdStory ' 备注:本行是跳到整个文件最前面位置。
Do
Selection.EndKey unit:=wdStory, Extend:=wdExtend
a = InStr(1, Selection.Text, "/")
Selection.MoveLeft unit:=wdCharacter, Count:=1 ' 备注:本行是检测是不是剩下的内容已经没有“/”符号了。
If a = 0 Then Exit Do
' 备注:以上4行是检测是否已经删除了全部的_与空格之间及其之间的内容从而可以退出无限循环了。
Selection.MoveUntil "/" ' 备注:本行是跳到下一个[之前。
Selection.MoveEndUntil " ", Count:=wdForward ' 备注:本行和下一行代码是选中下一个/和空格之间的内容。
Selection.MoveRight unit:=wdCharacter, Count:=1, Extend:=wdExtend
Selection.Delete ' 备注:本行是删除被选中的_和空格之间的内容。
Loop Until b = -1 ' 变量b只是用来实现无限循环的,没有赋值,所以永远为0而不能为-1。

End Sub

########以上内容就是源代码########

上面的全部源代码是4个独立运行的部分(子模块)组成的,每个子模块都可以单独运行的,每个子模块都是以“Sub 模块名称()”为开始,以“End Sub”为结束的。

Selection.HomeKey unit:=wdStory 这样的一句话也是独立运行的VBA代码呢,它也很容易理解的,wdStory就是整个正文内容,Selection就是正文中不断闪动的“插入点”,HomeKey就是点“Home”这个键盘上的键位,unit就是指明HomeKey的操作是抵达整个正文的最前面的位置。

Selection.EndKey unit:=wdStory, Extend:=wdExtend 这样的一句话也是独立运行的,它也很容易理解的,EndKey就是点“End”这个键盘上的键位,unit=wdStory就是指明EndKey的操作是抵达整个正文的最后面的位置,wd就是Word这个单词的(首尾字母的)缩写。Extend:=wdExtend 表示 是选中整个正文内容,而不是跳到正文的最后方。

Selection.MoveRight unit:=wdCharacter, Count:=1, Extend:=wdExtend 也是独立的Word操作且VBA代码,它的意思是从不断闪动的插入点向右选择一个字符(一个字母或一个汉字)。

读了以上,倘若大家希望轻松愉快地了解VBA的“最简单动作就能实现的飒爽英姿”及其“小李飞刀般的强悍”,可以观赏我制作的计算词典学的系列视频教程(在优酷网有专辑页面,都是30分钟到90分钟之间,无需安装任何软件,只要你的电脑有Office 2003(必须包括Word 2003),即可让你实现人生中的第一次编程哟)。

以下标题都是超级链接,点击,即可跳转到对应的优酷网页面了……

计算词典学:写一行代码,让Word变成“在线词典” (认识IE的运行,认识IE的参数运行,认识词典网站的网址的灵活性,认识VBA的Shell命令及其最大化焦点的参数)

计算词典学:写一行代码,让Word变成“BNC检索工具” (认识语料库检索网站的网址,认识VBA的Shell命令及其最小化焦点的参数,一键查询多个语料库)

计算词典学:写一行代码,让Word变成一个世界上最小的英汉词典

计算词典学:写一行代码,让Word计算指定区域的句子数量(字符数量,单词数量,段落数量)

计算词典学:写一行代码,让Word为我们关机或定时关机或重启(认识shutdown及其参数,认识shell函数)

计算词典学:写一行代码,让Word给每个doc文件加上一个密码 (普通的打开权限密码和修改权限密码,document_open子程序的特殊功能)

计算词典学:5分钟制作出一篇数万汉字的文章的汉字频率排行榜

计算词典学:巧查藏身于大规模英语中的少量法语,杜绝乱码孳生 (英语中的法语是纯文本乱码的重要来源之一,录制一个宏,修改一下代码,运行宏)

计算词典学:比迅雷更强大的Word下载语料与转换语料之宏动作

计算词典学:如此简单的宏录制,竟然实现了Tokenlist和Typelist

计算词典学:反剽窃且自动断句的Word,你肯定大跌眼镜!(自动英英断句,自动汉汉断句,自动英汉断句。为平行语料库的建设者,为英汉语言对比研究,为反剽窃检测)
 
【直接下载】李亮版语料标注标签的删除与提取工具(英文版与中文版),独立的EXE版,高速且支持高达4GB的txt文件哟,现有的少量同类工具面对几十兆就“陷入沉思”了……

为了方便不使用QQ的C友和其他朋友的快捷体验,在这里提供我做的“李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】”的中文版和英文版,附件的“Bright Corpus Detagger 2011.rar”就是对应的英文版,可以让不懂中文的国外(英美,加拿大,澳大利亚的)朋友也使用,:rolleyes:

这个“独立EXE版”与我推出的“VBA版Word文件型的语料标注清除小工具”相比,那是强大了无数倍哟!每秒钟处理8MB的txt语料,1.2GB的txt语料也就2.5分钟的等待就弹出“处理完毕”的好消息了!

本程序也支持“1个关键词或2个关键词的KWIC或Concgram”的批量提取,速度同样闪电,是按照逐个自然段的方式进行提取为一个单独的txt文件的,在面对较大的txt语料文件的时候,具有独特的使用价值!
 

附件

  • Bright Corpus Detagger 2011.rar
    29.4 KB · 浏览: 192
  • 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.rar
    30.3 KB · 浏览: 320
回复: 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

谢谢分享。
 
回复: 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

分享软件,还赠送源代码!太好了,谢谢!
 
《学好VBA的门径与利弊》

《学好VBA的门径与利弊》

作者:李亮(学术兴趣:自然语言处理,计算机网络的信息安全)


Word VBA是自然语言处理最直接的VBA(与Excel VBA或Access VBA相比的话),可以用来进行各种语料库检索与语料库分析,也可以后台通过DAO和ADO技术而挂接数据库(通过ODBC连通一切微软体系的数据库,或单独连通MS SQL Server,或单独连通Access的MDB数据库,或把其他数据库转入微软体系的数据库而通过ODBC而连通),也可以调用其他的自然语言处理工具,也可以制作出丰富的菜单和子菜单,也可以制作出标准的Windows窗体(10多种常用控件,包括按钮,文本框等等),可以说“精通了Word VBA,就等于有了自然语言处理的一指禅”!

说VBA是一指禅,并非推崇它为“万能完美的编程语言”,甚至严格意义上它都不是一个标准的编程语言,因为它无法生成一个EXE文件或DLL文件,它类似于脚本语言,是解释执行的,而不是编译执行的。所以,准确来说,VBA是各种语料处理的“小李飞刀”,适合中小规模的语料处理(几十MB左右),如果你有耐心的话,愿意多等几分钟或几十分钟,它也能处理大规模的语料。

平心而论,普通的主流的编程语言掌握到中高级水平,都是“几乎无所不能”,每门编程语言的入门教程都是号称自己是“容易上手,容易理解,功能很强大很丰富很闪电”。但是,对于任何学习者或开发者而言,任何编程语言都是必须面对“三大矛盾”:学习难度,开发效率,执行速度。学习难度还要细分为“入门学习难度”和“深入学习难度”。开发效率是指你花费尽可能少的时间和精力来开发相同功能的程序源代码的“性价比”。执行效率是你开发的软件的处理真实任务的时候的对语料文件的运算速度,尤其是面对大规模数据的时候的持续处理直到结束之间的时间。

在BASIC或VB之外,自然语言处理的编程语言在国内外的主要是:C++,Java,Perl和Python。这四大金刚也都面临“上述的三大矛盾”,三大矛盾的横向对比的差异很大,堪称“三难选择”!在这方面的对比之中,VBA是学习难度低,开发效率高,执行速度低。“四大金刚”,恰好相反,它们都学习难度偏高,开发效率偏低,执行速度偏高,这也是它们炫耀的主要方面,此外它们还具备丰富的多媒体和互联网的函数库呢,这都是VBA没有几乎直接具备的,而不得不主要通过Windows API来调用和实现。所以,BASIC语言或VB一般是非计算机专业学习编程的首选,这是普遍的认识。

C++和Java是像北大青鸟这样的IT职业培训机构的主推的两门编程语言,是最专业的最职业的编程语言,是系统级编程和企业级编程的首选。Perl和Python都是来源于Linux和Unix背景下的服务器后台编程语言,近年来其Windows版本也逐渐崛起与广泛普及。国外的自然语言处理的开发者往往采用这四大编程语言进行开发与共享,这也是不争的事实。大名鼎鼎的AntConc就是ActivePerl所开发的,ActivePerl是Perl语言的多种多样的具体编程平台之中的一个。最著名的WordSmith Tools应该是Delphi(这是最大可能的,据我分析)或C++开发出来的,而Delphi是介于C++的高速执行与Basic的快速开发之间的“中间物(Object Pascal是其编程语言)”,Delphi是开发平台的产品名称。

任何初学者或有志青年在选择编程语言的时候,往往读到各种广告,左右摇摆,不知所措,毕竟每个人的学习目的与现实定位与身心投入的差别很大,有些人只是业余做做,有些人是要闯入职业圈,有些人是浅尝就愉悦了,还有些人的时间太有限太忙而不能腾出足够的时间来深入或巩固自己的学习投入。

在我看来,学习一门编程语言,就像选择一个汉字输入法,你选择五笔打字的话,就需要投入相当多的精力和时间,回报就是打字速度超级快,当然你也容易发生遗忘而需要较多时间来重新温习巩固,毕竟这年头的职业打字员已经很少了,人人都会打字却未必每天都需要大量打字;如果你并非职业打字员而只是需要显著地提高打字速度的话,就学习“双拼输入法”了,每个汉字只需要点两下,声母一下,韵母一下,也只需要记忆20多个键位分别代表了哪些声母和韵母,每个键位也就是平均两个含义而已,就能3倍以上地提高汉字输入速度,何乐而不为呢?如果你硬要强调高速而学习五笔输入法,但却没有足够时间进行实际操作巩固,让你进行五笔输入法,总是不顺不爽,毕竟五笔输入法有200个左右的字根,熟练程度不够的时候,还不如全拼输入法来得舒服呢。我当前打字就是双拼输入法,啪啪的快速啊,呵呵,虽然我也多次学习过五笔输入法而始终未能牢固熟练掌握。

说完了Word VBA与其他编程语言的利弊权衡,我们继续其他VBA的介绍哈……

Excel VBA是公司环境下的最常用最实用的VBA,可以用来进行各种数值分析和人事关系的分析,所以,各种形式的VBA教程都主要是针对Excel的VBA,能找到丰富的入门和精通的教程。所以,学习VBA,如果一本正经地从VBA教程入手,就最好从Excel VBA踏入VBA的整个殿堂!

Access VBA是表面上的不方便进行自然语言处理,实际上比Word VBA更加灵活和更加强大。可以说Word VBA是自然语言处理的一指禅,而Access VBA就是“弹指神通功”,能够毙敌于百米之外!

所以,学习VBA的路线就是:从丰富的Excel VBA入门,掌握了VBA的通用概念和编程思路套路之后,就可以接触Word VBA,深入掌握Word VBA到达较高层次之后,就可以接触Access VBA,深入掌握Access VBA到达较高层次之后,VBA的自然语言处理就算是高深莫测了

每天花费1小时,进行图文并茂的边看边操作,第一个月左右完成Excel VBA,第二个月左右完成Word VBA,第三个月左右完成Access VBA,就算是在VBA方面屹立于“丰富复杂的语料处理任务之林”了!

你看VBA的数学库的“内置函数”并不多,但是组合起来也挺复杂挺高级。不过,可以用“shell”函数来调用从网上下载的现成的各种EXE数据模块,将来你就慢慢知道具体怎么用了。

如果不想去下载各种零散的数学模块,只想一次性统统打尽,并且只是侧重处理的“算法”而不是开发实用的软件系统,那就可以放弃VBA,而是用MatLab这个商业版工具或“R”这个免费而强大的数学工具点击此处,跳转到R语言及其平台的官方网站),它们就集成了现成的大量的数据处理模块与函数,数学与统计模块都应有尽有,可以进行各种数值计算,统计计算,语料处理与可视化的数据关系呈现。

整个Office 2003的VBA详细说明和示例在这里阅读其官方英文版:
http://msdn.microsoft.com/en-us/library/bb190882(v=office.11).aspx

Word 2003的VBA的详细技术说明和浅易入门指南在这里(英文版):
http://msdn.microsoft.com/en-us/library/aa272078(v=office.11).aspx

我们国内也有某些VBA的专题学习网站或页面,例如:
http://www.51vba.com/
http://www.bccn.net/Article/sjk/access/jc/Index.html
http://v.ku6.com/show/mgkWzSncu5Te7wLg.html

这里,是优酷网的900多个VBA视频教程呢
http://www.soku.com/search_video/q_vba

这里,是土豆网的400多个VBA视频呢
http://so.tudou.com/nisearch/vba/

这里,是“我乐网”的300多个VBA视频呢
http://so.56.com/index?key=vba&type=video&charset=utf-8&bn=

急于捧起一两本VBA教程读一读的朋友,可以到我的金山快盘的页面下载这两本书:
http://www.kuaipan.cn/index.php?ac=file&oid=16715583219302493
Word2000VBA一册通.pdf
http://www.kuaipan.cn/index.php?ac=file&oid=16715583219302494
VBA学习基础.pdf
 
语料库研究者的IT扫盲与语料库编程者的6门计算机核心课程的学习

《语料库研究者的IT扫盲与语料库编程者的6门计算机核心课程的学习》

语料库研究者与语料库编程者的入门,最好是从IT扫盲为起点,也就是三本书(图文并茂,图书馆和新华书店都能借到买到,按图索骥地边读边操作):《Windows XP标准教程》,《Office 2003标准教程》,《计算机网络原理》。这三本是社会普及型的教材,学完了,只是表明你不是IT文盲而已。很多涉足语料库的语言研究者和一线教师,尚未IT扫盲就急于进行语料库建设或语料检索,往往发现“乱码挡路,效率低下,屡屡碰壁,很多方面都不会操作,就算别人传授也需要死记硬背,就算瞎摸之后成功了也不知道为何”。

语料库编程能力是一门或多门编程语言对自然语言的自动分析处理,必然涉及到一定的计算机及互联网的原理,一个人光学一门编程语言而不学习最低限度的计算机专业核心课程,就像学习英语的人只是背单词和看语法书,而不读英美文学也不读英美文化,是很难随心所欲地自由表达交流的。

我个人推荐的6门核心课程如下(不打算编程者也可以粗读而提升IT素质):

《计算机组成原理》,从软件硬件的主要部件出发,揭示了整个计算机软硬融合的原理;
http://www.soku.com/search_video/q_计算机组成原理
(优酷网的2000多个视频教程)

《操作系统原理》,从操作系统是计算机最重要的软件系统(计算机的中枢神经系统),揭示了应用程序正常运转所需要的各种资源优化分配与相互竞争的原理;
http://www.soku.com/search_video/q_操作系统原理
优酷网的1600多个视频教程

《高级程序设计》,从最经典的编程语言“C语言”入手,揭开程序设计的神秘面纱,Windows和Linux和Unix就是用C语言设计开发出来的,学会了C语言,BASIC语言就显得相当简单了,就能自己设计出第一份真正软件了;
http://www.soku.com/search_video/q_高级程序设计
优酷网的200多个视频教程

《数据库原理》,数据库是现代商业信息管理和自然语言信息库管理的核心技术,它使得巨大的知识库的建设变得前所未有的简单和高效,没有了数据库技术,几乎编程技术就变成了一堆废铁,尽管你也可以建立“运行速度大打折扣的文件型数据库”;
http://www.soku.com/search_video/q_数据库原理优酷网的700多个视频教程

《计算机网络原理》,这是宽带的时代,网络编程让你拥有整个互联网的所有资源,后台网页抓取成为极具潜力的编程和数据库之路;
http://www.soku.com/search_video/q_计算机网络原理
优酷网的1300多个视频教程

《人工智能》,一切的编程都带有人工智能的多多少少的元素,这门课让你理解无穷复杂的人类智能与不断复杂的人工智能之间的不断逼近是令人欣喜的。
http://www.soku.com/search_video/q_人工智能原理
优酷网的40多个视频教程
 
回复: 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

thanks a lot.
 
回复: 语料库研究者的IT扫盲与语料库编程者的6门计算机核心课程的学习

《语料库研究者的IT扫盲与语料库编程者的6门计算机核心课程的学习》



语料库研究者与语料库编程者的入门,最好是从IT扫盲为起点,也就是三本书(图文并茂,图书馆和新华书店都能借到买到,按图索骥地边读边操作):《Windows XP标准教程》,《Office 2003标准教程》,《计算机网络原理》。这三本是社会普及型的教材,学完了,只是表明你不是IT文盲而已。很多涉足语料库的语言研究者和一线教师,尚未IT扫盲就急于进行语料库建设或语料检索,往往发现“乱码挡路,效率低下,屡屡碰壁,很多方面都不会操作,就算别人传授也需要死记硬背,就算瞎摸之后成功了也不知道为何”。

语料库编程能力是一门或多门编程语言对自然语言的自动分析处理,必然涉及到一定的计算机及互联网的原理,一个人光学一门编程语言而不学习最低限度的计算机专业核心课程,就像学习英语的人只是背单词和看语法书,而不读英美文学也不读英美文化,是很难随心所欲地自由表达交流的。

我个人推荐的6门核心课程如下(不打算编程者也可以粗读而提升IT素质):

《计算机组成原理》,从软件硬件的主要部件出发,揭示了整个计算机软硬融合的原理;
http://www.soku.com/search_video/q_计算机组成原理 (优酷网的2000多个视频教程)

《操作系统原理》,从操作系统是计算机最重要的软件系统(计算机的中枢神经系统),揭示了应用程序正常运转所需要的各种资源优化分配与相互竞争的原理;
http://www.soku.com/search_video/q_操作系统原理优酷网的1600多个视频教程

《高级程序设计》,从最经典的编程语言“C语言”入手,揭开程序设计的神秘面纱,Windows和Linux和Unix就是用C语言设计开发出来的,学会了C语言,BASIC语言就显得相当简单了,就能自己设计出第一份真正软件了;
http://www.soku.com/search_video/q_高级程序设计优酷网的200多个视频教程

《数据库原理》,数据库是现代商业信息管理和自然语言信息库管理的核心技术,它使得巨大的知识库的建设变得前所未有的简单和高效,没有了数据库技术,几乎编程技术就变成了一堆废铁,尽管你也可以建立“运行速度大打折扣的文件型数据库”;
http://www.soku.com/search_video/q_数据库原理优酷网的700多个视频教程

《计算机网络原理》,这是宽带的时代,网络编程让你拥有整个互联网的所有资源,后台网页抓取成为极具潜力的编程和数据库之路;
http://www.soku.com/search_video/q_计算机网络原理优酷网的1300多个视频教程

《人工智能》,一切的编程都带有人工智能的多多少少的元素,这门课让你理解无穷复杂的人类智能与不断复杂的人工智能之间的不断逼近是令人欣喜的。
http://www.soku.com/search_video/q_人工智能原理优酷网的40多个视频教程
必须的
 
回复: 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

:)感谢分享!
 
回复: 李亮版语料标注标签的删除与提取工具 1.0【大容量高速独立exe版】.exe

无私的奉献 致敬 李哥
 
XML批量转TXT器李亮版.zip

XML批量转TXT器李亮版.zip】高速免费的文本小工具,把同一文件夹(含子文件夹)的所有.xml或.txt的文件进行xml标签剥离,xml标签可以是规范的,也可以是不规范的,最后是生成相同位置上的相同文件名称的txt文件,源文件为txt则修改源文件为新内容,适合语料库建设的专门需求。经VirusTotal的42款杀毒引擎检测而100%无毒。
 

附件

  • XML批量转TXT器李亮版.zip
    365.4 KB · 浏览: 57
HTM批量转TXT器李亮版.zip

HTM批量转TXT器李亮版.zip高速免费的文本小工具,对同一文件夹(含子文件夹)的所有.htm与.html与.shtml文件处理,生成相同位置上的相同文件名称的txt文件,适合语料库建设或掌上阅读器的专门编码需求。经VirusTotal的42款杀毒引擎检测而100%无毒。
 
TXT简体繁体批量互转器李亮版.zip

TXT简体繁体批量互转器李亮版.zip】高速免费的文本小工具,对同一文件夹(含子文件夹)的所有.txt文件本身进行简体到繁体或繁体到简体的编码转换,可以逐字转换或逐词转换,适合语料库建 设或掌上阅读器的专门编码需求。“软件”变为“軟體”,“数据库”变为“資料庫”就是逐词转换;“软件”变为“軟件”,“数据库”变为“數據庫”就是逐字 转换。运行前,请确保TXT是ANSI编码,其他编码将无法转换。经VirusTotal的42款杀毒引擎检测而100%无毒。
 
Back
顶部