免费下载:【小巧迅速】英语词性标注器2012广外版.zip

李亮1975重庆

语料库快乐军政委
“英语词性标注器2012广外版”是基于东京大学计算机科学系的Tsujii Laboratory的POS Tagger,网址是
http://www.nactem.ac.uk/tsujii/

不过,这款2005年开发的词性标注器的网页似乎已经被该机构放弃了或删除了,不过大家依然可以从下面的网址获取其标注器的原版软件包。
http://ishare.iask.sina.com.cn/f/23683708.html
http://www.kuaipan.com.cn/file/id_16715583219302551.htm


原版软件包本来是不支持鼠标操作的,是“命令行的运行方式”或“参数传递的运行方式”的,关于“如何进行原版的命令行操作”可以参考我在另一个帖子中的发言
http://www.corpus4u.org/forum/showthread.php?t=8000
原版文件包里面有英语说明书。文件包的主程序是tagger.exe,相同文件夹有models文件夹,里面是16个配套文件。
命令行格式是: tagger.exe -i c:\input.txt -o c:\output.txt

因此,我开发了这个标注器的图形界面版,可以用鼠标来操作了,而且可以一次选择多个txt文件进行标注,而且可以多次添加多个文件到一个文件列表框,然后同时进行这些文件的词性标注。

我开发的这个“外壳”,是单文件的,无需安装,也无毒无插件,不修改注册表,经过https://www.virustotal.com/ 这个网站的42款杀毒软件的在线检测,都是“安全”,不过,金山毒霸会判断我这个软件是病毒(它称为“Win32.Troj.Swisyn.(kcloud)”),但是360杀毒都不认为我的软件是病毒的。

每个文件被标注之后就在源文件所在的文件夹新增一个“_tagged.txt”文件,也就是说你把a.txt进行标注之后,它的旁边就新增了一个a_tagged.txt

在自动标注的过程中,本软件并不报告处理进度,这是为了进一步提高处理的速度。

本软件运行过程中,内存占用是每个文件为70兆的物理内存,在N个文件的情况下是同时进行分析处理的,所以会占用N个70兆的物理内存,这有可能会拖慢你的电脑速度,所以不要一次分析太多且太大的txt文件。

我在我的3GB内存与2.2GHz的双核CPU的笔记本电脑上对1百万词的没有标注的Brown语料库进行分析处理,花费了544秒,每秒是1838词的处理速度呢。

另外,这款软件只支持ansi和utf-8的文字编码的txt文件,如果你的txt文件是unicode的,请你用“记事本”打开它且在菜单上点“另存为”,在这“另存为”对话框上选择“编码”这个下拉项目为“ANSI”或“UTF-8”就是进行了“文字编码的转换到能被这款软件处理的状态”了。

国外的词性标注器,大部分都是基于Java的,需要安装Java虚拟机,国内的一般的语言工作者都不太熟悉且很难轻松掌握这种方式的软件安装与运行,所以我开发了这款软件给大家。

http://www.kuaipan.com.cn/file/id_16715583219302550.htm
在“金山快盘”下载“英语词性标注器2012广外版.zip”

http://ishare.iask.sina.com.cn/f/23691032.html
在“新浪爱问”下载“英语词性标注器2012广外版.zip”
 
Last edited:
回复: 免费下载:【小巧迅速】英语词性标注器2012广外版.zip

thanks for sharing~!
 
回复: 免费下载:【小巧迅速】英语词性标注器2012广外版.zip

“英语词性标注器2012广外版”是基于东京大学计算机科学系的Tsujii Laboratory的POS Tagger,网址是
http://www.nactem.ac.uk/tsujii/

不过,这款2005年开发的词性标注器的网页似乎已经被该机构放弃了或删除了,不过大家依然可以从下面的网址获取其标注器的原版软件包。
http://ishare.iask.sina.com.cn/f/23683708.html
http://www.kuaipan.com.cn/file/id_16715583219302551.htm


原版软件包本来是不支持鼠标操作的,是“命令行的运行方式”或“参数传递的运行方式”的,关于“如何进行原版的命令行操作”可以参考我在另一个帖子中的发言
http://www.corpus4u.org/forum/showthread.php?t=8000
原版文件包里面有英语说明书。文件包的主程序是tagger.exe,相同文件夹有models文件夹,里面是16个配套文件。
命令行格式是: tagger.exe -i c:\input.txt -o c:\output.txt

因此,我开发了这个标注器的图形界面版,可以用鼠标来操作了,而且可以一次选择多个txt文件进行标注,而且可以多次添加多个文件到一个文件列表框,然后同时进行这些文件的词性标注。

我开发的这个“外壳”,是单文件的,无需安装,也无毒无插件,不修改注册表,经过https://www.virustotal.com/ 这个网站的42款杀毒软件的在线检测,都是“安全”,不过,金山毒霸会判断我这个软件是病毒(它称为“Win32.Troj.Swisyn.(kcloud)”),但是360杀毒都不认为我的软件是病毒的。

每个文件被标注之后就在源文件所在的文件夹新增一个“_tagged.txt”文件,也就是说你把a.txt进行标注之后,它的旁边就新增了一个a_tagged.txt

在自动标注的过程中,本软件并不报告处理进度,这是为了进一步提高处理的速度。

本软件运行过程中,内存占用是每个文件为70兆的物理内存,在N个文件的情况下是同时进行分析处理的,所以会占用N个70兆的物理内存,这有可能会拖慢你的电脑速度,所以不要一次分析太多且太大的txt文件。

我在我的3GB内存与2.2GHz的双核CPU的笔记本电脑上对1百万词的没有标注的Brown语料库进行分析处理,花费了544秒,每秒是1838词的处理速度呢。

另外,这款软件只支持ansi和utf-8的文字编码的txt文件,如果你的txt文件是unicode的,请你用“记事本”打开它且在菜单上点“另存为”,在这“另存为”对话框上选择“编码”这个下拉项目为“ANSI”或“UTF-8”就是进行了“文字编码的转换到能被这款软件处理的状态”了。

国外的词性标注器,大部分都是基于Java的,需要安装Java虚拟机,国内的一般的语言工作者都不太熟悉且很难轻松掌握这种方式的软件安装与运行,所以我开发了这款软件给大家。

http://www.kuaipan.com.cn/file/id_16715583219302550.htm
在“金山快盘”下载“英语词性标注器2012广外版.zip”

http://ishare.iask.sina.com.cn/f/23691032.html
在“新浪爱问”下载“英语词性标注器2012广外版.zip”

真奇怪了,金山一下给删除了。
 

附件

  • 1.jpg
    1.jpg
    16.5 KB · 浏览: 7
金山毒霸是“误杀之王”呢,连自己的手指头也要砍掉的,还有无数笑话……

http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=金山 误杀&ie=utf-8

稍微查查新闻就就会发现,金山毒霸是“错误识别病毒的头号高手”。可以暂时关闭金山毒霸,然后下载和使用本帖的小工具,也可以卸载金山毒霸。

其实,最好笑的是,本工具仅仅是词性分析,连网络访问能力都没有,体内无Windows调用Http或WinSock的函数库呢,竟然被判断为“trojan”(木马),这简直是“一个男的去看病被查出来了妇科病”,哈哈
 
《采用了几十款在线查毒引擎的分析结果》

我也从新浪爱问下载了本帖文件,然后上传到两大在线杀毒网站,它们都有几十款杀毒引擎呢。

https://www.virustotal.com
检测之后,结果显示:42款杀毒软件之中有16款软件认为本帖文件含有病毒;

http://r.virscan.org
检测之后,结果显示:37款杀毒软件之中有4款软件认为本帖文件含有病毒;

欢迎大家亲自测试下。

操作方法是:打开上述两个网站的首页,从网页上选择本地某文件,点“上传”,等待1分钟左右就呈现“综合报告”了。这等于请了很多评委来评审一篇论文,尽量避免偏颇。
 

附件

  • VirScan-org的扫描结果.jpg
    VirScan-org的扫描结果.jpg
    92.3 KB · 浏览: 1
  • VirusTotal的扫描结果.jpg
    VirusTotal的扫描结果.jpg
    27.3 KB · 浏览: 1
回复: 免费下载:【小巧迅速】英语词性标注器2012广外版.zip

非常感谢慷慨又万能的李老师!找到你这个软件我研究的难题就迎刃而解了!哈哈!谢谢!:)
 
回复: 免费下载:【小巧迅速】英语词性标注器2012广外版.zip

thanks, give you feedback after using:D
 
回复: 免费下载:【小巧迅速】英语词性标注器2012广外版.zip

李博士,解压不了怎么办?
 

附件

  • QQ截图20121031181423.png
    QQ截图20121031181423.png
    15.4 KB · 浏览: 3
Back
顶部