李亮1975重庆
语料库快乐军政委
“英语词性标注器2012广外版”是基于东京大学计算机科学系的Tsujii Laboratory的POS Tagger,网址是
http://www.nactem.ac.uk/tsujii/
不过,这款2005年开发的词性标注器的网页似乎已经被该机构放弃了或删除了,不过大家依然可以从下面的网址获取其标注器的原版软件包。
http://ishare.iask.sina.com.cn/f/23683708.html
http://www.kuaipan.com.cn/file/id_16715583219302551.htm
原版软件包本来是不支持鼠标操作的,是“命令行的运行方式”或“参数传递的运行方式”的,关于“如何进行原版的命令行操作”可以参考我在另一个帖子中的发言
http://www.corpus4u.org/forum/showthread.php?t=8000
原版文件包里面有英语说明书。文件包的主程序是tagger.exe,相同文件夹有models文件夹,里面是16个配套文件。
命令行格式是: tagger.exe -i c:\input.txt -o c:\output.txt
因此,我开发了这个标注器的图形界面版,可以用鼠标来操作了,而且可以一次选择多个txt文件进行标注,而且可以多次添加多个文件到一个文件列表框,然后同时进行这些文件的词性标注。
我开发的这个“外壳”,是单文件的,无需安装,也无毒无插件,不修改注册表,经过https://www.virustotal.com/ 这个网站的42款杀毒软件的在线检测,都是“安全”,不过,金山毒霸会判断我这个软件是病毒(它称为“Win32.Troj.Swisyn.(kcloud)”),但是360杀毒都不认为我的软件是病毒的。
每个文件被标注之后就在源文件所在的文件夹新增一个“_tagged.txt”文件,也就是说你把a.txt进行标注之后,它的旁边就新增了一个a_tagged.txt
在自动标注的过程中,本软件并不报告处理进度,这是为了进一步提高处理的速度。
本软件运行过程中,内存占用是每个文件为70兆的物理内存,在N个文件的情况下是同时进行分析处理的,所以会占用N个70兆的物理内存,这有可能会拖慢你的电脑速度,所以不要一次分析太多且太大的txt文件。
我在我的3GB内存与2.2GHz的双核CPU的笔记本电脑上对1百万词的没有标注的Brown语料库进行分析处理,花费了544秒,每秒是1838词的处理速度呢。
另外,这款软件只支持ansi和utf-8的文字编码的txt文件,如果你的txt文件是unicode的,请你用“记事本”打开它且在菜单上点“另存为”,在这“另存为”对话框上选择“编码”这个下拉项目为“ANSI”或“UTF-8”就是进行了“文字编码的转换到能被这款软件处理的状态”了。
国外的词性标注器,大部分都是基于Java的,需要安装Java虚拟机,国内的一般的语言工作者都不太熟悉且很难轻松掌握这种方式的软件安装与运行,所以我开发了这款软件给大家。
http://www.kuaipan.com.cn/file/id_16715583219302550.htm
在“金山快盘”下载“英语词性标注器2012广外版.zip”
http://ishare.iask.sina.com.cn/f/23691032.html
在“新浪爱问”下载“英语词性标注器2012广外版.zip”
http://www.nactem.ac.uk/tsujii/
不过,这款2005年开发的词性标注器的网页似乎已经被该机构放弃了或删除了,不过大家依然可以从下面的网址获取其标注器的原版软件包。
http://ishare.iask.sina.com.cn/f/23683708.html
http://www.kuaipan.com.cn/file/id_16715583219302551.htm
原版软件包本来是不支持鼠标操作的,是“命令行的运行方式”或“参数传递的运行方式”的,关于“如何进行原版的命令行操作”可以参考我在另一个帖子中的发言
http://www.corpus4u.org/forum/showthread.php?t=8000
原版文件包里面有英语说明书。文件包的主程序是tagger.exe,相同文件夹有models文件夹,里面是16个配套文件。
命令行格式是: tagger.exe -i c:\input.txt -o c:\output.txt
因此,我开发了这个标注器的图形界面版,可以用鼠标来操作了,而且可以一次选择多个txt文件进行标注,而且可以多次添加多个文件到一个文件列表框,然后同时进行这些文件的词性标注。
我开发的这个“外壳”,是单文件的,无需安装,也无毒无插件,不修改注册表,经过https://www.virustotal.com/ 这个网站的42款杀毒软件的在线检测,都是“安全”,不过,金山毒霸会判断我这个软件是病毒(它称为“Win32.Troj.Swisyn.(kcloud)”),但是360杀毒都不认为我的软件是病毒的。
每个文件被标注之后就在源文件所在的文件夹新增一个“_tagged.txt”文件,也就是说你把a.txt进行标注之后,它的旁边就新增了一个a_tagged.txt
在自动标注的过程中,本软件并不报告处理进度,这是为了进一步提高处理的速度。
本软件运行过程中,内存占用是每个文件为70兆的物理内存,在N个文件的情况下是同时进行分析处理的,所以会占用N个70兆的物理内存,这有可能会拖慢你的电脑速度,所以不要一次分析太多且太大的txt文件。
我在我的3GB内存与2.2GHz的双核CPU的笔记本电脑上对1百万词的没有标注的Brown语料库进行分析处理,花费了544秒,每秒是1838词的处理速度呢。
另外,这款软件只支持ansi和utf-8的文字编码的txt文件,如果你的txt文件是unicode的,请你用“记事本”打开它且在菜单上点“另存为”,在这“另存为”对话框上选择“编码”这个下拉项目为“ANSI”或“UTF-8”就是进行了“文字编码的转换到能被这款软件处理的状态”了。
国外的词性标注器,大部分都是基于Java的,需要安装Java虚拟机,国内的一般的语言工作者都不太熟悉且很难轻松掌握这种方式的软件安装与运行,所以我开发了这款软件给大家。
http://www.kuaipan.com.cn/file/id_16715583219302550.htm
在“金山快盘”下载“英语词性标注器2012广外版.zip”
http://ishare.iask.sina.com.cn/f/23691032.html
在“新浪爱问”下载“英语词性标注器2012广外版.zip”
Last edited: