李亮1975重庆
语料库快乐军政委
【内容提要】
Treetagger在线版之无限制本地增强版,形式上仅仅是一个网页,双击即可运行,貌似在线网页,但是她解除了在线网页版用Javascript的2MB的发送文本容量限制,新增了标注类型转换与剔除的若干功能,让AntConc可以检索“来自treetagger的下划线型词性标注”,适合语料库语言学的建库与检索的需求。
【用法指南】TreeTagger在线版之无限制本地增强版 1.0
http://web4u.setsunan.ac.jp/Website/TreeOnline.htm (在线版TreeTagger,一款优秀的词性标注器)
访问这个网址,可以在网页的文本框中粘贴英语文本,点“submit”按钮就自动提交给远程服务器而得到赋码结果了,例如我们用"I am running fast."来赋码就得到下面的结果(分别为左栏,中栏,右栏,分别是屈折形,词性标签,原形)……
I PP I
am VBP be
running VVG run
fast RB fast
. SENT .
但是,在线版的TreeTagger借助页面源代码中的Javascript的一个count()函数,对你输入的文本量进行了限制,最大不能超过 2MB(2兆)。超过2兆字节的语料就会遇到“Please decrease the input words”这个提示而无法赋码,count()函数的完整原形如下……
function Count() {
var token = document.Tex.corpus.value.length;
if(token > 2000000){
alert("Please decrease the input words.");
return;
}
else {
document.Tex.submit();
}
}
而我们的语料库,20万英语单词就有1.3MB,30万单词就有2MB了,所以当你一次性想要对超过30万单词进行语料赋码的时候,就必须分批到足够小的容量而进行,要么采用本地版的treetagger了。在线版和本地版的treetagger都是赋码结果是每行由3栏组成,3栏之间是制表符间隔的(不是空格哟,虽然看上去是空白一个)。如果你用在线版或本地版treetagger进行了赋码,那你依然无法用AntConc进行检索哟,这是众多语料库操作者面临的一个难题。
在线版TreeTagger之无限制本地增强版就是在上述背景下而诞生的,“她”就是一个网页,HTM文件而已,采用Javascript编程,因此,双击就可运行,而体积不到7KB。
她的第1号功能是,解除了2兆容量的上限,让你轻松使用。
她的第2号功能是,帮你把赋码结果转换为AntConc可以检索的“下划线型词性标注的语料状态”。
她的第3号功能是,帮你把下划线型标注的语料的标注剔除掉,无论是来自treetagger或其他POS tagger。
她的第4号功能是:帮你把treetagger的赋码结果转换为XML型标注,便于被其他的针对XML标注的检索工具进行处理。
她的第5号功能是,把中英文混排的语料进行自动分离,无论是”一行英文后面跟随一行中文“,还是”一句英文后面跟随一句中文“,或是”一行中文后面跟随一行英文“,或是”一句中文后面跟随一句英文“,都可以剔除所有的中文或所有的英文,这个功能在我们建设”平行语料库“的时候频频需要却找不到处理工具呢。例如,我们有如下的语料……
I love corpus.
我喜欢语料库。
This corpus is big.
这个语料库很大。
经过第5号功能的”剔除英文“这个按钮,就变成……
我喜欢语料库。
这个语料库很大。
而如果我们点第5个功能的”剔除中文“这个按钮,就变成……
I love corpus.
This corpus is big.
哈哈,这是很实用的功能呢!
那么,最实用的第2号功能是如何操作的呢?
首先,你把语料拷贝到操作界面的文本框,然后你点”submit“按钮,等它发送和赋码完毕,你就看到了赋码结果,此刻你就点网页浏览器的菜单的”编辑“中 的”全选“,然后再点菜单的”编辑“中的”拷贝“,这样你就拷贝了赋码结果,然后你再点”后退“按钮,回到刚才的主界面,因为赋码结果是切换到新页面而呈 现出来的!所以,你拷贝了结果到主界面的文本框,然后点”下划线型词性标注的转换“这个按钮就可以了。
例如,我们有下面的赋码结果……
This DT this
corpus NN corpus
is VBZ be
big JJ big
. SENT .
点了”下划线型词性标注的转换“就转换为……
This_DT corpus_NN is_VBZ big_JJ ._SENT
如果你对如何用AntConc检索已经词性赋码的语料这个技能,还不了解,你可以读我的PDF教程
http://ishare.iask.sina.com.cn/f/33525504.html 《语料检索的速成教程:已经词性赋码语料的检索.pdf》
如果你对AntConc还没有入门,就读我的另一份教程
http://ishare.iask.sina.com.cn/f/33651497.html 《语料检索的速成教程:AntConc生鲜入门.pdf》
下载地址(新浪爱问):
http://ishare.iask.sina.com.cn/f/37227447.html
Treetagger在线版之无限制本地增强版,形式上仅仅是一个网页,双击即可运行,貌似在线网页,但是她解除了在线网页版用Javascript的2MB的发送文本容量限制,新增了标注类型转换与剔除的若干功能,让AntConc可以检索“来自treetagger的下划线型词性标注”,适合语料库语言学的建库与检索的需求。
【用法指南】TreeTagger在线版之无限制本地增强版 1.0
http://web4u.setsunan.ac.jp/Website/TreeOnline.htm (在线版TreeTagger,一款优秀的词性标注器)
访问这个网址,可以在网页的文本框中粘贴英语文本,点“submit”按钮就自动提交给远程服务器而得到赋码结果了,例如我们用"I am running fast."来赋码就得到下面的结果(分别为左栏,中栏,右栏,分别是屈折形,词性标签,原形)……
I PP I
am VBP be
running VVG run
fast RB fast
. SENT .
但是,在线版的TreeTagger借助页面源代码中的Javascript的一个count()函数,对你输入的文本量进行了限制,最大不能超过 2MB(2兆)。超过2兆字节的语料就会遇到“Please decrease the input words”这个提示而无法赋码,count()函数的完整原形如下……
function Count() {
var token = document.Tex.corpus.value.length;
if(token > 2000000){
alert("Please decrease the input words.");
return;
}
else {
document.Tex.submit();
}
}
而我们的语料库,20万英语单词就有1.3MB,30万单词就有2MB了,所以当你一次性想要对超过30万单词进行语料赋码的时候,就必须分批到足够小的容量而进行,要么采用本地版的treetagger了。在线版和本地版的treetagger都是赋码结果是每行由3栏组成,3栏之间是制表符间隔的(不是空格哟,虽然看上去是空白一个)。如果你用在线版或本地版treetagger进行了赋码,那你依然无法用AntConc进行检索哟,这是众多语料库操作者面临的一个难题。
在线版TreeTagger之无限制本地增强版就是在上述背景下而诞生的,“她”就是一个网页,HTM文件而已,采用Javascript编程,因此,双击就可运行,而体积不到7KB。
她的第1号功能是,解除了2兆容量的上限,让你轻松使用。
她的第2号功能是,帮你把赋码结果转换为AntConc可以检索的“下划线型词性标注的语料状态”。
她的第3号功能是,帮你把下划线型标注的语料的标注剔除掉,无论是来自treetagger或其他POS tagger。
她的第4号功能是:帮你把treetagger的赋码结果转换为XML型标注,便于被其他的针对XML标注的检索工具进行处理。
她的第5号功能是,把中英文混排的语料进行自动分离,无论是”一行英文后面跟随一行中文“,还是”一句英文后面跟随一句中文“,或是”一行中文后面跟随一行英文“,或是”一句中文后面跟随一句英文“,都可以剔除所有的中文或所有的英文,这个功能在我们建设”平行语料库“的时候频频需要却找不到处理工具呢。例如,我们有如下的语料……
I love corpus.
我喜欢语料库。
This corpus is big.
这个语料库很大。
经过第5号功能的”剔除英文“这个按钮,就变成……
我喜欢语料库。
这个语料库很大。
而如果我们点第5个功能的”剔除中文“这个按钮,就变成……
I love corpus.
This corpus is big.
哈哈,这是很实用的功能呢!
那么,最实用的第2号功能是如何操作的呢?
首先,你把语料拷贝到操作界面的文本框,然后你点”submit“按钮,等它发送和赋码完毕,你就看到了赋码结果,此刻你就点网页浏览器的菜单的”编辑“中 的”全选“,然后再点菜单的”编辑“中的”拷贝“,这样你就拷贝了赋码结果,然后你再点”后退“按钮,回到刚才的主界面,因为赋码结果是切换到新页面而呈 现出来的!所以,你拷贝了结果到主界面的文本框,然后点”下划线型词性标注的转换“这个按钮就可以了。
例如,我们有下面的赋码结果……
This DT this
corpus NN corpus
is VBZ be
big JJ big
. SENT .
点了”下划线型词性标注的转换“就转换为……
This_DT corpus_NN is_VBZ big_JJ ._SENT
如果你对如何用AntConc检索已经词性赋码的语料这个技能,还不了解,你可以读我的PDF教程
http://ishare.iask.sina.com.cn/f/33525504.html 《语料检索的速成教程:已经词性赋码语料的检索.pdf》
如果你对AntConc还没有入门,就读我的另一份教程
http://ishare.iask.sina.com.cn/f/33651497.html 《语料检索的速成教程:AntConc生鲜入门.pdf》
下载地址(新浪爱问):
http://ishare.iask.sina.com.cn/f/37227447.html