Taggers" PK: which one outperforms others?

ineedgerf

普通会员
我顺着本站提供的链接,下载了TAIParse Part-of-Speech (POS) Tagger。结果如下:

And/CC Durbeyfield/UNKNOWN lay/UNKNOWN back/UNKNOWN comfortably/RB on/IN
[ the/DT grass/NN ]
./. '/'

这个结果和 TOSCA/LOB 相比:

<w CC>And</w> <w NP>Durbeyfield</w> <w VBD>lay</w> <w RP>back</w> <w RB>comfortably</w> <w IN>on</w> <w ATI>the</w> <w NN>grass</w><w SPER>.</w>

我们发现其准确率差很多。

不过 TAIParse Part-of-Speech (POS) Tagger 的功能多了一些,但愿以后的版本能好一些。

推荐 TOSCA/LOB 的原因:

1)基于 DOS;
2)可以批处理;
3)准确率高;
4)允许其它码的存在

等。

WinBrill 是非英语版本,里面的规则虽然可以编辑,但是也很麻烦,虽然是个“基于规则”的好东西,但还是不如 TOSCA/LOB。

其它 TAGGERS 没有使用过。

QTag 也比较好用。

有 CLAWS 能分享就更好了!它现在有了 Windows 版本了。
 
ineedgerf, could you be kind enough, with your expertise, to prepare a more detailed survey of the taggers available? Thank you in advance for your help!
 
都说认识语料库检索工具只是入门,会做标注才是高手,我要向各位高手多多请教、学习。
 
回复:Taggers" PK: which one outperforms others?

以下是引用laohong
好呀,来点实际的。
 
TOSCA/LOB:

1)它有tlbtag批处理文件。原始的(即从开发者服务器上下载后的)批处理文件要求用户文件名后缀为.raw。这个可以更改;
2)注意另一个批处理文件tlbset.bat中的路径,应和其它一致;
3)注意tlbsys.cfg文件,里面也有一个路径;
4)它的输出格式是列显示的,如需要上面楼主的格式,需要一系列的转换。CLAWS有专门的转换程序,我们可以使用普通的文本编辑器完成;
5)在处理大量文件的时候,需要编写另外的批处理文件;
6)好像在xp下不工作。

大家稍微耐心一点儿,就会知道这个东西的使用方法了。
 
回复:Taggers" PK: which one outperforms others?

CLAWS4 applying the BNC C7 tagset:

<s>
And_CC Durbeyfield_NP1 lay_VVD back_RP comfortably_RR on_II the_AT grass_NN1 ._.
</s>

TOSCA/LOB:

<w CC>And</w> <w NP>Durbeyfield</w> <w VBD>lay</w> <w RP>back</w> <w RB>comfortably</w> <w IN>on</w> <w ATI>the</w> <w NN>grass</w><w SPER>.</w>

The most noticeable difference is that CLAWS tagset is more fine-grained - e.g. different kinds of verbs (be, have, do, lexical verbs etc) and different uses of verbs (e.g. be, do as main verbs and as auxiliary verbs).
 
仔细观察了一下几个 taggers 的情况,还是觉得 TOSCA/LOB 的
优点多一些,其中多数在上面的帖子上说过了。
希望大家对它做进一步研究。
CLAWS 有 online tagging service。
TOSCA/LOB 的一些错误可以通过一些方法解决,如把 can 标注为
其它码等。


[本贴已被 作者 于 2005年12月21日 23时06分39秒 编辑过]
 
The site has been there for years, and all I know is that it is
difficult to log on. Just now, I tried many times, but failed.
So ... .

[本贴已被 作者 于 2005年12月30日 22时46分03秒 编辑过]
 
Back
顶部