最好的tagger与parser

jiji

普通会员
现成的taggers中,英文最好的是CLAWS与Brill tagger, 而中文是中国科学院计算机技术研究所的汉语词法分析系统ICTCLAS. 诸位如何认为?

Parsers呢?
 
回复:最好的tagger与parser

以下是引用 jiji2006-5-3 1:46:37 的发言:
现成的taggers中,英文最好的是CLAWS与Brill tagger, 而中文是中国科学院计算机技术研究所的汉语词法分析系统ICTCLAS. 诸位如何认为?
Parsers呢?

不知道得出这个结论的依据是什么。另外,比较总得有个标准吧。
 
McEnery, T., Xiao, R., & Tono, Y. (2006) 指出 CLAWS is one of the best taggers, 曾用于BNC.

Brill tagger人气很高,可修改tagset, 免费。

关于Claws vs. Brill, 参见 http://torvald.aksis.uib.no/corpora/2001-3/0072.html
 
说是one of the best taggers,并没有说是the best one。为了避免无谓的争论,最好不要用“最好”这个词。真喜欢,可以说成 one of the best ,或者“笔者认为xxx是xxx时候最好的”......
 
Hi, buddy, we don't mean to challenge you here. But just a gentle reminder that it'd better not to make similar claims without sound proof.
 
I have been in the field of corpus linguistics for about 10 days, and just want to know which taggers and parsers are the chosen ones.

我刚才查了一下, International journal of corpus linguistics (2003-2005)只提到如下几个taggers:
CLAWS4 tagger
Template Tagger (developed by Pacey, Fligelstone,and Rayson 1997, a corrective phase for CLAWS)
Brill's tagger

汉语方面只提及Sinica tagger
 
回复: 最好的tagger与parser

brill tagger 在正确率上不到90%,而且不支持大文本操作。楼主可能没有处理过大文本吧,用brilltagger 。你可以实验下如果txt超过100k,再超过1m,你看看brilltagger如何?!一般文本需要切分。
claws4是收费软件,正确率97%左右,在卫乃兴的 语料库语言学应用中提到,在最新的某个方面的研究中,可以高达99.6%。所以二者根本不是一个档次上的东西。论坛上的很多老师我相信有claws4 没有人会去研究免费的。
 
Back
顶部