在有些文章中会看到某些词性标注软件标注后的正确率,但是对于正确率计算语焉不详,请问具体应该如何计算?取出来一部分标注后样本,而后人工检验,而后利用文本长度和样本长度进行推断么?记得很早前我曾经问过,但是帖子搜索不到了,所以另开了一帖,请方家赐教。个人感觉,某一词性标注软件的正确率会因为文本类型,体量而有所变化,是不是说每次利用某一个词性标注软件进行不同文体标注后都要进行计算。
正确率计算出来后,是否要人工矫正不对的文本?如果是体量很大的文本,人工矫正词性会很麻烦,有无能自动识别标错词性的文本部分,使得词性标注后修改的工作更加简便些的方法呢?
谢谢,请不吝赐教。
这个问题很有意思。现在词性标注准确率号称达到97%。但这是按词来算的,如果按句子来算,准确率会大大降低。
有一篇文章讨论了这个问题 http://nlp.stanford.edu/pubs/CICLing2011-manning-tagging.pdf
提供一个思路,是否可以用不同的Tagger(如Stanford Tagger, OpenNLp Tagger, TreeTagger, CLAWS)一起标语料,然后找到其中不一样的标注,可能会是错误呢?
每一种标注器的标注集都不完一样,怎么对比,首先你得确定不同标注集之间的是否完全对应,对于一些交叉、包含现象怎么归类?
这些召回率或准确率的计算应该受训练数据集和测试数据集代表性的影响比较大。
我的意思:
1. 采用不同标注器的标注集大小、内容不尽相同,比较起来有难度。
2. 你的理解没错, 标注器训练语料越大、越均衡,得出的标注准确率才更具有代表性。但即便如此,应用到不同语料标注,依然会有出入,有时还很大。
你现在怎么研究这个了?
就是想知道----傻根儿语 天下无贼
但是比较大的电子文本处理后怎么计算基于某一tagger 的准确率呢?取样本标注后人工检查而后计算?具体步骤呢?谢谢,hittle。
就词性标注而言,我的理解的计算方法为:
precision= 正确标注数/所有标注(该赋码)数
recall=正确标注数/(正确标注数+未标注但属于该赋码类型数)
补充一下:以上数目肯定是取样人工校对了
中文期刊网上应该 有类似文章,下载一篇 看看,如果我说的不对,顺便 告诉我一声。