哪位知道清华大学SEGTAG分词标注系统中的附码的含义?

#1
“谁/r 是/v(r-v) 我们/r 的/u(Dg-Ng-u) 敌人/n ?/w 谁/r 是/v(r-v) 我们/r 的/u(Dg-Ng-u) 朋友/n ?/w 这个/r 问题/n 是/v(r-v) 革命/a(a-v) 的/u(Dg-Ng-u) 首要/b 问题/n 。/w 中国/ns 过去/v(t-v) 一切/r 革命/v(a-v) 斗争/v 成效/n 甚/Dg(Dg-Rg-Vg) 少/a(a-Ag-d-Ng-v) ,/w 其/r(Ng-r-u) 基本/a(a-n) 原因/n 就/d(c-d-p-v) 是/v(r-v) 因为/c(c-p) 不/d 能/v(Ng-v) 团结/v(a-v) 真正/d(b-d) 的/u(Dg-Ng-u) 朋友/n ,/w 以/p(h-j-p) 攻击/v 真正/d(b-d) 的/u(Dg-Ng-u) 敌人/n 。”
以上是用清华大学SEGTAG分词标注系统对一个文本进行分词的片断,哪位知道这些标注的具体规范和含义么? 烦请告知。
 
#3
回复: 哪位知道清华大学SEGTAG分词标注系统中的附码的含义?

昨天盯着这些标注看了几遍,突然发现了点规律,如果没猜错的话,斜杠后面的码表示该词在该句中的词性,而括号里面的表示该词所有可能的词性。
 

Haiyang Ai

Administrator
Staff member
#4
为什么需要将词语的所有可能的词性都放进去呢?很多语料的标记都不是这样的,如果要查询,可以单独放到一个文件里,不是吗?
 

xiaoz

永远的超级管理员
Staff member
#5
回复: 哪位知道清华大学SEGTAG分词标注系统中的附码的含义?

The tag following the back slash / is what the tagger "thinks" is the most likely word class of the word (based on probability), while whose in the brackets are less likley tags for the word. This is only necessary to help human annotator in the post-editing (correction) process.
 
#6
回复: 哪位知道清华大学SEGTAG分词标注系统中的附码的含义?

The tag following the back slash / is what the tagger "thinks" is the most likely word class of the word (based on probability), while whose in the brackets are less likley tags for the word. This is only necessary to help human annotator in the post-editing (correction) process.
It sounds persuasive!
 
顶部