B Brainstorming 2008-10-04 #2 认真阅读“Using Corpora for Language Research 用语料库研究语言”第三部分(特别是第十一章)你就清楚啦。CLAWS(Constituent Likelihood Automatic Word-tagging System)已经更新好几代了,每一代使用的Tagset附码集合不一样,也是为适应语料,特别是BNC标注的新需要。第一代POS标注准确率就达95-6%,最新的CLAWS5准确率就更高啦。标注一般要么是基于规则语法(rule-based),要么基于概率语法,要么是两者结合。CLAWS属于第二种情况。说到parsing 部分,有很多语法借鉴,主要有context-free structure grammar, dependency grammar, functional grammar,constraint grammar等。你可以访问这个链接:http://ucrel.lancs.ac.uk/claws/
认真阅读“Using Corpora for Language Research 用语料库研究语言”第三部分(特别是第十一章)你就清楚啦。CLAWS(Constituent Likelihood Automatic Word-tagging System)已经更新好几代了,每一代使用的Tagset附码集合不一样,也是为适应语料,特别是BNC标注的新需要。第一代POS标注准确率就达95-6%,最新的CLAWS5准确率就更高啦。标注一般要么是基于规则语法(rule-based),要么基于概率语法,要么是两者结合。CLAWS属于第二种情况。说到parsing 部分,有很多语法借鉴,主要有context-free structure grammar, dependency grammar, functional grammar,constraint grammar等。你可以访问这个链接:http://ucrel.lancs.ac.uk/claws/