近来在用brown语料库做词性标注,发现以下问题,请各位高手解疑:
q1:在brown语料库中,专门给"("和")"赋予了专门的标记,对于后续的处理有什么具体的作用吗?
q2:对于一些特殊的符号,好象没有专门的标记给予标注,比如:"{ } [ ] %"等,应该如何处理?
q3:通常我们认为布朗标记集有84个标记,但是其中的FW和TL,HL标记是赋在一般标记后面形成符合标记,这样标记的总数就大大增加,对于程序的复杂度也会增加,该如何处理?
下面为英文brown语料库介绍:
http://www.answers.com/topic/brown-corpus
q1:在brown语料库中,专门给"("和")"赋予了专门的标记,对于后续的处理有什么具体的作用吗?
q2:对于一些特殊的符号,好象没有专门的标记给予标注,比如:"{ } [ ] %"等,应该如何处理?
q3:通常我们认为布朗标记集有84个标记,但是其中的FW和TL,HL标记是赋在一般标记后面形成符合标记,这样标记的总数就大大增加,对于程序的复杂度也会增加,该如何处理?
下面为英文brown语料库介绍:
http://www.answers.com/topic/brown-corpus