文本文件被Treetagger处理之后,就变成了“word, tag, lemma”的形式,例如:“The Shadow of National Socialism and fascsim over Europe and its legal"被treetagger处理之后,就会变成下面的形式:
“
The DT the
Shadow NP Shadow
of IN of
National NP National
Socialism NN socialism
and CC and
Fascism NN fascism
over IN over
Europe NP Europe
and CC and
its PP$ its
Legal NP Legal
”
我之前一直用的是Perl来把去掉期中的word或者lemma或者tag的,今天看到这个帖子,我在想我是否可以用word来处理呢?请高人指点! 同时,还有其他的方法来处理这样的文本么??