请教:如何使用TOSCA-LOB tagger 标注后,文本仍然是原来的结构?
最近使用TOSCA-LOB tagger 对一段文本进行词性标注,标注后发现此标注是以句子为单位进行的,从而打破了原来的段落结构,请保问如何保持原来的段落,就是经过词性标注后只是增加词性符码就可以了.
如下面一段语料:
Beverage firm offers pea-flavored soda. After introducing the world to new soda flavors like fish taco and salmon, Seattle specialty beverage maker Jones Soda Co. is offering a new flavor: Green pea.
用TOSCA-LOB tagger标注后,用肖博士提供的格式整理工具可得到如下文本:
<s>
Beverage_NN firm_NN offers_VBZ pea-flavored_HEUR soda</w>._NN
</s>
<s>
After_SPER introducing_VBG the_ATI world_NN to_TO new_JJ soda_NN flavors_NNS like_IN fish_NNS taco_HEUR and_CC salmon_NN ,_SCOM Seattle_NP specialty_NN beverage_NN maker_NN Jones_NP Soda_NN Co._HEUR is_BEZ offering_NNP a_AT new_JJ flavor</w>:_NN Green_SCOL pea_NN .
</s>
当然通过句子合并和替换后可以得到如下文本,但我希望自动得到(便于大规模处理文本)
Beverage_NN firm_NN offers_VBZ pea-flavored_HEUR soda</w>._NN After_SPER introducing_VBG the_ATI world_NN to_TO new_JJ soda_NN flavors_NNS like_IN fish_NNS taco_HEUR and_CC salmon_NN ,_SCOM Seattle_NP specialty_NN beverage_NN maker_NN Jones_NP Soda_NN Co._HEUR is_BEZ offering_NNP a_AT new_JJ flavor</w>:_NN Green_SCOL pea_NN .
谢谢!