最近在对文本进行标注,主要是进行词形转换的标注,至今没有找到很方便的方法(一次能处理大小在1M以上的TXT文本)。看到的李亮博士给的方法,即用Treetagger无限制本地增强版,但我一个900kb的小说文本,用这个增强版网页处理还是显示too many words,不得不分批完成。现在词形转换的标注完成了,但是我想去掉原来的单词和下划线,仅保留转换后的单词组成一个完整的文本。即想把图片1的文本变成图片2的效果,请问有没有什么方法。另外,有没有比Treetagger增强版更强大的方法能处理1M以上的TXT文本?
图片1