文 文飞扬 2011-04-05 #1 各位高手,我用TreeTagger对CLEC的部分语料进行了词性赋码,得到了后缀为POS的文件,但是Antconc打不开这种类型的文件,我怎么通过正则表达式检索呢? 谢谢!
M mishacn 2011-04-07 #2 回复: 请教Antconc打开pos文件的问题 clec里面有元标记和错误标, 是不是会误导tree-tagger呀?另外,中国学生的语言与native speaker的语言不同,也会增加错误率?你不是要手工校对呀?工作量不小。 似乎tree-tagger用的是竖排格式。你不妨发个片断,大家研究一下。
回复: 请教Antconc打开pos文件的问题 clec里面有元标记和错误标, 是不是会误导tree-tagger呀?另外,中国学生的语言与native speaker的语言不同,也会增加错误率?你不是要手工校对呀?工作量不小。 似乎tree-tagger用的是竖排格式。你不妨发个片断,大家研究一下。
文 文飞扬 2011-04-07 #3 回复: 请教Antconc打开pos文件的问题 谢谢关注。经过几天的摸索,我已经通过正则表达式在editpad里面已经去掉了CLEC的所有赋码了。另外那个.pos文件可以用写字板或者记事本打开
M mishacn 2011-04-07 #4 回复: 请教Antconc打开pos文件的问题 好了,明白一些了。只是现在语料库到底是什么格式还是不清楚。纯文本文件也可以排列成各种格式,体现多种数据结构,所以要样本或者清晰的描述才知道如何检索。