Z zyhope 2007-05-23 #1 关于中国学习者的语料库中的文本都有作了标记了,如,</interlocutor>,<\sp3>等,在统计的时候,索引软件好象也把它们当成一个一个词来计算, 请问这个问题怎么解决?特别是象colsec这类的语料库,光盘里都是已经标好了的材料了。 急需各位老师的帮助,谢谢!
关于中国学习者的语料库中的文本都有作了标记了,如,</interlocutor>,<\sp3>等,在统计的时候,索引软件好象也把它们当成一个一个词来计算, 请问这个问题怎么解决?特别是象colsec这类的语料库,光盘里都是已经标好了的材料了。 急需各位老师的帮助,谢谢!