词频统计中的问题

关于中国学习者的语料库中的文本都有作了标记了,如,</interlocutor>,<\sp3>等,在统计的时候,索引软件好象也把它们当成一个一个词来计算,
请问这个问题怎么解决?特别是象colsec这类的语料库,光盘里都是已经标好了的材料了。
急需各位老师的帮助,谢谢!
 
回复: 词频统计中的问题

在索引程序中有相关的按钮可以选中它,忽略它们的。
 
Back
顶部