词频统计中的问题

zyhope · 2007-05-23

关于中国学习者的语料库中的文本都有作了标记了，如，</interlocutor>,<\sp3>等，在统计的时候，索引软件好象也把它们当成一个一个词来计算，
请问这个问题怎么解决？特别是象colsec这类的语料库，光盘里都是已经标好了的材料了。
急需各位老师的帮助，谢谢！

清风出袖 · 2007-05-24

回复: 词频统计中的问题

在索引程序中有相关的按钮可以选中它，忽略它们的。