D daiyuwen 2009-08-12 #1 我先用汉语词语分割软件,再用Textprocessing软件处理中文txt文本,为什么词频统计的结果不一致而且出现错误?如《阿Q正传》中“未庄”词条在第1-3章,第7-9都是分开出现的,即“未”、“庄”被视为两个字,而在第4-6章中“未”和“庄”分别出现9次和8次,作为词组出现10次,且“未”在第1-3章出现8次,“庄”10次但实际两字出现了12次;请问是何原因?谢谢!
我先用汉语词语分割软件,再用Textprocessing软件处理中文txt文本,为什么词频统计的结果不一致而且出现错误?如《阿Q正传》中“未庄”词条在第1-3章,第7-9都是分开出现的,即“未”、“庄”被视为两个字,而在第4-6章中“未”和“庄”分别出现9次和8次,作为词组出现10次,且“未”在第1-3章出现8次,“庄”10次但实际两字出现了12次;请问是何原因?谢谢!