回复: 求助标准频数问题
这个100,000或者10,000不是固定的。标准频率的计算便于不同库容的语料库之间,同一搜索词出现频率的比较。
比如语料库A的库容是1,230,000,语料库B库容是1,160,000. 某个搜索词在A中出现的频率是1000,那么它的标准频率可以这样算 (1000/1230000)*1000000=813
搜索词在B中出现频率是899,那么换算成标准频率就是 (899/1160000)*1000000=775
由此可见,搜索词在A中的出现的比例比在B中高. 以上计算是以百万作为标准库容.