请问,如何判断学习者语料库中某个词的标准化频数与本族语标准化频数有显著差异

cathy

初级会员
#1
比如,在本族语语料库中regularly的标准化频数为16,在CLEC中为13,差数为3
本族语中generally为122,CLEC为141,差数为19
有什么标准来判断差数为多少是显著,多少是不显著吗?
 

laohong

管理员
Staff member
#2
You may want to try this question with Log-likelihood Calculator at:

http://ucrel.lancs.ac.uk/llwizard.html

Read the notes there to know what "statistical significance" means in terms of log-likelihood. Of course there are many other methods to calculate "statistical significance". Good luck!
 

cathy

初级会员
#3
非常感谢,我试了试,其实计算出一个词在两个语料库corpus1,corpus2中,每百万词中出现的频率即标准频率后,只要比较一下这两个数,就可以知道corpus1相对于corpus2,这个词是超用还是少用,跟log-likelihood计算的结果一样,可不以这样认为,请指教。
 

laohong

管理员
Staff member
#4
计算其实是不一样的。你说的方法有很多人使用,也有人折算成百分比来比较,作为简单比较尚可,但不能达到所谓的统计学要求,使用log-likelihood等统计方法而得到的结果会更有说服力些,也好唬弄外行。
 

xiaoz

永远的超级管理员
Staff member
#5
Normalisation is a simple way of comparing corpora of different sizes, but it is more reliable to to use inferential statistics such as chi-squared and log-likelihood tests.
 
顶部