Chi-square的计算问题

今天读了一篇《CAUSE语义韵的对比研究》,作者用了卡平方论证中国学习者和本族语者的语义韵差异。其中一组数据见下:
消极(%) 中性(%) 积极(%)
CLEC 47.1 11.7 41.2
SBNC 82.4 13.7 3.9
作者的结论:"总之,在使用CAUSE与great(er, est)搭配时,中国英语学习者明显少用了消极语义韵 (X2=26.6,p<0.05) 多用了积极语义韵(X2=34.1, p<0.05),在使用中性语义韵时二者没有显著差异."
以前,我都是使用频次来计算Chi-Square的,而作者使用了百分比。为了验证是否能在SPSS中进行此种计算,我将这些数据输入SPSS,果然可以计算,但Pearson Chi-square的结果分别为26.750和39.754,和作者的不同。我有两个问题向大家请教:
1.为什么我的计算结果和作者的结果有差异?
2.使用百分比数据计算Chi-square比用频次计算有什么优点,这两种计算结果相同吗?我认为它们好像是一样的,因为百分比可以看成是一种频率,即100次里面出现了多少次,不知道这种看法是否正确。
万分感谢!
 
回复: Chi-square的计算问题

百分比体现的是normalized的frequency。
chi-square检验应用原始频率。因为计算时需要用到原始频率和语料库的大小(corpus size)。
 
回复: Chi-square的计算问题

非常感谢许博士的回答!我按照文章中的相关描述,找出了语料库容量和单词出现的原始频率,具体见下表,但计算结果和作者的有差异.我的结果分别为7.000和73.142,而作者的是26.6和34.1。不知道结果为什么有这么大的差异?
Corpus Size 消极 中性 积极
CLEC 1000000 8 2 7
SBNC 14000000 42 7 2
 
回复: Chi-square的计算问题

chi-sqaure 是受显著性水平影响的,p<0.05和0.01时得出的结果差异会比较大。
另外,再确认一下你输入数据时的row和column对不对。
 
回复: Chi-square的计算问题

谢谢许博士!我又验证了几次,发现了以下问题:
第一, 在这里不应用语料库的容量(corpus size),而应使用CAUSE的与great(er, est)时的原始频率,分别为17(CLEC)和51(SBNC)。如果用corpus size作对比,中国英语学习者明显多用了消极语义韵,和作者的结论相反。使用17和51作对比,CHI-SQUARE分别为8.160和15.410,在显著性上和作者的结果相同。
第二, 把两个参数中的任何一个输入COLUMN或ROW中,结果都是一样的,只是排列方式不同而已。
结论:作者应该是使用了百分比来计算CHI-SQUARE的,因为我通过这种方式计算的CHI-SQUARE结果(26.750和39.754)和作者的(26.6和34.1)最接近。不知我这个结论是否正确,请各位高手指教!谢谢!
 
回复: Chi-square的计算问题

忘了问了,你做之前weight cases了吗?
 
回复: Chi-square的计算问题

做了!DATA下的WEIGHT CASES!如果没有进行WEIGHT CASES时,CHISQUARE的值是0.000,显著性是1.000。 许博士,您好!如果您有时间,可以用我上面的数据重新计算一下CHI-SQUARE。谢谢!您也可以看看那篇论文,是北外和上海交大的两位老师写的,写的很好,拓展了语义韵的研究深度。
 
回复: Chi-square的计算问题

I think it is ok to use proportional data or normalised frequencies in a case like this, where chi-square or LL scores are computed on the basis of the normalised frequencies (or proportions) of different categories of semantic prosodies in different corpora - although it risks artificially reducing the significance value because of percentages (which can be viewed as frequencies normalised to a common base of 100). In another scenario where LL (or chi square) scores are based on corpus sizes (e.g. number of tokens) of corpora and the relevant features in those corpora, then normalised frequencies are supposed to be avoided - because chi square test has already taken care of differences in corpus sizes.
 
回复: Chi-square的计算问题

Dr. Xiao, I completely agree with you! Thanks! Yes, proportional data can be viewed as normalized frequencies on a basis of 100. I compared the two results, using the original frequency and proportional data respectivley. It was found that the significance values were the same althougth the chi-squares varied. I believe that it is much better to use the original frequency data in chi-square test, because the result is more convincing and reliable.
 
Back
顶部