[FONT=宋体]对比某个或某类语言特征或形式在本族语者和学习者语料库中出现的频次,检验其差异是否显著会使用chi-square[FONT=宋体]检验,但是我不知道该如何计算。
[FONT=宋体]例如在Granger, S. 1998. Prefabricated Patterns in Advanced EFL Writing: Collocations and Formulae [A]. In A. P. Cowie (ed.), Phraseology: Theory, Analysis and Application [C]. Oxford: Oxford University Press, pp. 145-160.[FONT=宋体]一文对于本族语者和学习者所使用的强势词(amplifiers[FONT=宋体],其中包含两类,最高程度词maximizers[FONT=宋体]和增强词[/FONT]boosters[FONT=宋体])的形符([/FONT]token[FONT=宋体])数频次进行了对比,结果是:[/FONT]
NS NNS
Maximizers 106 150
Boosters 207 80 **
Total 313 230 **
(**[FONT=宋体]表示其差异具有显著性[/FONT])
[FONT=宋体]首先是对总体分布的差异性检验,即[/FONT]2*2[FONT=宋体]的连列表,[/FONT]SPSS[FONT=宋体]运算得出修正卡方值[/FONT]51.045[FONT=宋体],[/FONT]df[FONT=宋体]为[/FONT]1[FONT=宋体],[/FONT]P<0.01
[FONT=宋体]此外,[/FONT]Granger, S. [FONT=宋体]还对[/FONT]Maximizers[FONT=宋体]和[/FONT]Boosters[FONT=宋体]单独检验,因为单独检验时只有一行,无法做成[/FONT]SPSS[FONT=宋体]可以操作的[/FONT]2*2[FONT=宋体]的连列表。我参看了几本统计书,也没找到如何检验。有同学说可以使用两个数值的均数作为期望频率,这样我计算出的卡方值为:[/FONT]
Maximizers X2 =(106-128)2/128+(150-128) 2/128=7.5625[FONT=宋体],大于[/FONT]df[FONT=宋体]为[/FONT]1[FONT=宋体]时[/FONT]0.01[FONT=宋体]显著性水平的临界值[/FONT]6.63[FONT=宋体]。[/FONT]
Boosters X2 =(207-143.5) 2/143.5+(80-143.4) 2/143.5=56.1986[FONT=宋体],大于[/FONT]df[FONT=宋体]为[/FONT]1[FONT=宋体]时[/FONT]0.01[FONT=宋体]显著性水平的临界值[/FONT]6.63[FONT=宋体]。[/FONT]
[FONT=宋体]但是[/FONT]Granger, S. [FONT=宋体]的结果是[/FONT]Maximizers[FONT=宋体]差异不显著,[/FONT]Boosters[FONT=宋体]差异显著,与我得出的结论不同。[/FONT]
[FONT=宋体]然后我又按我同学的方法验证了濮建忠,[/FONT]2003[FONT=宋体],英语词汇教学中的类连接、搭配及词块[/FONT][J][FONT=宋体],《外语教学与研究》第[/FONT]6[FONT=宋体]期一文中关于动词[/FONT]reach [FONT=宋体]各个类联接上在[/FONT]CLEC[FONT=宋体]和[/FONT]Brown[FONT=宋体]中的使用分布情况:[/FONT]
CL EC Brown
[FONT=宋体]类联接[/FONT] [FONT=宋体]频数[/FONT] [FONT=宋体]百分比[/FONT] [FONT=宋体]频数[/FONT] [FONT=宋体]百分比[/FONT] x2 p
V n 65 86.67 79 85.87 0.01
V prep (n) 5 6.67 13 14.13 1.31
V to n 5 6.67 0 0 3.91 *
Total 75 100 92 100
[FONT=宋体]均得不出濮教授所给出的卡方值。于是我认为应该是同学说的这种计算方法有问题。[/FONT]
[FONT=宋体]那么请问对这种只比较两个数值的卡方检验应当怎样去做?这是我第一次在这里发贴,希望得到各位的帮助,万分感激。[/FONT]
[/FONT][/FONT][/FONT][/FONT][/FONT]
[FONT=宋体]例如在Granger, S. 1998. Prefabricated Patterns in Advanced EFL Writing: Collocations and Formulae [A]. In A. P. Cowie (ed.), Phraseology: Theory, Analysis and Application [C]. Oxford: Oxford University Press, pp. 145-160.[FONT=宋体]一文对于本族语者和学习者所使用的强势词(amplifiers[FONT=宋体],其中包含两类,最高程度词maximizers[FONT=宋体]和增强词[/FONT]boosters[FONT=宋体])的形符([/FONT]token[FONT=宋体])数频次进行了对比,结果是:[/FONT]
NS NNS
Maximizers 106 150
Boosters 207 80 **
Total 313 230 **
(**[FONT=宋体]表示其差异具有显著性[/FONT])
[FONT=宋体]首先是对总体分布的差异性检验,即[/FONT]2*2[FONT=宋体]的连列表,[/FONT]SPSS[FONT=宋体]运算得出修正卡方值[/FONT]51.045[FONT=宋体],[/FONT]df[FONT=宋体]为[/FONT]1[FONT=宋体],[/FONT]P<0.01
[FONT=宋体]此外,[/FONT]Granger, S. [FONT=宋体]还对[/FONT]Maximizers[FONT=宋体]和[/FONT]Boosters[FONT=宋体]单独检验,因为单独检验时只有一行,无法做成[/FONT]SPSS[FONT=宋体]可以操作的[/FONT]2*2[FONT=宋体]的连列表。我参看了几本统计书,也没找到如何检验。有同学说可以使用两个数值的均数作为期望频率,这样我计算出的卡方值为:[/FONT]
Maximizers X2 =(106-128)2/128+(150-128) 2/128=7.5625[FONT=宋体],大于[/FONT]df[FONT=宋体]为[/FONT]1[FONT=宋体]时[/FONT]0.01[FONT=宋体]显著性水平的临界值[/FONT]6.63[FONT=宋体]。[/FONT]
Boosters X2 =(207-143.5) 2/143.5+(80-143.4) 2/143.5=56.1986[FONT=宋体],大于[/FONT]df[FONT=宋体]为[/FONT]1[FONT=宋体]时[/FONT]0.01[FONT=宋体]显著性水平的临界值[/FONT]6.63[FONT=宋体]。[/FONT]
[FONT=宋体]但是[/FONT]Granger, S. [FONT=宋体]的结果是[/FONT]Maximizers[FONT=宋体]差异不显著,[/FONT]Boosters[FONT=宋体]差异显著,与我得出的结论不同。[/FONT]
[FONT=宋体]然后我又按我同学的方法验证了濮建忠,[/FONT]2003[FONT=宋体],英语词汇教学中的类连接、搭配及词块[/FONT][J][FONT=宋体],《外语教学与研究》第[/FONT]6[FONT=宋体]期一文中关于动词[/FONT]reach [FONT=宋体]各个类联接上在[/FONT]CLEC[FONT=宋体]和[/FONT]Brown[FONT=宋体]中的使用分布情况:[/FONT]
CL EC Brown
[FONT=宋体]类联接[/FONT] [FONT=宋体]频数[/FONT] [FONT=宋体]百分比[/FONT] [FONT=宋体]频数[/FONT] [FONT=宋体]百分比[/FONT] x2 p
V n 65 86.67 79 85.87 0.01
V prep (n) 5 6.67 13 14.13 1.31
V to n 5 6.67 0 0 3.91 *
Total 75 100 92 100
[FONT=宋体]均得不出濮教授所给出的卡方值。于是我认为应该是同学说的这种计算方法有问题。[/FONT]
[FONT=宋体]那么请问对这种只比较两个数值的卡方检验应当怎样去做?这是我第一次在这里发贴,希望得到各位的帮助,万分感激。[/FONT]
[/FONT][/FONT][/FONT][/FONT][/FONT]
Last edited: