请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

raynjnu · 2009-04-23

[FONT=宋体]对比某个或某类语言特征或形式在本族语者和学习者语料库中出现的频次，检验其差异是否显著会使用chi-square[FONT=宋体]检验，但是我不知道该如何计算。

[FONT=宋体]例如在Granger, S. 1998. Prefabricated Patterns in Advanced EFL Writing: Collocations and Formulae [A]. In A. P. Cowie (ed.), Phraseology: Theory, Analysis and Application [C]. Oxford: Oxford University Press, pp. 145-160.[FONT=宋体]一文对于本族语者和学习者所使用的强势词（amplifiers[FONT=宋体]，其中包含两类，最高程度词maximizers[FONT=宋体]和增强词[/FONT]boosters[FONT=宋体]）的形符（[/FONT]token[FONT=宋体]）数频次进行了对比，结果是：[/FONT]
NS NNS
Maximizers 106 150
Boosters 207 80 **
Total 313 230 **
(**[FONT=宋体]表示其差异具有显著性[/FONT])

[FONT=宋体]首先是对总体分布的差异性检验，即[/FONT]2*2[FONT=宋体]的连列表，[/FONT]SPSS[FONT=宋体]运算得出修正卡方值[/FONT]51.045[FONT=宋体]，[/FONT]df[FONT=宋体]为[/FONT]1[FONT=宋体]，[/FONT]P<0.01

[FONT=宋体]此外，[/FONT]Granger, S. [FONT=宋体]还对[/FONT]Maximizers[FONT=宋体]和[/FONT]Boosters[FONT=宋体]单独检验，因为单独检验时只有一行，无法做成[/FONT]SPSS[FONT=宋体]可以操作的[/FONT]2*2[FONT=宋体]的连列表。我参看了几本统计书，也没找到如何检验。有同学说可以使用两个数值的均数作为期望频率，这样我计算出的卡方值为：[/FONT]
Maximizers X2 =(106-128)2/128+(150-128) 2/128=7.5625[FONT=宋体]，大于[/FONT]df[FONT=宋体]为[/FONT]1[FONT=宋体]时[/FONT]0.01[FONT=宋体]显著性水平的临界值[/FONT]6.63[FONT=宋体]。[/FONT]
Boosters X2 =(207-143.5) 2/143.5+(80-143.4) 2/143.5=56.1986[FONT=宋体]，大于[/FONT]df[FONT=宋体]为[/FONT]1[FONT=宋体]时[/FONT]0.01[FONT=宋体]显著性水平的临界值[/FONT]6.63[FONT=宋体]。[/FONT]

[FONT=宋体]但是[/FONT]Granger, S. [FONT=宋体]的结果是[/FONT]Maximizers[FONT=宋体]差异不显著，[/FONT]Boosters[FONT=宋体]差异显著，与我得出的结论不同。[/FONT]

[FONT=宋体]然后我又按我同学的方法验证了濮建忠，[/FONT]2003[FONT=宋体]，英语词汇教学中的类连接、搭配及词块[/FONT][J][FONT=宋体]，《外语教学与研究》第[/FONT]6[FONT=宋体]期一文中关于动词[/FONT]reach [FONT=宋体]各个类联接上在[/FONT]CLEC[FONT=宋体]和[/FONT]Brown[FONT=宋体]中的使用分布情况：[/FONT]
CL EC Brown
[FONT=宋体]类联接[/FONT] [FONT=宋体]频数[/FONT] [FONT=宋体]百分比[/FONT] [FONT=宋体]频数[/FONT] [FONT=宋体]百分比[/FONT] x2 p
V n 65 86.67 79 85.87 0.01
V prep (n) 5 6.67 13 14.13 1.31
V to n 5 6.67 0 0 3.91 *
Total 75 100 92 100
[FONT=宋体]均得不出濮教授所给出的卡方值。于是我认为应该是同学说的这种计算方法有问题。[/FONT]

[FONT=宋体]那么请问对这种只比较两个数值的卡方检验应当怎样去做？这是我第一次在这里发贴，希望得到各位的帮助，万分感激。[/FONT]
[/FONT][/FONT][/FONT][/FONT][/FONT]

raynjnu · 2009-04-23

回复: 请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

[FONT=宋体]此外还有一组数据，也是在[/FONT]Granger, S. 1998. Prefabricated Patterns in Advanced EFL Writing: Collocations and Formulae [A]. In A. P. Cowie (ed.), Phraseology: Theory, Analysis and Application [C]. Oxford: Oxford University Press, pp. 145-160.[FONT=宋体]一文中．[/FONT]
[FONT=宋体]她对于本族语者和学习者所使用的强势词（包含最高程度词和增强词）的类符（[/FONT]type[FONT=宋体]）数频次进行了对比，结果是：[/FONT]
[FONT=宋体]　　　　　　[/FONT]NS [FONT=宋体]　　[/FONT]NNS
Maximizers [FONT=宋体]　　[/FONT]10 [FONT=宋体]　　[/FONT]10
Boosters [FONT=宋体]　　　[/FONT]65 　31 **
Total 　　 75 　41 **
(**[FONT=宋体]表示其差异具有显著性[/FONT])

[FONT=宋体]在考察总体分布的时候，我用[/FONT]SPSS 2*2[FONT=宋体]的连列表运算，得出修正卡方值[/FONT]1.562[FONT=宋体]，[/FONT]df[FONT=宋体]为[/FONT]1[FONT=宋体]，[/FONT]P>0.05[FONT=宋体]，但[/FONT]Granger, S[FONT=宋体]得出的结论是总体分布也有差异。难道说这时使用[/FONT]SPSS2*2[FONT=宋体]的连列表计算也不对吗？[/FONT]

[FONT=宋体]因为最近在论文中要使用卡方检验，我现在真的很苦恼、很困惑。恳请高人指点，谢谢！[/FONT]

nancy_1982 · 2009-04-26

回复: 请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

我也有这样的问题。能不能烦请老师指教一下。非常感谢。另外能不能创建一个语言研究中的统计学的版面呢？我们同学当中统计这块都不过关。这也一定会让论坛人气大增的。谢谢

xiaoz · 2009-04-26

回复: 请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

http://ucrel.lancs.ac.uk/llwizard.html

shidan1312 · 2009-04-26

http://ucrel.lancs.ac.uk/llwizard.html
这个网站是会用了，可是我把它的结果报告到我的论文中是不是也可以呢？因为我用SPSS的卡方不太会，感觉这个上手比较容易点。但是别人质疑起来它的可行性时也无言以对。

yiboyuntian · 2009-04-27

回复: 请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

我也有着相同的问题。我不知道如何将数据输入spss,呈现出自己所需的结果，结果不得不使用肖教授所提到的那个公式一样的表格计算出卡方值。固然很方便，只是现在还不知道如何解释？向高人请教，请不吝赐教。

laohong · 2009-04-27

回复: 请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

作者 yiboyuntian:
我也有着相同的问题。我不知道如何将数据输入spss,呈现出自己所需的结果，结果不得不使用肖教授所提到的那个公式一样的表格计算出卡方值。固然很方便，只是现在还不知道如何解释？向高人请教，请不吝赐教。

那个页面上不是有算法的公式和参考文献吗？

xiaoz · 2009-04-27

回复: 请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

Log-likelihood test (G2) is more reliable than chi-saure test (Dunning 1993). The result from the LL test is interpreted in the same way as for the chi-square test. The website also gives the critical values for different significance levels (see below). You can refer to nearly any corpus-based study, or Unit 6 "Making statistical claims" of Corpus-based Language Studies, for how to report your test results IN WORDS.

The higher the G2 value, the more significant is the difference between two frequency scores. For these tables, a G2 of 3.8 or higher is significant at the level of p < 0.05 and a G2 of 6.6 or higher is significant at p < 0.01.

95th percentile; 5% level; p < 0.05; critical value = 3.84
99th percentile; 1% level; p < 0.01; critical value = 6.63
99.9th percentile; 0.1% level; p < 0.001; critical value = 10.83
99.99th percentile; 0.01% level; p < 0.0001; critical value = 15.13

xujiajin · 2009-04-27

回复: 请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

Log-likelihood ratio calculator

http://www.corpus4u.org/showthread.php?p=28422

Using the Excel spreadsheet, you don't need to compare your LL values with the critical values at different significance levels.

This calculator is especially helpful and friendly for those who are more used to reading SPSS type of significance test results.

Instead of performing one test at a time, you can paste practically infinite number of data (with MS Excel 2007) for analysis.

nancy_1982 · 2009-04-27

回复: 请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

大恩不言谢,只愿各位老师心想事成,万事如意.

stream · 2009-09-07

回复: 请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

请问许博：
您的计算器上出现这样象下表中的would的情况应该怎么办？谢谢！

Word Freq. in Corpus 1 Freq. in Corpus 2 Log-likelihood Sig.
will 3 14 0.04 0.837
can 1 8 0.47 0.493
would 0 18 #NUM! #NUM!

xujiajin · 2009-09-07

回复: 请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

would 出现为0次，所以报错。

stream · 2009-09-07

回复: 请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

难道两个频数中有一个为0就无法对比吗？使用xiaozi提供的计算器是可以计算出频数为0的LL值的，请许博指教！

xujiajin · 2009-09-07

回复: 请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

你要是研究一下公式的就知道了，一个频数为0的话，LL的值为负的无穷大，因此是没有意义的。

打个比方，相当于说，我有5个苹果，因此我比0大。这个还要比吗？

在有些软件里，对0频数的情况做了人为的硬性处理，

Note: (thanks to Chris Brew) To form the log-likelihood, we calculate the sum over terms of the form x*ln(x/E). For strictly positive x it is easy to compute these terms, while if x is zero ln(x/E) will be negative infinity. However the limit of x*ln(x) as x goes to zero is still zero, so when summing we can just ignore cells where x = 0. Calculating ln(0) returns an error in, for example, MSExcel and the C-maths library.

http://ucrel.lancs.ac.uk/llwizard.html

stream · 2009-09-07

回复: 请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

你的意思我明白，那么如果某个语言特征有0频数，另外一个频数不管有多大，都没有对比的意义了，是吗？那么在报告结果时有没有必要声明删除这一特征的原因呢？

明明云云 · 2010-12-03

回复: 请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

作者 raynjnu:
[FONT=宋体]对比某个或某类语言特征或形式在本族语者和学习者语料库中出现的频次，检验其差异是否显著会使用chi-square[FONT=宋体]检验，但是我不知道该如何计算。

[FONT=宋体]例如在Granger, S. 1998. Prefabricated Patterns in Advanced EFL Writing: Collocations and Formulae [A]. In A. P. Cowie (ed.), Phraseology: Theory, Analysis and Application [C]. Oxford: Oxford University Press, pp. 145-160.[FONT=宋体]一文对于本族语者和学习者所使用的强势词（amplifiers[FONT=宋体]，其中包含两类，最高程度词maximizers[FONT=宋体]和增强词[/FONT]boosters[FONT=宋体]）的形符（[/FONT]token[FONT=宋体]）数频次进行了对比，结果是：[/FONT]
NS NNS
Maximizers 106 150
Boosters 207 80 **
Total 313 230 **
(**[FONT=宋体]表示其差异具有显著性[/FONT])

[FONT=宋体]首先是对总体分布的差异性检验，即[/FONT]2*2[FONT=宋体]的连列表，[/FONT]SPSS[FONT=宋体]运算得出修正卡方值[/FONT]51.045[FONT=宋体]，[/FONT]df[FONT=宋体]为[/FONT]1[FONT=宋体]，[/FONT]P<0.01

[FONT=宋体]此外，[/FONT]Granger, S. [FONT=宋体]还对[/FONT]Maximizers[FONT=宋体]和[/FONT]Boosters[FONT=宋体]单独检验，因为单独检验时只有一行，无法做成[/FONT]SPSS[FONT=宋体]可以操作的[/FONT]2*2[FONT=宋体]的连列表。我参看了几本统计书，也没找到如何检验。有同学说可以使用两个数值的均数作为期望频率，这样我计算出的卡方值为：[/FONT]
Maximizers X2 =(106-128)2/128+(150-128) 2/128=7.5625[FONT=宋体]，大于[/FONT]df[FONT=宋体]为[/FONT]1[FONT=宋体]时[/FONT]0.01[FONT=宋体]显著性水平的临界值[/FONT]6.63[FONT=宋体]。[/FONT]
Boosters X2 =(207-143.5) 2/143.5+(80-143.4) 2/143.5=56.1986[FONT=宋体]，大于[/FONT]df[FONT=宋体]为[/FONT]1[FONT=宋体]时[/FONT]0.01[FONT=宋体]显著性水平的临界值[/FONT]6.63[FONT=宋体]。[/FONT]

[FONT=宋体]但是[/FONT]Granger, S. [FONT=宋体]的结果是[/FONT]Maximizers[FONT=宋体]差异不显著，[/FONT]Boosters[FONT=宋体]差异显著，与我得出的结论不同。[/FONT]

[FONT=宋体]然后我又按我同学的方法验证了濮建忠，[/FONT]2003[FONT=宋体]，英语词汇教学中的类连接、搭配及词块[/FONT][J][FONT=宋体]，《外语教学与研究》第[/FONT]6[FONT=宋体]期一文中关于动词[/FONT]reach [FONT=宋体]各个类联接上在[/FONT]CLEC[FONT=宋体]和[/FONT]Brown[FONT=宋体]中的使用分布情况：[/FONT]
CL EC Brown
[FONT=宋体]类联接[/FONT] [FONT=宋体]频数[/FONT] [FONT=宋体]百分比[/FONT] [FONT=宋体]频数[/FONT] [FONT=宋体]百分比[/FONT] x2 p
V n 65 86.67 79 85.87 0.01
V prep (n) 5 6.67 13 14.13 1.31
V to n 5 6.67 0 0 3.91 *
Total 75 100 92 100
[FONT=宋体]均得不出濮教授所给出的卡方值。于是我认为应该是同学说的这种计算方法有问题。[/FONT]

[FONT=宋体]那么请问对这种只比较两个数值的卡方检验应当怎样去做？这是我第一次在这里发贴，希望得到各位的帮助，万分感激。[/FONT]
[/FONT][/FONT][/FONT][/FONT][/FONT]

这个困惑我也有，我想知道[FONT=宋体]濮教授的卡方是用哪些数据求得的？[/FONT]
[FONT=宋体]LL是只用于词的频率比较吗? 某个类联接的差异性如何检验，用哪几个数值啊？[/FONT]
[FONT=宋体]谢谢[/FONT]

volfer · 2010-12-03

回复: 请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

卡方检验并不仅仅适用于检验词频的差异显著性，只要是两类非连续性的数据，都可以拿来检验的。比如统计两类人对幸福感的评分，是否存在显著差异，也是可以拿卡方来检验的。同理，两类类连接的差异性也可以拿卡方来做。
很久没看过统计相关的书了，有说得不对的地方，请指出。

明明云云 · 2010-12-03

回复: 请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

作者 volfer:
卡方检验并不仅仅适用于检验词频的差异显著性，只要是两类非连续性的数据，都可以拿来检验的。比如统计两类人对幸福感的评分，是否存在显著差异，也是可以拿卡方来检验的。同理，两类类连接的差异性也可以拿卡方来做。
很久没看过统计相关的书了，有说得不对的地方，请指出。

那么，两类类连接的差异性用卡方做，具体在spss中输入哪几个数值呢？

seanxpq · 2010-12-03

回复: 请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

作者明明云云:
那么，两类类连接的差异性用卡方做，具体在spss中输入哪几个数值呢？

为啥你一定要用SPSS这个软件呢? 可能很多语料库研究者根本不用SPSS。实际上很多语料库软件都设计了相关功能生成SPSS也能计算的差异值或关键值之类。

记得论坛里有梁教授的LL / Chi square calculator,只需要输入SW在2个语料库中的频数和2个语料库的size即可。

请教一个关于语料库对比研究中的卡方检验的问题，请大家帮帮忙

raynjnu

raynjnu

nancy_1982

xiaoz

永远的超级管理员

shidan1312

yiboyuntian

laohong

管理员

xiaoz

永远的超级管理员

xujiajin

管理员

nancy_1982

stream

普通会员

xujiajin

管理员

stream

普通会员

xujiajin

管理员

stream

普通会员

明明云云

volfer

Moderator

明明云云

seanxpq

corpus explorer