请教log-likelihood ratio 与chi-square的结果一致性问题

大家好,这个问题困扰我几天了,只好又要麻烦各位老师指教了。
我在做硕士论文,在检验两个频率是否有显著差异时,采用的是计算log-likelihood ratio值的办法,使用的是log-likelihood ratio calculator ,但是我发现有时结果与卡方检验不一致。下面举个例子来说明:
在《语料库语言学导论》第245页,语料库A约550,000词语料库B约193,000词,两个语料库中的名词的标准频率(千分率)分别为语料库A264,语料库B224.45.
通过计算卡方值,书上显示说这两个语料库中名词出现的频率没有显著差异。


然而,为了验证此结果与log-likelihood ratio calculator 的结果是否一致,我把名词的标准频率(千分率)分别为语料库A264,语料库B224.45还原成实际观测次数分别为语料库A145200,语料库B43319.然后用log-likelihood ratio calculator 计算得
 Corpus Size 1550000Corpus Size 2193000         WordFreq. in Corpus 1Freq. in Corpu145200 43319 log-likelihood ratio =904.33 0.000 ***+

根据表显示两者差异非常显著。

这到低是怎么回事呢?在论文中是否可直接用log-likelihood,还是我使用log-likelihood calculator有误,肯求高手指教。
非常感谢您给予的任何帮助,占用您的时间很抱歉。
 
回复: 请教log-likelihood ratio 与chi-square的结果一致性问题

log-likelihood ratio calculator里用的频数都是raw frequency,你上面的数据显然不是raw的,因为有小数(i.e. 224.45)。

另外,你提供的库容数据里550,000和193,000用的是全角逗号,如果你拷到Excel表里的也是这样的,那就有问题了。

一般情况下,用Chi-square和log likelihood检验显著性都是可以的,两者的数值上略有差异,但结论(即显著性)基本都是一致的。
 
回复: 请教log-likelihood ratio 与chi-square的结果一致性问题

请教语料库语言学大侠们:本人硕士论文及答辩已经顺利结束,毕业证与学位证也如愿以偿地拿到手里,然而,本人还就以为答辩委员的一个问题耿耿于怀,请教:例如,我们欲对比一个native corpus和一个learner corpus里面的某一个语言现象使用的异同,如我们对比连接性副词使用的情况。我们用wordsmith将两个语料库concord一下,得出各自的连接性副词使用频率,然后用方差检验检验两者之间是否有显著差异,然后得出结论。我的辩委的问题(也是我的疑问)是:每一个人写作都有各自具体的语境,是否使用连接性副词一由该作者的语言能力决定,二由具体的语境决定。仅凭这样一种手段,就得出这样的一个结论,是否太physical or mechanical了?我辩解了,但是还是觉得无法击中要害。各位,如何看待这个问题?
 
回复: 请教log-likelihood ratio 与chi-square的结果一致性问题

答辩老师问得是有道理的。

You can't overclaim based on your analysis on connectives alone.
 
回复: 请教log-likelihood ratio 与chi-square的结果一致性问题

非常感谢许博士在百忙之中给与的帮助。有可能是我没有说清楚:

[FONT=宋体]原有:语料库[/FONT]A总词量[FONT=宋体]约[/FONT]550000[FONT=宋体]词[/FONT][FONT=宋体],[/FONT][FONT=宋体]语料库[/FONT]B总词量[FONT=宋体]约[/FONT]193000[FONT=宋体]词,[FONT=宋体]两个语料库中的[/FONT][FONT=宋体]名[/FONT][/FONT]
[FONT=宋体][FONT=宋体][/FONT][/FONT]
[FONT=宋体][FONT=宋体]词的标[/FONT][/FONT][FONT=宋体][FONT=宋体]准频率(千分率)分别为语料库[/FONT]A 264[FONT=宋体],语料库[/FONT]B 224.45.然后计算了卡方值表明两个[/FONT]
[FONT=宋体][/FONT]
[FONT=宋体]语料库的名词频率不存在显著差异。[/FONT]
[FONT=宋体][/FONT]
[FONT=宋体][/FONT]
[FONT=宋体][/FONT]
[FONT=宋体][/FONT]
[FONT=宋体]而我自己想验证一下log-likelihood ratio 是否与卡方值一样,做了如下工作:[/FONT]
[FONT=宋体][/FONT]
[FONT=宋体][FONT=宋体]我把名词的标准频率(千分率)分别[FONT=宋体]还原成实际观测次数也就是raw frequency 分别[/FONT][/FONT][/FONT]
[FONT=宋体][FONT=宋体][FONT=宋体][/FONT][/FONT][/FONT]
[FONT=宋体][FONT=宋体][FONT=宋体]为语料库A 145200[FONT=宋体],语[/FONT][/FONT][/FONT][/FONT][FONT=宋体][FONT=宋体][FONT=宋体]料库B 43319.[FONT=宋体]然后用 [/FONT]log-likelihood ratio calculator [FONT=宋体]计算[/FONT][/FONT][/FONT][/FONT]
[FONT=宋体][FONT=宋体][FONT=宋体][/FONT][/FONT][/FONT]
[FONT=宋体][FONT=宋体][FONT=宋体]得log-likelihood ratio =904.33,结果为差异显著。[/FONT][/FONT][/FONT]
[FONT=宋体][FONT=宋体][FONT=宋体][/FONT][/FONT][/FONT]
[FONT=宋体][FONT=宋体][FONT=宋体][FONT=宋体]这到低是怎么回事呢?敬请各位老师指点迷经。。。。。。[/FONT][/FONT][/FONT][/FONT]
 
回复: 请教log-likelihood ratio 与chi-square的结果一致性问题

Please tell us how you did you chi-square test.
 
回复: 请教log-likelihood ratio 与chi-square的结果一致性问题

许老师,您好。上面说的那个例子是杨惠中《语料库语言学导论》一书中的[FONT=宋体]第[/FONT]246[FONT=宋体]页[/FONT]

书中给出语料库总词量和标准频数之后,没有给出详细的计算过程,最后只给出结果说

名词使用频率在两个语料库中没有显著差异。我并没有自己计算,想着是书上的例子。

是不是我的实际观测频数计算错了。我是这样计算的:

[FONT=宋体]因为名词标准频率(千分率)分别为语料库[/FONT]A 264[FONT=宋体],语料库[/FONT]B 224.45
设语料库A的实际观测频数X
X / 550000=264/1000 所以X=14520

同样的办法得出[FONT=宋体]语料库[/FONT]B的实际观测频数=43319.
然后把语料库总量和实际观测频数分别输入到log-likelihood ratio calculator,就得到了log-likelihood 值。

您说我的计算方法对吗? 衷心感谢您的指点。
 
回复: 请教log-likelihood ratio 与chi-square的结果一致性问题

的确,做卡方检验是一个比较复杂的工作。我问了几位已经是教授、副教授的老师,都不能做出满意的答复。类连结表(Contigency Table)的制作本身就是一个问题。后来,我自己看了一些类似的论文及做法,做出了两个语料库里连接性副词使用情况的总的卡方检验,然后用本论坛里大侠提供的那个公式做出各组词的卡方值,至于原理,真是不明其理。真的,我觉得机械地对比两个语料库里某一语言现象的使用频率,用统计的方式进行处理,而没有具体考虑该语言现象使用的具体语境,真是一件荒唐的事情。请各位大侠指点释疑。
 
回复: 请教log-likelihood ratio 与chi-square的结果一致性问题

我也来提一个类似问题:《语料库语言学导论》P161
词的频数 文本长度 总和
被研究文本 10 1000 1010
参照语料库 1 10000 100001

书中介绍卡方值X2=78.4 。 如果将被研究文本的长度标准化为10000的话,那词频相应改为100.这个时候,再算卡方值即变为94. 这是为什么呢?

我想nancy1982的问题应该是:
当按照标准化的文本长度,也就是1000来计算卡方的话,公式是:
264 1000 1264
224.45 1000 1224.45
这时的卡方值X2=2.41

当按照raw frequency 来计算卡方时候,公式是:
145200 550000 695200
43319 193000 236319
这时的卡方值X2=713 有显著性P<0.000001
 
Last edited:
回复: 请教log-likelihood ratio 与chi-square的结果一致性问题

的确,做卡方检验是一个比较复杂的工作。我问了几位已经是教授、副教授的老师,都不能做出满意的答复。类连结表(Contigency Table)的制作本身就是一个问题。后来,我自己看了一些类似的论文及做法,做出了两个语料库里连接性副词使用情况的总的卡方检验,然后用本论坛里大侠提供的那个公式做出各组词的卡方值,至于原理,真是不明其理。真的,我觉得机械地对比两个语料库里某一语言现象的使用频率,用统计的方式进行处理,而没有具体考虑该语言现象使用的具体语境,真是一件荒唐的事情。请各位大侠指点释疑。

有道理。要比较也可以,前提是两个语料在库容,结构等方面具有可比性。
 
回复: 请教log-likelihood ratio 与chi-square的结果一致性问题

许老师,您好。上面说的那个例子是杨惠中《语料库语言学导论》一书中的[FONT=宋体]第[/FONT]246[FONT=宋体]页[/FONT]

书中给出语料库总词量和标准频数之后,没有给出详细的计算过程,最后只给出结果说

名词使用频率在两个语料库中没有显著差异。我并没有自己计算,想着是书上的例子。

是不是我的实际观测频数计算错了。我是这样计算的:

[FONT=宋体]因为名词标准频率(千分率)分别为语料库[/FONT]A 264[FONT=宋体],语料库[/FONT]B 224.45
设语料库A的实际观测频数X
X / 550000=264/1000 所以X=14520

同样的办法得出[FONT=宋体]语料库[/FONT]B的实际观测频数=43319.
然后把语料库总量和实际观测频数分别输入到log-likelihood ratio calculator,就得到了log-likelihood 值。

您说我的计算方法对吗? 衷心感谢您的指点。


X / 550000=264/1000 所以X=14520
应该是145200
 
回复: 请教log-likelihood ratio 与chi-square的结果一致性问题

杨慧中的算法可能是:因为是以1000为单位的标准频率,A库的频率为264,B库的频率为224.45.带入Log-likelihood calculator,得到LL Score 3.21.这在P<0.05时,没有达到显著性差异(3.84)。
 
回复: 请教log-likelihood ratio 与chi-square的结果一致性问题

杨慧中的算法可能是:因为是以1000为单位的标准频率,A库的频率为264,B库的频率为224.45.带入Log-likelihood calculator,得到LL Score 3.21.这在P<0.05时,没有达到显著性差异(3.84)。

杨惠中
 
回复: 请教log-likelihood ratio 与chi-square的结果一致性问题

有道理。要比较也可以,前提是两个语料在库容,结构等方面具有可比性。
hancunxin版主说的有一定的道理。但是我们的现实是:我们从各种资源上下载若干资料作为一个语料库,又选取中国学生的写作作为两个语料库,然后进行对比,真是毫无边际。众多的语料库专家都认为语料库里资源的可比性是一个至关重要的参数。我们能否设计出一些指标,藉此来说明两者的可比性呢?尽管这样做,仍然摆脱不了机械、片面、绝对对比之嫌,但至少有了一些可操作性的东西。大家能否就这些指标展开讨论呢?
 
回复: 请教log-likelihood ratio 与chi-square的结果一致性问题

hancunxin版主说的有一定的道理。但是我们的现实是:我们从各种资源上下载若干资料作为一个语料库,又选取中国学生的写作作为两个语料库,然后进行对比,真是毫无边际。众多的语料库专家都认为语料库里资源的可比性是一个至关重要的参数。我们能否设计出一些指标,藉此来说明两者的可比性呢?尽管这样做,仍然摆脱不了机械、片面、绝对对比之嫌,但至少有了一些可操作性的东西。大家能否就这些指标展开讨论呢?

我也一直在思考这个问题。基于语料库的研究以及对比研究,都离不开语料库。因此,语料库是关键。基于语料库的研究要注意语料的代表性和适合性问题。比如,研究中国学习者的语言特点所选的语料库必须能够代表中国学习者;研究学术英语特点,必须选择语料库中的学术英语部分。总之,语料库容越大,样本抽样越广语料库代表性越强。对比研究,除了注意语料库的代表性问题以外,还要注意可比性问题。个人觉得,语料库库容相当,语料来源相似的语料库才可以拿来比较。 建立在不具有代表性的语料库或者不代表某类研究人群的语料库基础之上的研究,以及建立在不具有可比性语料库的对比研究都是空中楼阁,具有一定的误导性。
建议:1.参看语料库专家如Sinclair,Biber, Granger等在做对比研究时,是如何选择对比语料库的。至于中英语料库对比,看看中国的一些著名学者是如何选择对比语料库的,或者说选择哪两种语料库比较适合做哪种对比研究也要弄清楚。
2. 在语料库建设中,多“仿制”国外著名语料库,即,借鉴他们的建库原则,组织结构,抽样方法,文本构成,文本长度等关键环节。这样“仿制”出来的中国制造的语料库与国外著名语料库之间具有了很高的可比性。国外的一些语料库,为了进行对比研究也都纷纷仿制,如著名的:BROWN&LOB(两者建库原则一样,建库的目的是进行美国英语和英国英语的对比),
还有FROWN&FLOB
 
回复: 请教log-likelihood ratio 与chi-square的结果一致性问题

谢谢大家的帮助,我在网上找到了一个卡方检验计算器1.61,这个使用起来很方便。然

后我用Log-likelihood calculator 和卡方检验计算器验证了20几组数据求Sig.值,结

果显示的是否有差异是一样的。大家可以去网上下载试试,不过是试用版。
 
回复: 请教log-likelihood ratio 与chi-square的结果一致性问题

谢谢大家的指点。我在网上找到了个卡方检验计算器1.61很好用。并计算了20几组数据,显示与log-likelihood计算得出的结果一样。大家可以去下载试试。
 
回复: 请教log-likelihood ratio 与chi-square的结果一致性问题

hancunxin版主言之有理。所以论坛前面有人提供了几个下载外国学生学术论文的网站,鼓励大家自己下载论文制作自己的语料库的想法是不错的,执行起来需非常谨慎。另外,欧、美、澳的大学里有很多的international students,如中国学生,他起了一个纯洋名字,你如何将他与真正的本民族语者区分开来,这也是一个问题,毕竟我们不能像片警那样去查户口。
 
Back
顶部