A asan82 高级会员 2011-08-11 #1 我在看一篇关于论文中语步的文章,里面用到了卡方检验 某语步在corpus A中出现12次,corpus B中4次, 两个语料库都有25篇论文。 数据是12/25,4/25,p=0.015. 我用论坛上提供的对数似然率计算器(许老师设计的),输入数据,发现SIG 0.041. 那么,怎么理解P值的不同?请教各位大侠。
我在看一篇关于论文中语步的文章,里面用到了卡方检验 某语步在corpus A中出现12次,corpus B中4次, 两个语料库都有25篇论文。 数据是12/25,4/25,p=0.015. 我用论坛上提供的对数似然率计算器(许老师设计的),输入数据,发现SIG 0.041. 那么,怎么理解P值的不同?请教各位大侠。
A asan82 高级会员 2011-08-20 #2 自己找到答案了 作者 xujiajin: log-likelihood ratio calculator里用的频数都是raw frequency,你上面的数据显然不是raw的,因为有小数(i.e. 224.45)。 另外,你提供的库容数据里550,000和193,000用的是全角逗号,如果你拷到Excel表里的也是这样的,那就有问题了。 一般情况下,用Chi-square和log likelihood检验显著性都是可以的,两者的数值上略有差异,但结论(即显著性)基本都是一致的。 Click to expand...
自己找到答案了 作者 xujiajin: log-likelihood ratio calculator里用的频数都是raw frequency,你上面的数据显然不是raw的,因为有小数(i.e. 224.45)。 另外,你提供的库容数据里550,000和193,000用的是全角逗号,如果你拷到Excel表里的也是这样的,那就有问题了。 一般情况下,用Chi-square和log likelihood检验显著性都是可以的,两者的数值上略有差异,但结论(即显著性)基本都是一致的。 Click to expand...