[求助]SARA中的Z-score怎么跟其它方法算出来的不一样？

xiaoz · 2005-10-09

the threshold value is independent of window span. A z score above 3.0 should be significant.

ibid · 2005-10-09

C1=10 C2=100 N=80 S=10 CS=100,000
Z=6.42223128

C1=10 C2=100 N=80 S=6 CS=100,000
Z=8.79039915

我做了个小小的对比，如果将S从10换作6的话，Z值是不一样的哦！真不好意思，搞不清楚这个问题我实在是没办法选取搭配词进行研究，或者是有可能排除一些有研究价值的搭配词。麻烦你多给我讲讲了！

xiaoz · 2005-10-10

There are many discussions of collocation statistics at this site. Search for the relevant postings.

动态语法 · 2005-10-10

回复：[求助]SARA算出来的Z-score怎么跟我用其它方法算出来的不一样？

以下是引用 ibid 在 2005-10-9 23:45:32 的发言：

C1=10 C2=100 N=80 S=10 CS=100,000
Z=6.42223128

C1=10 C2=100 N=80 S=6 CS=100,000
Z=8.79039915

我做了个小小的对比，，如果将S从10换作6的话，Z值是不一样的哦！真不好意思，搞不清楚这个问题我实在是没办法选取搭配词进行研究，或者是有可能排除一些有研究价值的搭配词。麻烦你多给我讲讲了！

Z值不一样是可以料到的，而且也并不可怕，关键是Z值一般是用来做多个搭配组合比较的，只要
用来做比较的各项的基数一致（S, CS 等）最终结果就是有一定意义的。

cathy · 2005-10-10

请教：
我在读濮建忠的《英语词汇教学中的类连接、搭配及词块》（2003、6期）时，有几个问题不明白，想请教。440页表1中的卡方值和显著性P值，是怎么计算出来的，wordsmith 里有这样的计算软件吗？有关这些值的意义，哪些书或文章中有介绍？表5中“类联接the ADJn频数为238”这是人工数出来的，还是有专门软件？

ibid · 2005-10-10

to cathy:我不知道濮老师是怎么算出来的。我以前统计colligation的时候，都是人工数出来的。卡方是对比差异性是否显著，p值是一个界定标准，这些统计上会学的。我讲不大清楚了，只是以前用过。我用的是wordsmith3.0，好象没这个功能。

ibid · 2005-10-10

X2
0.028<1
0.006<1
3.820
这是我以前做的一个小研究里的数据，0.028, 0.006, 3.820都是算出来的X2，设定p为1，那么大于1的是显著差异了。

ibid · 2005-10-10

to 动态语法: 怪我以前没说清楚了。我做的是中国学生和本族语者之间的对比研究。所以还要用到学习者语料库，我用wordsmith3.0处理学习者部分。但3.0没办法算z-score所以就用另一个小软件算z-score。和bnc里的数据对比时，或者提取搭配词时，两个的基准应该是一样的。
xiaoz建议我结合其它统计方法，可我目前比较熟悉的，而且以前也一直用的都是z-score,其它的只是知道，并未用过。

动态语法 · 2005-10-10

回复：[求助]SARA算出来的Z-score怎么跟我用其它方法算出来的不一样？

以下是引用 ibid 在 2005-10-10 23:06:36 的发言：

to 动态语法: 怪我以前没说清楚了。我做的是中国学生和本族语者之间的对比研究。所以还要用到学习者语料库，我用wordsmith3.0处理学习者部分。但3.0没办法算z-score所以就用另一个小软件算z-score。和bnc里的数据对比时，或者提取搭配词时，两个的基准应该是一样的。
xiaoz建议我结合其它统计方法，可我目前比较熟悉的，而且以前也一直用的都是z-score,其它的只是知道，并未用过。

个人看法：最好是找到不同语料库的相匹配的原始数据，然后用同一个统计软件计算。

动态语法 · 2005-10-10

回复：[求助]SARA算出来的Z-score怎么跟我用其它方法算出来的不一样？

以下是引用 cathy 在 2005-10-10 15:58:54 的发言：

请教：
我在读濮建忠的《英语词汇教学中的类连接、搭配及词块》（2003、6期）时，有几个问题不明白，想请教。440页表1中的卡方值和显著性P值，是怎么计算出来的，wordsmith 里有这样的计算软件吗？有关这些值的意义，哪些书或文章中有介绍？表5中“类联接the ADJn频数为238”这是人工数出来的，还是有专门软件？

你是说Chi-Square? ACWT has links to an online X2 calculator as well as the
statistical tables for X2.

xujiajin · 2005-10-10

回复：[求助]SARA算出来的Z-score怎么跟我用其它方法算出来的不一样？

以下是引用 cathy 在 2005-10-10 15:58:54 的发言：
请教：
我在读濮建忠的《英语词汇教学中的类连接、搭配及词块》（2003、6期）时，有几个问题不明白，想请教。440页表1中的卡方值和显著性P值，是怎么计算出来的，wordsmith 里有这样的计算软件吗？有关这些值的意义，哪些书或文章中有介绍？表5中“类联接the ADJn频数为238”这是人工数出来的，还是有专门软件？

濮建忠是用WordSmith里的keyword工具得出的。WS3和WS4都有。其中的keyness应该就是chi-square的值吧。

dzhigner · 2005-10-11

回复：[求助]SARA算出来的Z-score怎么跟我用其它方法算出来的不一样？

Z分值计算数值的不同也许是因为公式的不同：
比如如下两个不同的Z分值公式

两公式原理是一样的，但有两处不同:
1. 搭配词概率（probability of the collocate ）
BNCweb 公式中：搭配词概率 = 搭配词频数 / （整个文本长度 - 节点词频数）
《导论》公式中：搭配词概率 = 搭配词频数 / 整个文本长度

2. 小文本的跨距（span）
BNCweb公式中的S与《导论》公式中的S表示不同，前者相当于后者中2S

在另一则帖子中，我尝试性地对Z分值的统计学实质给出一个解释：
http://www.corpus4u.org/showthread.php?t=882

dzhigner · 2005-10-11

回复：[求助]SARA算出来的Z-score怎么跟我用其它方法算出来的不一样？

此外，不才我也认为Z-分值是揭示搭配力较好的方法。

MI的实质是观测值与期望值的比率，MI3是一种出色的改良，在某种程度上克服了MI过分的突出低频次搭配的不足，T-Score对频次有充分的强调，并考虑到总体，而Z分值的计算与上述种种因素均有反映。以上图表对此有明显的反映。就像各种考试系统偏爱标准分，原理相似的Z分值计算是一种衡量搭配力的好方法。

xiaoz · 2005-10-11

Can you try some very frequent and very infrequent items to see if the result of this comparison is also true? Thanks.

dzhigner · 2005-10-14

"Very frequent items and very infrequent items" refer to?

ibid · 2005-10-14

我所熟悉的是第一种计算方法。而且我所用的计算Z-Score的软件也是用的第一种方法。
我统计不好，有一点没看懂：“BNCweb公式中的S与《导论》公式中的S表示不同，前者相当于后者中2S+1，”意思是BNC的S比导论的S大两倍多？
还有“比较亦可证明，在节点词频数不很高的情况下，计算结果近乎相同。”如果节点词频数很高呢？几千，上万呢？

dzhigner · 2005-10-18

在回帖之前，本人必须郑重声明：本人科研态度不够严谨，在得到正确结论之前就妄然发言，必将闭门检讨，端正自身作风。如下内容实属尝试性，假想性的发言，望各位同志批评指正。

在经过一番苦思之后，认定本人之前关于Z-score之观点大有可疑。虽发现了《导论》与BNCweb两算法间的不同，但却陷入了一种可疑的思路，未经明证的假想，在把两公式中S统一之后发现其结果近乎相似便止步不前，未进一步实证便提出观点并以为正确。惭愧之至，痛心疾首。以下文字是反思回想后再次得出的结论,希望各位同志批评,指正,讨论.

BNCweb中的搭配词概率P与《导论》公式确有不同，两不同点间应有联系，以至对S的选取应慎重思考。

两公式仅S的意义不同。BNCweb中的S, 经比较结果得出, 就是SPAN的取值. 而<<导论>>公式中的S则是单侧单词的数目, 因此2S+1得出的就是小文本的跨度SPAN. 若是把两公式加以简单推算，便可看出大同小异。。。

<<导论>>公式中的E=P*M, BNCweb 中的E = P*F(n)*S, 在不考虑S差异的情况下与<<导论>>公式中E的计算完全一致
BNCweb公式分母:
SQRT(E(1-P)) = SQRT(F(n) * S * P * (1 - P) ) = SQRT(P*(1-P)*M)
Z最终的运算方法都是(F(c) - E)/SD, 所以除了P的运算不同和S的的规定不同, 无其他差异.

至于P,S的差异，的确会引起的两种Z值算法的结果差异，那么P的运算与S的确定间究竟是什么关系。 BNCweb中给出的S定义如下：
S: the span (window-size), i.e. the number of items on either side of the node considered as its environment
经分析,本人认为: 这里的S指的是不包含节点词在内的跨距，相应于节点词未出现处搭配词的概率，即不包含节点词的文本中搭配词的概率。而《导论》公式中的2S+1是包括节点词且对称的跨距，相应于包括节点词的整个文本中搭配词出现概率。
把BNCweb公式中的SPAN定名为S1，《导论》中的SPAN定名为S2，那么有2 * S2 + 1 = S1 + 1。此外本人猜想，在某些具体问题中，亦可采用双侧不对称的跨距。比如仅考察节点词左侧第一个位置上搭配词与节点词的搭配力。那么S1 应定为 1，而此时若应用<<导论>>公式,就应该用单一变量来替代2S+1,比如,令S替代原来的2S+1,此时S的取值应该是2.

动态语法 · 2005-10-18

回复：[求助]SARA中的Z-score

D君治学严谨，钻研深刻，值得我们学习。

xujiajin · 2005-10-18

Support!

dzhigner · 2005-10-19

回复：[求助]SARA中的Z-score怎么跟其它方法算出来的不一样？

工作表：分析<<导论>>Z-score公式与BNCweb z-score公式中SPAN
http://forum.corpus4u.org/upload/forum/2005101901231286.xls

[求助]SARA中的Z-score怎么跟其它方法算出来的不一样？

永远的超级管理员

初级会员

永远的超级管理员

管理员

初级会员

初级会员

初级会员

初级会员

管理员

管理员

管理员

Moderator

Moderator

永远的超级管理员

Moderator

初级会员

Moderator

管理员

管理员

Moderator