[求助]SARA中的Z-score怎么跟其它方法算出来的不一样?

the threshold value is independent of window span. A z score above 3.0 should be significant.
 
C1=10 C2=100 N=80 S=10 CS=100,000
Z=6.42223128

C1=10 C2=100 N=80 S=6 CS=100,000
Z=8.79039915

我做了个小小的对比,如果将S从10换作6的话,Z值是不一样的哦!真不好意思,搞不清楚这个问题我实在是没办法选取搭配词进行研究,或者是有可能排除一些有研究价值的搭配词。麻烦你多给我讲讲了!
 
There are many discussions of collocation statistics at this site. Search for the relevant postings.
 
回复:[求助]SARA算出来的Z-score怎么跟我用其它方法算出来的不一样?

以下是引用 ibid2005-10-9 23:45:32 的发言:
C1=10 C2=100 N=80 S=10 CS=100,000
Z=6.42223128

C1=10 C2=100 N=80 S=6 CS=100,000
Z=8.79039915

我做了个小小的对比,,如果将S从10换作6的话,Z值是不一样的哦!真不好意思,搞不清楚这个问题我实在是没办法选取搭配词进行研究,或者是有可能排除一些有研究价值的搭配词。麻烦你多给我讲讲了!

Z值不一样是可以料到的,而且也并不可怕,关键是Z值一般是用来做多个搭配组合比较的,只要
用来做比较的各项的基数一致(S, CS 等)最终结果就是有一定意义的。
 
请教:
我在读濮建忠 的《英语词汇教学中的类连接、搭配及词块》(2003、6期)时,有几个问题不明白,想请教。440页表1中的卡方值和显著性P值,是怎么计算出来的,wordsmith 里有这样的计算软件吗?有关这些值的意义,哪些书或文章中有介绍?表5中“类联接the ADJn频数为238”这是人工数出来的,还是有专门软件?
 
to cathy:我不知道濮老师是怎么算出来的。我以前统计colligation的时候,都是人工数出来的。 卡方是对比差异性是否显著,p值是一个界定标准,这些统计上会学的。我讲不大清楚了,只是以前用过。我用的是wordsmith3.0, 好象没这个功能。
 
X2
0.028<1
0.006<1
3.820
这是我以前做的一个小研究里的数据,0.028, 0.006, 3.820都是算出来的X2,设定p为1,那么大于1的是显著差异了。
 
to 动态语法: 怪我以前没说清楚了。我做的是中国学生和本族语者之间的对比研究。所以还要用到学习者语料库,我用wordsmith3.0处理学习者部分。但3.0没办法算z-score所以就用另一个小软件算z-score。和bnc里的数据对比时,或者提取搭配词时,两个的基准应该是一样的。
xiaoz建议我结合其它统计方法,可我目前比较熟悉的,而且以前也一直用的都是z-score,其它的只是知道,并未用过。
 
回复:[求助]SARA算出来的Z-score怎么跟我用其它方法算出来的不一样?

以下是引用 ibid2005-10-10 23:06:36 的发言:
to 动态语法: 怪我以前没说清楚了。我做的是中国学生和本族语者之间的对比研究。所以还要用到学习者语料库,我用wordsmith3.0处理学习者部分。但3.0没办法算z-score所以就用另一个小软件算z-score。和bnc里的数据对比时,或者提取搭配词时,两个的基准应该是一样的。
xiaoz建议我结合其它统计方法,可我目前比较熟悉的,而且以前也一直用的都是z-score,其它的只是知道,并未用过。

个人看法:最好是找到不同语料库的相匹配的原始数据,然后用同一个统计软件计算。
 
回复:[求助]SARA算出来的Z-score怎么跟我用其它方法算出来的不一样?

以下是引用 cathy2005-10-10 15:58:54 的发言:
请教:
我在读濮建忠 的《英语词汇教学中的类连接、搭配及词块》(2003、6期)时,有几个问题不明白,想请教。440页表1中的卡方值和显著性P值,是怎么计算出来的,wordsmith 里有这样的计算软件吗?有关这些值的意义,哪些书或文章中有介绍?表5中“类联接the ADJn频数为238”这是人工数出来的,还是有专门软件?

你是说Chi-Square? ACWT has links to an online X2 calculator as well as the
statistical tables for X2.
 
回复:[求助]SARA算出来的Z-score怎么跟我用其它方法算出来的不一样?

以下是引用 cathy2005-10-10 15:58:54 的发言:
请教:
我在读濮建忠 的《英语词汇教学中的类连接、搭配及词块》(2003、6期)时,有几个问题不明白,想请教。440页表1中的卡方值和显著性P值,是怎么计算出来的,wordsmith 里有这样的计算软件吗?有关这些值的意义,哪些书或文章中有介绍?表5中“类联接the ADJn频数为238”这是人工数出来的,还是有专门软件?

濮建忠是用WordSmith里的keyword工具得出的。WS3和WS4都有。其中的keyness应该就是chi-square的值吧。
 
回复:[求助]SARA算出来的Z-score怎么跟我用其它方法算出来的不一样?

Z分值计算数值的不同也许是因为公式的不同:
比如如下两个不同的Z分值公式
2005101101455573.jpg

2005101101462292.jpg

两公式原理是一样的,但有两处不同:
1. 搭配词概率(probability of the collocate )
BNCweb 公式中:搭配词概率 = 搭配词频数 / (整个文本长度 - 节点词频数)
《导论》公式中:搭配词概率 = 搭配词频数 / 整个文本长度

2. 小文本的跨距(span)
BNCweb公式中的S与《导论》公式中的S表示不同,前者相当于后者中2S

在另一则帖子中,我尝试性地对Z分值的统计学实质给出一个解释:
http://www.corpus4u.org/showthread.php?t=882
 
回复:[求助]SARA算出来的Z-score怎么跟我用其它方法算出来的不一样?

此外,不才我也认为Z-分值是揭示搭配力较好的方法。
2005101102530042.jpg

MI的实质是观测值与期望值的比率,MI3是一种出色的改良,在某种程度上克服了MI过分的突出低频次搭配的不足,T-Score对频次有充分的强调,并考虑到总体,而Z分值的计算与上述种种因素均有反映。以上图表对此有明显的反映。就像各种考试系统偏爱标准分,原理相似的Z分值计算是一种衡量搭配力的好方法。
 
Can you try some very frequent and very infrequent items to see if the result of this comparison is also true? Thanks.
 
我所熟悉的是第一种计算方法。而且我所用的计算Z-Score的软件也是用的第一种方法。
我统计不好,有一点没看懂:“BNCweb公式中的S与《导论》公式中的S表示不同,前者相当于后者中2S+1,”意思是BNC的S比导论的S大两倍多?
还有“比较亦可证明,在节点词频数不很高的情况下,计算结果近乎相同。”如果节点词频数很高呢?几千,上万呢?
 
在回帖之前,本人必须郑重声明:本人科研态度不够严谨,在得到正确结论之前就妄然发言,必将闭门检讨,端正自身作风。如下内容实属尝试性,假想性的发言,望各位同志批评指正。

在经过一番苦思之后,认定本人之前关于Z-score之观点大有可疑。虽发现了《导论》与BNCweb两算法间的不同,但却陷入了一种可疑的思路,未经明证的假想,在把两公式中S统一之后发现其结果近乎相似便止步不前,未进一步实证便提出观点并以为正确。惭愧之至,痛心疾首。以下文字是反思回想后再次得出的结论,希望各位同志批评,指正,讨论.

BNCweb中的搭配词概率P与《导论》公式确有不同,两不同点间应有联系,以至对S的选取应慎重思考。

两公式仅S的意义不同。BNCweb中的S, 经比较结果得出, 就是SPAN的取值. 而<<导论>>公式中的S则是单侧单词的数目, 因此2S+1得出的就是小文本的跨度SPAN. 若是把两公式加以简单推算,便可看出大同小异。。。

<<导论>>公式中的E=P*M, BNCweb 中的E = P*F(n)*S, 在不考虑S差异的情况下与<<导论>>公式中E的计算完全一致
BNCweb公式分母:
SQRT(E(1-P)) = SQRT(F(n) * S * P * (1 - P) ) = SQRT(P*(1-P)*M)
Z最终的运算方法都是(F(c) - E)/SD, 所以除了P的运算不同和S的的规定不同, 无其他差异.

至于P,S的差异,的确会引起的两种Z值算法的结果差异,那么P的运算与S的确定间究竟是什么关系。 BNCweb中给出的S定义如下:
S: the span (window-size), i.e. the number of items on either side of the node considered as its environment
经分析,本人认为: 这里的S指的是不包含节点词在内的跨距,相应于节点词未出现处搭配词的概率,即不包含节点词的文本中搭配词的概率。而《导论》公式中的2S+1是包括节点词且对称的跨距,相应于包括节点词的整个文本中搭配词出现概率。
把BNCweb公式中的SPAN定名为S1,《导论》中的SPAN定名为S2,那么有2 * S2 + 1 = S1 + 1。此外本人猜想,在某些具体问题中,亦可采用双侧不对称的跨距。比如仅考察节点词左侧第一个位置上搭配词与节点词的搭配力。那么S1 应定为 1,而此时若应用<<导论>>公式,就应该用单一变量来替代2S+1,比如,令S替代原来的2S+1,此时S的取值应该是2.
 
Back
顶部