在回帖之前,本人必须郑重声明:本人科研态度不够严谨,在得到正确结论之前就妄然发言,必将闭门检讨,端正自身作风。如下内容实属尝试性,假想性的发言,望各位同志批评指正。
在经过一番苦思之后,认定本人之前关于Z-score之观点大有可疑。虽发现了《导论》与BNCweb两算法间的不同,但却陷入了一种可疑的思路,未经明证的假想,在把两公式中S统一之后发现其结果近乎相似便止步不前,未进一步实证便提出观点并以为正确。惭愧之至,痛心疾首。以下文字是反思回想后再次得出的结论,希望各位同志批评,指正,讨论.
BNCweb中的搭配词概率P与《导论》公式确有不同,两不同点间应有联系,以至对S的选取应慎重思考。
两公式仅S的意义不同。BNCweb中的S, 经比较结果得出, 就是SPAN的取值. 而<<导论>>公式中的S则是单侧单词的数目, 因此2S+1得出的就是小文本的跨度SPAN. 若是把两公式加以简单推算,便可看出大同小异。。。
<<导论>>公式中的E=P*M, BNCweb 中的E = P*F(n)*S, 在不考虑S差异的情况下与<<导论>>公式中E的计算完全一致
BNCweb公式分母:
SQRT(E(1-P)) = SQRT(F(n) * S * P * (1 - P) ) = SQRT(P*(1-P)*M)
Z最终的运算方法都是(F(c) - E)/SD, 所以除了P的运算不同和S的的规定不同, 无其他差异.
至于P,S的差异,的确会引起的两种Z值算法的结果差异,那么P的运算与S的确定间究竟是什么关系。 BNCweb中给出的S定义如下:
S: the span (window-size), i.e. the number of items on either side of the node considered as its environment
经分析,本人认为: 这里的S指的是不包含节点词在内的跨距,相应于节点词未出现处搭配词的概率,即不包含节点词的文本中搭配词的概率。而《导论》公式中的2S+1是包括节点词且对称的跨距,相应于包括节点词的整个文本中搭配词出现概率。
把BNCweb公式中的SPAN定名为S1,《导论》中的SPAN定名为S2,那么有2 * S2 + 1 = S1 + 1。此外本人猜想,在某些具体问题中,亦可采用双侧不对称的跨距。比如仅考察节点词左侧第一个位置上搭配词与节点词的搭配力。那么S1 应定为 1,而此时若应用<<导论>>公式,就应该用单一变量来替代2S+1,比如,令S替代原来的2S+1,此时S的取值应该是2.