重提关于T-score计算公式的问题

找了几本书都没有找到一个最终的明确答案。dzhigner提供的Excel表格中说,根据权威文献或可靠材料得到下面的公式(http://www.corpus4u.org/showthread.php?t=1074&highlight=T-score):

t = (F(n,c)/N-F(n)/N*F(c)/N)/(SQRT(F(n,c))/N)

其中F(n,c)/N是n,c共现的概率;F(n)/N是节点词的概率;F(c)/N是搭配词的概率;N是语料库的长度(总词数)。

但动态语法指出根据BNCWeb的计算方法,搭配词的概率的计算方法应该是F(c)/(N-F(n))。这样的话,计算公式就应该是:

t = (F(n,c)/N-F(n)/N*F(c)/(N-F(n)))/(SQRT(F(n,c))/N)

但如果这个说法是正确的,那么MI的计算公式不是也会有变化吗?现在我都不知道哪个是最权威的计算方法了,读了杨惠中老师的《语料库语言学导论》、黄昌宁李涓子的《语料库语言学》,仍是一头雾水。

请问各位专家,究竟应该怎样计算T-score?
 
Last edited:
回复: 重提关于T-score计算公式的问题

个人认为,搭配词概率似乎不该是F(c)/(N-F(n)),因为节点词也是语料的一部分,但BNCWeb为什么要将其去掉计算呢?
 
回复: 重提关于T-score计算公式的问题

这是不同的计算方法而已,正如MI值也有好几种计算方法。
 
回复: 重提关于T-score计算公式的问题

嗯,就连独立样本t-test的计算公式我看到的都有两种说法,Hatch & Farhardy的公式与Woods的公式不同(桂诗春教授的公式与Woods的等价),计算结果也有少量差异,但我还没见到"Student"提出的原始公式是怎样的
 
Last edited:
Back
顶部