重提关于T-score计算公式的问题

ArthurW · 2010-02-05

找了几本书都没有找到一个最终的明确答案。dzhigner提供的Excel表格中说，根据权威文献或可靠材料得到下面的公式（http://www.corpus4u.org/showthread.php?t=1074&highlight=T-score）：

t = (F(n,c)/N-F(n)/N*F(c)/N)/(SQRT(F(n,c))/N)

其中F(n,c)/N是n,c共现的概率；F(n)/N是节点词的概率；F(c)/N是搭配词的概率；N是语料库的长度（总词数）。

但动态语法指出根据BNCWeb的计算方法，搭配词的概率的计算方法应该是F(c)/(N-F(n))。这样的话，计算公式就应该是：

t = (F(n,c)/N-F(n)/N*F(c)/(N-F(n)))/(SQRT(F(n,c))/N)

但如果这个说法是正确的，那么MI的计算公式不是也会有变化吗？现在我都不知道哪个是最权威的计算方法了，读了杨惠中老师的《语料库语言学导论》、黄昌宁李涓子的《语料库语言学》，仍是一头雾水。

请问各位专家，究竟应该怎样计算T-score？

ArthurW · 2010-02-08

回复: 重提关于T-score计算公式的问题

个人认为，搭配词概率似乎不该是F(c)/(N-F(n))，因为节点词也是语料的一部分，但BNCWeb为什么要将其去掉计算呢？

armstrong · 2010-02-08

回复: 重提关于T-score计算公式的问题

这是不同的计算方法而已，正如MI值也有好几种计算方法。

ArthurW · 2010-02-09

回复: 重提关于T-score计算公式的问题

嗯，就连独立样本t-test的计算公式我看到的都有两种说法，Hatch & Farhardy的公式与Woods的公式不同（桂诗春教授的公式与Woods的等价），计算结果也有少量差异，但我还没见到"Student"提出的原始公式是怎样的

重提关于T-score计算公式的问题

ArthurW

ArthurW

armstrong

高级会员

ArthurW