找了几本书都没有找到一个最终的明确答案。dzhigner提供的Excel表格中说,根据权威文献或可靠材料得到下面的公式(http://www.corpus4u.org/showthread.php?t=1074&highlight=T-score):
t = (F(n,c)/N-F(n)/N*F(c)/N)/(SQRT(F(n,c))/N)
其中F(n,c)/N是n,c共现的概率;F(n)/N是节点词的概率;F(c)/N是搭配词的概率;N是语料库的长度(总词数)。
但动态语法指出根据BNCWeb的计算方法,搭配词的概率的计算方法应该是F(c)/(N-F(n))。这样的话,计算公式就应该是:
t = (F(n,c)/N-F(n)/N*F(c)/(N-F(n)))/(SQRT(F(n,c))/N)
但如果这个说法是正确的,那么MI的计算公式不是也会有变化吗?现在我都不知道哪个是最权威的计算方法了,读了杨惠中老师的《语料库语言学导论》、黄昌宁李涓子的《语料库语言学》,仍是一头雾水。
请问各位专家,究竟应该怎样计算T-score?
t = (F(n,c)/N-F(n)/N*F(c)/N)/(SQRT(F(n,c))/N)
其中F(n,c)/N是n,c共现的概率;F(n)/N是节点词的概率;F(c)/N是搭配词的概率;N是语料库的长度(总词数)。
但动态语法指出根据BNCWeb的计算方法,搭配词的概率的计算方法应该是F(c)/(N-F(n))。这样的话,计算公式就应该是:
t = (F(n,c)/N-F(n)/N*F(c)/(N-F(n)))/(SQRT(F(n,c))/N)
但如果这个说法是正确的,那么MI的计算公式不是也会有变化吗?现在我都不知道哪个是最权威的计算方法了,读了杨惠中老师的《语料库语言学导论》、黄昌宁李涓子的《语料库语言学》,仍是一头雾水。
请问各位专家,究竟应该怎样计算T-score?
Last edited: