首先表示以后再不在这个问题上纠结了,这次发帖旨在点出两者间的根本区别。说白了,Z Score和T Score的构成都满足一个假设检验的通式:(样本统计量(观测值)-假设值(期望值)) / 标准误,再来个国外一统计网站上的英文版本: (statistic - hypothesized value) / standard error of the statistic
但是,Z Score和T Score的根本区别是表达了不同的零假设形式。根据本人的“观察”,Z Score很可能是产生在使用小文本(mini-text)的词语共现量化分析解决方案中,这种方法比较直观,从统计学的角度也比较容易定性,即单比例检验(Testing one population proportion),具体的零假设可以这样来表达:搭配词在语料库和在小文本中的相对频率无差异。再说的直观点,就是说比较 搭配词在节点词附近的分布 和 其在整个语料库中的分布。
T Score方法中没有显性实现小文本这个因素,表达了另一种零假设形式:用W1,W2表示两个词,P(W1W2)=P(W1)P(W2)。这种方法没有Z Score的逻辑直观,其基本框架(根据之前的解释)就是(P(W1W2)-P(W1)P(W2)) /Standard Error,此外,有的T Score公式中含有一个简化过程,具体见http://corpus4u.webfactional.com/forum/showthread.php?p=39961#post39961
总之,Z Score和T Score之间的根本区别就是:基于小文本的零假设和P(W1W2)=P(W1)P(W2)这个零假设。
但是,Z Score和T Score的根本区别是表达了不同的零假设形式。根据本人的“观察”,Z Score很可能是产生在使用小文本(mini-text)的词语共现量化分析解决方案中,这种方法比较直观,从统计学的角度也比较容易定性,即单比例检验(Testing one population proportion),具体的零假设可以这样来表达:搭配词在语料库和在小文本中的相对频率无差异。再说的直观点,就是说比较 搭配词在节点词附近的分布 和 其在整个语料库中的分布。
T Score方法中没有显性实现小文本这个因素,表达了另一种零假设形式:用W1,W2表示两个词,P(W1W2)=P(W1)P(W2)。这种方法没有Z Score的逻辑直观,其基本框架(根据之前的解释)就是(P(W1W2)-P(W1)P(W2)) /Standard Error,此外,有的T Score公式中含有一个简化过程,具体见http://corpus4u.webfactional.com/forum/showthread.php?p=39961#post39961
总之,Z Score和T Score之间的根本区别就是:基于小文本的零假设和P(W1W2)=P(W1)P(W2)这个零假设。