[讨论]Are z-score and T-score identical?

回复:[讨论]Are z-score and T-score identical?

以下是引用 xianx2005-9-5 20:35:06 的发言:
T-score in language testing: T=10Z+50. what about the statistics here?


is the t-score we are talking about that "t-score" in statistics? i had thought they are two things.
 
我琢磨这个问题一段时间了。。。一直没搞通。。。
我在另一个贴子里叨咕了两句。。。
T-test is used to solve two types of collocation discovery problems. It seems that T-test is used in "investigations of how pairs of words are used differently, rather then the association between two words" (Biber, 1998), and in this case the statistical approach is something of Student's t-test. But on the other hand T-test is used in investigating "how probable or improbable it is that a certain constellation will occur"(according to http://nlp.stanford.edu/fsnlp/promo/colloc.pdf). In this case it seems the statistical approach is something less of Student's t-test, but rather a kind of combination of Bernoulli trial and Student's t-test. I am all confused about this.
 
回复:[讨论]Are z-score and T-score identical?

以下是引用 hancunxin2005-9-5 22:04:46 的发言:
以下是引用 xianx2005-9-5 20:35:06 的发言:
T-score in language testing: T=10Z+50. what about the statistics here?


is the t-score we are talking about that "t-score" in statistics? i had thought they are two things.

That's where I am confused.
我认为核心的原理是一样的,实际上关于T-score有两种说法,一种是用以调查两词搭配状况的差异,一种其实和Z-score的原理差不多。也许这些计算方法是在统计学的大框架里根据语料库的特性确定下来的。我认为常用的T-score公式是student's t-test和二点分布和成的一种简化/活用形式,Z-test是类似于“标准分”计算的一种方法,其中包含二点分布的方差。两者都涉及到这样两个元素: 相互独立随机事件A,B的概率满足p(AB)=p(A)p(B),二点分布的均值为p,方差为pq (0<P<1, q=1-p).
 
回复:[讨论]Are z-score and T-score identical?

That's where I am confused.
我认为核心的原理是一样的,实际上关于T-score有两种说法,一种是用以调查两词搭配状况的差异,一种其实和Z-score的原理差不多。也许这些计算方法是在统计学的大框架里根据语料库的特性确定下来的。我认为常用的T-score公式是student's t-test和二点分布和成的一种简化/活用形式,Z-test是类似于“标准分”计算的一种方法,其中包含二点分布的方差。两者都涉及到这样两个元素: 相互独立随机事件A,B的概率满足p(AB)=p(A)p(B),二点分布的均值为p,方差为pq (0<P<1, q=1-p).
[/quote]

_
我问一个很愚蠢的问题。 我在一本书上看到 z= x-x/s (P104《外语教学研究中的定量数据分析》秦晓晴 著)而在《语料库语言学导论》一书中P158 Z=C`- E/SD 为什么这两个公式不一样的呢?
 
The two formulae are the same in essence: The z score is the number of standard deviations from the mean frequency. But they use different symbols.
 
回复:[讨论]Are z-score and T-score identical?

以下是引用 hancunxin2005-9-6 8:01:31 的发言:
That's where I am confused.
我认为核心的原理是一样的,实际上关于T-score有两种说法,一种是用以调查两词搭配状况的差异,一种其实和Z-score的原理差不多。也许这些计算方法是在统计学的大框架里根据语料库的特性确定下来的。我认为常用的T-score公式是student's t-test和二点分布和成的一种简化/活用形式,Z-test是类似于“标准分”计算的一种方法,其中包含二点分布的方差。两者都涉及到这样两个元素: 相互独立随机事件A,B的概率满足p(AB)=p(A)p(B),二点分布的均值为p,方差为pq (0<P<1, q=1-p).

_
我问一个很愚蠢的问题。 我在一本书上看到 z= x-x/s (P104《外语教学研究中的定量数据分析》秦晓晴 著)而在《语料库语言学导论》一书中P158 Z=C`- E/SD 为什么这两个公式不一样的呢?

[/quote]
前面那个公式是概率统计里计算“标准分”的标准公式,后者和前者,如Xiaoz指出,实质是一样的。。。
 
根据《语料库语言学导论》,要计算Z值,需要知道5个数据,他们分别是:被研究词或节点词的频数N,跨距S,搭配词在整个文本中的频数C,搭配词在小文本中的频数C'以及整个文本的长度。根据这些数据,可以计算小文本的长度M,搭配词占整个文本长度的比率P,搭配词在小文本中的期望频数E,其标准差及最终的Z值或Z分数。他们的计算公式分别是:
M=(2*S+1)*N
P=C/W
E=P*M
SD=SQRT(P*(1-P)*M)
Z=(C'-E)/SD

公式是基于所谓“二点分布(也称伯努里分布:一组条件下只有两个结果,随机变量只有两个取值)”求Z分数(标准分),概率分布中二点分布的均值为p,方差为pq(0<P<1, q=1-p) 从这个角度考虑(E为均值(“期望”常用均值来表述)与M的乘积,上述公式中SD(标准差)就是二点分布方差与M的乘积),与求标准分的公式是一致的,区别仅仅是均值与方差都乘了个参数M。。
从这个角度看,该Z-score算法的统计学意义是对差异的标准化度量,而不是某种“检验”,所以仅计算Z分数的话,尚且不用考虑总体分布的状况,但终归我们需要一种标准来淘汰和筛选,所以还需要检验。注意Z分数算法与Z检验是两个不同的概念,正如T检验也是一种“假设检验",考虑到总体的分布与数量。
(以上是不才思考后得到的结论,不知正确与否)
 
回复: [讨论]Are z-score and T-score identical?

最近终于搞懂了,确定了,T-test 和 Z-test 确实不是一码事。。。

这两种方法均属于假设检验,假设检验的步骤包括:1)设置零假设和备择假设,2)采样并得出样本统计量,并转换成检验统计量(比如转换成标准分或T值),3)在某种理论分布中(比如标准正态分布,即Z分布、T分布)确定检验统计量的概率及显著性水平,从而作出接受或排除零假设的决定。

Z-test 和 T-test实际上都是借鉴了上述过程第二步中把样本统计量转换成检验统计量的算法,对于Z-test得出的检验统计量,要用Z分布确定P值,T-test则使用T分布。

从公式区别看,主要是分母部分,Z-test 或者是Z-socre公式的分母部分是样本标准差,T-test 分母是标准误估计

综上,T-test和Z-test是借鉴自两种不同的假设检验值统计量计算方法,不是一回事。。。
 
回复: [讨论]Are z-score and T-score identical?

The two formulae are the same in essence: The z score is the number of standard deviations from the mean frequency. But they use different symbols.

I've totally figured out the difference between Z and T. They are similar in essence, but they are not the same thing. They are similar because we can call both Z and T "standard score", but Z and T are respectively "test statistics" (or standard score) of statistical hypothesis testing methods Z-test and T-test. The difference between Z-test and T-test can explain the difference between Z and T in collocation quantitative analysis.
 
回复: [讨论]Are z-score and T-score identical?

请求版主把我(dzhigner)在这个帖子里发的回复删掉,我关于T-score和Z-score原理的分析,之前的方向一直是错的。之前的回复中关于T-socre的说法基本无误,T-score确系统计学中的Student's T-test,但是关于Z-score的说法有误。有误的说法主要是#9-#11。

#9:“公式是基于所谓二点分布(也称伯努里分布:一组条件下只有两个结果,随机变量只有两个取值)求Z分数(标准分)”其中的“二点分布”有误,应为“二项分布”。“求Z分数(标准分)”的说法也不合适,至少是不充分。

#10-#11:#10中关于假设检验的说法部分没有问题,Z-score确系假设检验或者是统计检验方法,其根本性质不是“数据标准化”或者是“打分”。

重要的是,T-score方法的原理确系统计学中的Student's T-test,所以称为T-test 没有什么问题,但从统计学原理方面定性Z-socre,可以确定的是,Z-score方法的原理与Z-test不同;尽管确实和标准分有关,也不能单纯用标准分的计算来解释。也就是说Z-score方法的性质是一种统计检验,不是单纯的“打分”,但不是Z-test。
 
Last edited:
Back
顶部