关于计算搭配力z值的一点疑惑

hancunxin

Moderator
简便起见,拿杨教授书中的例子打个比方。杨教授《语料库语言学导论》一书,P156-157

简要介绍一下:
语料库:BROWN
节点词:conclusion 共得到56个检索行
跨距:—4/+4
要验证的搭配词:leads
leads 在BROWN 出现的总次数33 与 conclusion 共现的次数2
Z=15.5

我的疑惑在于小文本M的计算, M=(2S+1)*56=504
窃以为,如果只是验证leads 是否与conclusion成典型搭配关系的话,M的值应该这样算
M=(4+1)*56=280 因为,leads是conclusion的左搭配词,所以我们只需要计算节点词和左距位为4的小文本即可.这样计算是不是比把左右跨距都包括在一起的小文本更加精确一点呢! 一点疑惑,欢迎大家讨论!
 
我们可以以节点词为中心,在左右5个位置上都可以进行mi,t,ll,mi2,mi3,z值的计算。得出每个位置上搭配词的统计值。
 
Z分值的本质是标准分,而标准分本质上就是用来打分排序的。也就是说z分值并不是假设检验方法,严格按其统计原理来看,仅算一个词语的z分值没什么意义。楼主提到的是算一个词的z分值,所以窃以为这个时候怎么选跨距都没有问题,但是比较多个词的搭配力时就一定要统一一个跨距,而从共现(尤其是按广义词语搭配标准)的角度考虑,词序不是唯一的。ab两词有可能是以ab顺序出现,也有可能是以ba顺序出现。因此2s+1的跨距只是一个比较宽泛的描述,完全可以灵活处理。如果b是节点词,比较a、c的搭配力,而a、c预期出现在b的左边,此时当然可以用s+1来作为统一跨距。
 
Z分值的本质是标准分,而标准分本质上就是用来打分排序的。也就是说z分值并不是假设检验方法,严格按其统计原理来看,仅算一个词语的z分值没什么意义。楼主提到的是算一个词的z分值,所以窃以为这个时候怎么选跨距都没有问题,但是比较多个词的搭配力时就一定要统一一个跨距,而从共现(尤其是按广义词语搭配标准)的角度考虑,词序不是唯一的。ab两词有可能是以ab顺序出现,也有可能是以ba顺序出现。因此2s+1的跨距只是一个比较宽泛的描述,完全可以灵活处理。如果b是节点词,比较a、c的搭配力,而a、c预期出现在b的左边,此时当然可以用s+1来作为统一跨距。

你的观点有道理!thanks a lot!
 
回复: 关于计算搭配力z值的一点疑惑

请教各位, 按照杨教授的方法,Z值是否可以是很大的数据呀?比如, 我查找了一个网站,得出了一些基本数据.在Excel中一算,有的Z值得出了208.46.但在杨教授的书中, 没有这么大的数据.
 
Re: 回复: 关于计算搭配力z值的一点疑惑

请教各位, 按照杨教授的方法,Z值是否可以是很大的数据呀?比如, 我查找了一个网站,得出了一些基本数据.在Excel中一算,有的Z值得出了208.46.但在杨教授的书中, 没有这么大的数据.

Z值可以很大.Z值越大,说明搭配词与节点词的搭配力越强.我就碰到过Z值达到384的.
 
回复: 关于计算搭配力z值的一点疑惑

Standdard scores are Z values, but Z value is not standard score.!!!!!
that process is called normalization in statistics.

Z value must be originated from the z- test, it's formular is the same as other normal z tests...
 
Back
顶部