计算节点词右侧的搭配词的Z值或MI值

Bellazhou · 2013-10-25

各位老师，我在看动词和名词宾语的搭配，看了文献后一些问题要请教：
1. 计算搭配力Z值时要根据节点词在跨距范围内的小文本来算搭配词的期望频数，那么如果只计算右侧搭配，不算左侧搭配的话，这个小文本是不是就不算左侧的了？那么小文本M=（2S+1）x N（搭配词频数）的这个算法也要改变吗？直接变成(S+1)x N ?
2. 由于使用在线语料库查询，无法下载全部语料库，那么Antconc之类软件是否就无法计算搭配力了，只能用excel自己按照公式计算MI值或者T值了？

谢谢老师们~

Bellazhou · 2013-10-26

回复: 计算节点词右侧的搭配词的Z值或MI值

还是问题1.。。。。。老师们请不要忽略我的白痴问题啊。。。。求解答求解答求解答

dzhigner · 2013-11-02

回复: 计算节点词右侧的搭配词的Z值或MI值

问题1：小文本算法的确因具体问题而异。搭配统计的实质无非是通过比较明确"共现次数是否大于偶然"，所谓偶然，具体到计算方法，就是"经验频率/经验相对频率/经验概率“和”实测频率/实测相对频率/实测概率"无显著差异。经验频率就是节点词在整个文本中的相对频率，而小文本的作用，就是用来明确实测频率（或者说实测相对频率）的。因此，严格而言，如果只关心一侧，小文本就划一侧。

不过，各种具体算法也有细微差异，比如Z值既有比较经验频率与实测频率的算法，也有比较小文本内外相对频率的算法，需要搞清原理，酌情处理。

问题2：如果网上库有数据，用网上库的数据如何？究竟适用否，要看网上库的数据是怎么测的，如果网上库给的共现次数是双侧的，且不可自定义，而你只关心单侧的，那么这个数据就不适用了。。。

Bellazhou · 2013-11-02

回复: 计算节点词右侧的搭配词的Z值或MI值

谢谢丁老师的解答！！我用的在线汉语语料库没有相关数据，所以使用了您在论坛上贡献的excel表格，目前在统计无关小文本数值的MI值。这样不算Z值了，光算MI值可信么o(╯□╰)o
再次感谢丁老师的无私贡献！！

Bellazhou · 2013-11-08

回复: 计算节点词右侧的搭配词的Z值或MI值

作者 dzhigner:
问题1：小文本算法的确因具体问题而异。搭配统计的实质无非是通过比较明确"共现次数是否大于偶然"，所谓偶然，具体到计算方法，就是"经验频率/经验相对频率/经验概率“和”实测频率/实测相对频率/实测概率"无显著差异。经验频率就是节点词在整个文本中的相对频率，而小文本的作用，就是用来明确实测频率（或者说实测相对频率）的。因此，严格而言，如果只关心一侧，小文本就划一侧。

不过，各种具体算法也有细微差异，比如Z值既有比较经验频率与实测频率的算法，也有比较小文本内外相对频率的算法，需要搞清原理，酌情处理。

问题2：如果网上库有数据，用网上库的数据如何？究竟适用否，要看网上库的数据是怎么测的，如果网上库给的共现次数是双侧的，且不可自定义，而你只关心单侧的，那么这个数据就不适用了。。。

ding老师您好！再补问一句，您说的比较小文本内外相对频率的Z值算法我可以在哪篇文献中看到呢？另，问2主要是由于无法知道整个语料库（北大现代汉语）的词容而无法算期望频率。谢谢老师！

dzhigner · 2013-12-23

回复: 计算节点词右侧的搭配词的Z值或MI值

一直没看这个帖子，不知道现在说还晚不晚。
之前写“比如Z值既有比较经验频率与实测频率的算法，也有比较小文本内外相对频率的算法”这句话的时候不知道想什么来着。Z值就是比较小文本内外相对频率的算法，文献还真没有，我自己琢磨的，有一种统计检验叫单比例检验(1 proportion test),Z值算式(至少是《语料库语言学导论》中的公式)与这种检验完全一致，也最容易说的通，且“比例”和相对频率什么的都是一码事，其他标准分之类的解释Z值算法解释不通。

计算节点词右侧的搭配词的Z值或MI值

Bellazhou

Bellazhou

dzhigner

Moderator

Bellazhou

Bellazhou

dzhigner

Moderator