计算节点词右侧的搭配词的Z值或MI值

各位老师,我在看动词和名词宾语的搭配,看了文献后一些问题要请教:
1. 计算搭配力Z值时要根据节点词在跨距范围内的小文本来算搭配词的期望频数,那么如果只计算右侧搭配,不算左侧搭配的话,这个小文本是不是就不算左侧的了?那么小文本M=(2S+1)x N(搭配词频数)的这个算法也要改变吗?直接变成(S+1)x N ?
2. 由于使用在线语料库查询,无法下载全部语料库,那么Antconc之类软件是否就无法计算搭配力了,只能用excel自己按照公式计算MI值或者T值了?

谢谢老师们~
 
回复: 计算节点词右侧的搭配词的Z值或MI值

还是问题1.。。。。。老师们请不要忽略我的白痴问题啊。。。。求解答求解答求解答
 
回复: 计算节点词右侧的搭配词的Z值或MI值

问题1:小文本算法的确因具体问题而异。搭配统计的实质无非是通过比较明确"共现次数是否大于偶然",所谓偶然,具体到计算方法,就是"经验频率/经验相对频率/经验概率“和”实测频率/实测相对频率/实测概率"无显著差异。经验频率就是节点词在整个文本中的相对频率,而小文本的作用,就是用来明确实测频率(或者说实测相对频率)的。因此,严格而言,如果只关心一侧,小文本就划一侧。

不过,各种具体算法也有细微差异,比如Z值既有比较经验频率与实测频率的算法,也有比较小文本内外相对频率的算法,需要搞清原理,酌情处理。

问题2:如果网上库有数据,用网上库的数据如何?究竟适用否,要看网上库的数据是怎么测的,如果网上库给的共现次数是双侧的,且不可自定义,而你只关心单侧的,那么这个数据就不适用了。。。
 
回复: 计算节点词右侧的搭配词的Z值或MI值

谢谢丁老师的解答!!我用的在线汉语语料库没有相关数据,所以使用了您在论坛上贡献的excel表格,目前在统计无关小文本数值的MI值。这样不算Z值了,光算MI值可信么o(╯□╰)o
再次感谢丁老师的无私贡献!!
 
回复: 计算节点词右侧的搭配词的Z值或MI值

问题1:小文本算法的确因具体问题而异。搭配统计的实质无非是通过比较明确"共现次数是否大于偶然",所谓偶然,具体到计算方法,就是"经验频率/经验相对频率/经验概率“和”实测频率/实测相对频率/实测概率"无显著差异。经验频率就是节点词在整个文本中的相对频率,而小文本的作用,就是用来明确实测频率(或者说实测相对频率)的。因此,严格而言,如果只关心一侧,小文本就划一侧。

不过,各种具体算法也有细微差异,比如Z值既有比较经验频率与实测频率的算法,也有比较小文本内外相对频率的算法,需要搞清原理,酌情处理。

问题2:如果网上库有数据,用网上库的数据如何?究竟适用否,要看网上库的数据是怎么测的,如果网上库给的共现次数是双侧的,且不可自定义,而你只关心单侧的,那么这个数据就不适用了。。。

ding老师您好!再补问一句,您说的比较小文本内外相对频率的Z值算法我可以在哪篇文献中看到呢?另,问2主要是由于无法知道整个语料库(北大现代汉语)的词容而无法算期望频率。谢谢老师!
 
回复: 计算节点词右侧的搭配词的Z值或MI值

一直没看这个帖子,不知道现在说还晚不晚。
之前写“比如Z值既有比较经验频率与实测频率的算法,也有比较小文本内外相对频率的算法”这句话的时候不知道想什么来着。Z值就是比较小文本内外相对频率的算法,文献还真没有,我自己琢磨的,有一种统计检验叫单比例检验(1 proportion test),Z值算式(至少是《语料库语言学导论》中的公式)与这种检验完全一致,也最容易说的通,且“比例”和相对频率什么的都是一码事,其他标准分之类的解释Z值算法解释不通。
 
Back
顶部