就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

corpora

初级会员
就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?
如果有相关文献,请您推荐一下,谢谢。
 
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?
如果有相关文献,请您推荐一下,谢谢。

后来看到有的文献中提及是大于等于3, 不知是否是这样?
 
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

Susan Hunston (2002) Corpora in Applied Linguistics (应用语言学中的语料库,世界图书出版公司原版引进)71页确实提到过MI-score of 3 or higher can be taken to be significant.很多人都是以这条文献作为依据的。但是记得在某个统计学文献里好像说过,MI并没有critical value,只是在2-3上下,值变得不可靠了云云。

我的态度是我们可大致以3作为critical value来看,因为Hunston这样说过;但我认为结果中的搭配词排序显得更有意义。

这里有一个关键问题,Hunston提及3作为临界值时,并没有给出统计学的参考文献。
 
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

Susan Hunston (2002) Corpora in Applied Linguistics (应用语言学中的语料库,世界图书出版公司原版引进)71页确实提到过MI-score of 3 or higher can be taken to be significant.很多人都是以这条文献作为依据的。但是记得在某个统计学文献里好像说过,MI并没有critical value,只是在2-3上下,值变得不可靠了云云。

我的态度是我们可大致以3作为critical value来看,因为Hunston这样说过;但我认为结果中的搭配词排序显得更有意义。

这里有一个关键问题,Hunston提及3作为临界值时,并没有给出统计学的参考文献。

嗯。 许老师,谢谢您。
 
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

刚刚下来查了一下Michael Oakes的Statistics for Corpus Linguistics和Stefan Evert的www.collocations.deBNCweb manual: Collocations的解释里,都没有提crtical value或threshold score/value的事。

这个就有点奇怪了,Stefan Evert和Michael Oakes算是语料库语言学领域统计方面的资深人士了,他们在讨论collocation时,为什么只字未提crtical value的事呢?

如果有哪位发现有相关的确切的文献,也请发上来。
 
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

we set the minimum co-occurrence frequency to 3. Within a 4–4 window
span, items which have a minimum co-occurrence frequency of 3 as a
collocate of a given node word and a minimum MI score of 3 are considered
to be collocates of a node word.

Collocation, Semantic Prosody, and Near
Synonymy: A Cross-Linguistic Perspective
RICHARD XIAO and TONY MCENERY
University of Lancaster

临界值
Z值>=2
T值>=2
MI>=3
 
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

I am afraid it is a value based on experience/judgement rather than anything absolute. Perhaps just as the 0.05 critical value used in ordinary statistics, it is all because Fisher said so (and then everyone followed suit). Anyway, all inferential statistics are based on probability, which is by definition subject to uncertainty. If we can realize that linguistic units(words) do not usually fall into normal distribution, experience then plays a major role in derterming the suitable value for cut-off.
 
Last edited:
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

统计分析中的临界值是经验值,无疑。

上面的讨论,只是希望找到比较确切的文献支撑,从而能有一个约定俗成的操作标准。
 
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

这不太可能吧,任何统计学家都不会提供这一值的绝对值的,因为这一统计量的临界值是随行业变动的。只有使用这一统计量的行业专家才会(根据经验)提供一个推荐值。如果我们认为Hunston和McEnery不够专业的话,那恐怕也没有办法了。在具体的操作中,即便是这个推荐的临界值也不是适用所有的语料库,还要看语料库的大小和各个具体单词的具体分布情况,Xu博自己也指出来了,有时看排序还方便些。
 
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

争论这个没有意义。

引用你的话,为什么Fisher说0.05,应用语言学研究学者都要follow suit,自己可以制定行业标准嘛。

统计学家关心的是数据/数值。比如,有些统计分析的提前需要正态分布,社会学研究和心理学研究都会遵循。Susan Hunston和Xiao不是根据根据语言学标准定下来3这个值的,他们也是引用某些专攻统计的学者(有些是纯的statistician,有些是CL或NLP中致力于统计算法的,比如Stefan Evert,Adam Kilgariff)的论述的。
 
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

这是两个不同性质的问题。应用语言学研究学者观测的不是具体可计算的问题,其临界不会有人争议;而语料库的单词搭配是有经验可肉眼判断的,麻烦会大些。而且,提出MI这一算法适用于词汇研究的的应属Church & Hanks(1990),他们并没有明确提及MI临界值,只是说:
When I(x, y) is large, the association ratio produces very
credible results not unlike those reported in Palermo and
Jenkins (1964), as illustrated in Table 3. In contrast, when
I(x, y) ---: 0, the pairs are less interesting. (As a very rough
rule of thumb, we have observed that pairs with I(x, y) > 3
tend to be interesting, and pairs with smaller I(x, y) are
generally not。One can make this statement precise by
calibrating the measure with subjective measures. Alternatively,
one could make estimates of the variance and then
make statements about confidence levels, e.g. with 95%
confidence, P(x, y) > P(x) P(y).)

author = {Kenneth Ward Church and Patrick Hanks},
title = {Word Association Norms, Mutual Information, and Lexicography},
year = {1990}
journal={Computational Linguistics}
volume={ 16}
number={1}

另外:言语间如有表达不当,还请Xu博原谅。这不是个人争议,是观点不同的表达。
 
Last edited:
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

没有不当,很好很好:)
你很严谨。向你学习:D
因为讨论都在学术范围之内,所以很好。

其实这个论坛,我觉得还不够好。主要是参与实质性讨论和辩论的人太少。
我们热情欢迎更多像iCasino这样的朋友参加进来,进行实质性和建设性的讨论。
 
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

谢谢xu博的理解,也感谢xu博(和其他很多同仁)提供了这个学习的平台,祝愿Corpus4U越办越好。
 
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

看许博和ICasino讨论得这么热烈,我也来浇点油。
在新出版的A Frequency Dictionary of Contemporary English中的Introduction部分,Mark Davies提到了MI值的问题。
... In all cases, the context (or "span") of words was four words to the left and four words to the right of the "node word". ...
... we set a Mutual Information (MI) threshold of about 2.5.
Using MI is sometimes more an art than a science. (emphasis added by Seinewang) If the MI is set too low, then high frequency "noise words" show up as collocates, whereas if it is set too high, then only highly idiomatic collocates are found. ...
上述引文皆引自于A Frequency Dictionary of Contemporary English中的Introduction部分第6页,材料来自于www.americancorpus.org中A Frequency Dictionary of Contemporary English的电子版(只有70页)。

所以,上述引文也佐证了两位提到的"统计分析中的临界值是经验值"的看法。
我在使用COCA的时候,也会偶尔地调整MI值看有没有什么值得注意的东西。顺便提一下,COCA中MI的默认值是3。
 
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

谢谢补充。

欢迎其他网友也来浇油。
 
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

看到各位老师的回复和讨论,增加更多的理解。真心感谢。

另外,我还想很胆怯的问:(目的不是要引起第三次世界大战(:)),仅仅是由于本人的知识浅陋)

搭配频次如果两个词只共现一次,但相互MI 值大于3, 这是否可以视为搭配词组(我指公认为),还是一般最少也得共现2次才算搭配呢。 还是根据自己的working definition for collocation?
 
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

看到各位老师的回复和讨论,增加更多的理解。真心感谢。

另外,我还想很胆怯的问:(目的不是要引起第三次世界大战(:)),仅仅是由于本人的知识浅陋)

搭配频次如果两个词只共现一次,但相互MI 值大于3, 这是否可以视为搭配词组(我指公认为),还是一般最少也得共现2次才算搭配呢。 还是根据自己的working definition for collocation?

你的问题应该涉及到语料库的大小的问题,所以应该分类讨论,比如:在大/小规模的语料库中,collocates的共现频率要大于多少,才可以视为collocation。因为我经常使用COCA,所以用COCA来举例。
对于COCA而言,这个共现频率要视情况而定,有时肯定要大于3。因为COCA太大,所以某些很少见的词也会出现,(有时还会有typo出现)这样一来,如果很少见的词经常与一个很常见的词一起出现,那么这就符合你的MI值大于等于3、共现频率大于等于2的标注,但实际上,据我理解,如果一个词的总体频率过低(即频率很低的低频词),那么一般不认为它会和谁构成搭配。你按照下面的截图去查一下dog的搭配词,就会明白我的意思了。
dog.png
当然,这个结论是在COCA中作出的。如果换一个小的语料库,那么f>=2或许可以作为一个标准,但这有一定的偶然性,需要语料库非常的均衡才可以。

我认为,collocation的判断应该涉及到词的频率的问题,太低频的词(比如3万词之后的词)是不会被认为与其它词构成搭配的(不否认有例外)。它可能符合你对于collocation的working definition,但却不符合native speakers的感觉。符合native speakers感觉的搭配(C)必定与语料库的大小、搭配词在语料库中各自出现的频率(不能太低)及其共现频率有关,即F(语料库的收词量)、f(搭配词各自的频率)和MI(搭配词的共现信息)一个都不能少,一个都不能小。如果能搞清楚四者之间的关系,善莫大焉!
 
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

关于Fisher的那句话,我想作一下补充。

我主要是参考了Andy Field在“Discovering Statistics Using SPSS(3rd edition,page 51)”一书中对p<0.05这个值的讨论。他用了大约500多字对这个问题进行了论述,大意是说Fisher也是受纸张和计算量的限制,只列出了有限的几个参照值(0.05,0.02,0.01),而Fisher的“Statistical methods for research workers”一书使用如此广泛(还有当时统计界本身的一些理论争执),使得p<0.05和p<0.01成了研究者们普遍汇报研究结果的统计依据。而Fisher本人也认为在不同研究中不加甄别的使用这几个显著水平是"silly"的。最后,Field建议用effect size 这一统计量来平衡取p<0.05这一统计量时可能产生的误差。

Field的这本书获得了2007年度British Psychological Society的图书大奖,看来书内的论述至少是受到了英国心理学会的广泛认同。有兴趣的同仁可以去看看原文,相当的幽默。

有趣的是,effect size这一统计量在国内的统计类教科书很少提及,而我记得大洋彼岸的美国心理学会对使用p值的论文是必须要报告effect size这一统计的量的。


Andy Filed,2009. Discovering Statistics Using SPSS. London:Sage.
 
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

据我们老师讲:
Strict statistical significance is not really available, but a value of 1.58 could be used as a cut-off point.
根据是因为1.58大约是3的以2为底的对数,MI的值如果达到1.58说明已经是偶然性的3倍了。
这个标准也被Barnbrook(1996:99)所采用。
不知道对不对?就教于大家。
谢谢!
 
回复: 就搭配的值z值一般大于等于2为显著搭配,那么如果用MI 值度量,一般公认为多大为显著呢?

这个1.58我好像有点印象。谢谢yuliaoku提供出处。

也谢谢iCasino对于Fisher有关于0.05的补充,非常informative。

很高兴大家使得讨论变得更加有内容了。
 
Back
顶部