搭配词的搭配力计算

计算collocate的搭配力时,用下面哪种值比较适合呢:MI-score,T-score,Z-score。并且想知道选择的理由。
谢谢!
 

chrisyang

普通会员
回复: 搭配词的搭配力计算

杨惠中老师主编的那本《语料库语言学导论》里第三、四、五章里对这个问题有个明确的说法。你可以参考一下。
 
回复: 搭配词的搭配力计算

先谢过~
杨教授的书,我看了,但是有的地方说到Z-score与语料库的size的关系比较密切,所以想知道它们区别何在
我的是自建的语料库
size分别是Corpus C1C2C3types15198283125926tokens25457752952537244
那我使用哪个值比较恰当呢?
 
回复: 搭配词的搭配力计算

不好意思,上面说到的是T-score与语料库的size的关系比较密切
size部分不能正常显示,再发一次

Corpus1 corpus2 corpus3
types 15198 28312 5926
tokens 254577 529525 37244
 

volfer

Moderator
回复: 搭配词的搭配力计算

看你的研究目的决定选取哪种。
MI值会把低频词排在很前面,适合专业文本中搭配词的研究。
T-score相对来说,会把高频词排在很前面,即日常生活中的普通用词,比较适合非专业文本搭配词的研究。
MI3修正了MI值的缺陷。Log likelihood也比较折中。你也可以综合这几种指数做出自己的分析。按这几种指数都排在很前面的,那毫无疑问肯定是显著搭配词了。
大致是这样,《语料库应用教程》中有很详细的论述,你可以找书仔细读读。
 
回复: 搭配词的搭配力计算

看你的研究目的决定选取哪种。
MI值会把低频词排在很前面,适合专业文本中搭配词的研究。
T-score相对来说,会把高频词排在很前面,即日常生活中的普通用词,比较适合非专业文本搭配词的研究。
MI3修正了MI值的缺陷。Log likelihood也比较折中。你也可以综合这几种指数做出自己的分析。按这几种指数都排在很前面的,那毫无疑问肯定是显著搭配词了。
大致是这样,《语料库应用教程》中有很详细的论述,你可以找书仔细读读。
请问我计算中文的词语搭配强度,该用哪个软件好,用那种值?我用BFSU计算不出来
 

xujiajin

管理员
Staff member
回复: 搭配词的搭配力计算

可以计算MI和Z值,你看一下帮助文件,跟计算英文搭配值一样。
 
顶部