从T值的计算公式说起

昨日读到许博士的帖子,谈到span的数量问题。又提到Mike Scott在计算t值时用了span。有许多疑惑之处,就教于各位。
1,关于t值的计算公式。邓耀臣博士在《词语搭配抽取的统计方法及计算机实现》和《动词研究中的统计方法》2文中,列出了t值的计算公式,其中用到了span这个参数。而dzhigner在《将Excel作为搭配词分析的工具》一贴中计算t值的公式中,没有用到span。两个计算公式的差别似乎还不仅仅是span。我查阅《Using Statistics in Lexical Analysis》一文,其中的t值计算公式又有不同。请老师们解惑:(1)为何计算公式不同?(2)采用span参数和不用有何区别?
2,接着上面这个问题,邓耀臣博士在上述两文中计算MI值的公式也不同,一个用了span,一个没用。有何不同?
 
回复: 从T值的计算公式说起

dzhigner老师的MI分值测算公式:
MI=LOG((FNC*N)/(FN*FC),2)

T分值测算公式:
T=(FNC/N-(FN*FC)/N^2)/(Sqr(FNC)/N)

邓耀臣老师的MI公式1:
I(x,y)=log2[P(O)/P(E)] = log2[f(x,y) *N]/(f(x)f(y)*2S)]

MI公式2:
[ log10(fxy*N/fx* fy)] /log10(2) 

T值公式:
(fxy*N-fxfy* 2S) / SQRT(fxfy* 2S* (N-fy))

台湾“中研院”的MI公式:
log[ (f(x,y)/n) /(f(x)/n * f(y)/n))]
 
Back
顶部