请问大家一个问题
最近我在用loglikelihood calculator 做论文, 以前 用的是 chi-square test
我始终有一个问题搞不明白, 就是, 如何确定 两个语料库中 词频比较多寡的关键值 p值是如何确定的, 除了, + - 表示频率多寡之外, 后面的数字怎么解读, 是不是差距越大, 数值越大呢?
譬如, 我用clec 和bnc 中的介词as 数量来比较,
CLEC 总词数1070602 介词as 数1100词次
bnc1 00000000 介词as有174825词次
得出:
LL - 370.62 LL值应该怎么解读呢?怎么知道区别显著或者是一般呢??
谢谢了!
最近我在用loglikelihood calculator 做论文, 以前 用的是 chi-square test
我始终有一个问题搞不明白, 就是, 如何确定 两个语料库中 词频比较多寡的关键值 p值是如何确定的, 除了, + - 表示频率多寡之外, 后面的数字怎么解读, 是不是差距越大, 数值越大呢?
譬如, 我用clec 和bnc 中的介词as 数量来比较,
CLEC 总词数1070602 介词as 数1100词次
bnc1 00000000 介词as有174825词次
得出:
LL - 370.62 LL值应该怎么解读呢?怎么知道区别显著或者是一般呢??
谢谢了!