急问：keyword analysis可以用来对比大小相当的可比语料库吗

isabelnj · 2011-08-11

各位高手：我最近在思考这个问题，想听到大家的意见。
一般来说 keyword analysis 是拿一个小的专题语料库与一个大的普通语料库对比从而得出这个专题语料库的一些列主题词。在对比wordlist时我感觉就是在对每个词在两个语料库中出现的次数做对比，用卡方或对数似然率来得到一系列词频有显著差异的词就是主题词。
如果我的理解正确的话，是否也可以拿两个大小相当的可比语料库A/B（比如中美英语媒体关于同一事件的报道）来做keyword analysis同样步骤出来的结果应该是 AB两个库中词频差异显著的一系列词？最后的结果不一定叫主题词，因为这两个库可能本来就是同一主题，但结果能让我们看到这两个库在用词上的差异，然后可以再继续选择个别的词去分析。

请问这个理解对吗这个思路可行吗？
若不行的话只能自己预选一些词去做卡方或Log-likelihood检验发现一些词频差异显著的词但是我想这些词应该包括在keyword结果里面，所以先用keyword更能体现 corpus-driven的精神。

siqing3868 · 2011-08-14

回复: 急问：keyword analysis可以用来对比大小相当的可比语料库吗

1.我好像记得有人在作中介语特征分析的时候，这么干的。
2. 但是，这绝对不是主题词或主题性的分析，仅仅是词频的对比而已，我的浅见
3. 未经赋码的语料，这种对比往往会出问题，因为词性、用法、位置会对频数产生影响。

急问：keyword analysis可以用来对比大小相当的可比语料库吗

isabelnj

siqing3868