急问:keyword analysis可以用来对比大小相当的可比语料库吗

各位高手:我最近在思考这个问题,想听到大家的意见。
一般来说 keyword analysis 是拿一个小的专题语料库与一个大的普通语料库对比 从而得出这个专题语料库的一些列主题词。在对比wordlist时我感觉就是在对每个词在两个语料库中出现的次数做对比,用卡方或对数似然率来得到一系列词频有显著差异的词 就是主题词。
如果我的理解正确的话,是否也可以拿两个大小相当的可比语料库A/B(比如中美英语媒体关于同一事件的报道)来做keyword analysis同样步骤出来的结果应该是 AB两个库中 词频差异显著的一系列词?最后的结果不一定叫主题词,因为这两个库可能本来就是同一主题,但结果能让我们看到这两个库在用词上的差异,然后可以再继续选择个别的词去分析。

请问这个理解对吗 这个思路可行吗?
若不行的话 只能自己预选一些词去做卡方或Log-likelihood检验 发现一些词频差异显著的词 但是我想 这些词应该包括在keyword结果里面,所以先用keyword更能体现 corpus-driven的精神。
 
回复: 急问:keyword analysis可以用来对比大小相当的可比语料库吗

1.我好像记得有人在作中介语特征分析的时候,这么干的。
2. 但是,这绝对不是主题词或主题性的分析,仅仅是词频的对比而已,我的浅见
3. 未经赋码的语料,这种对比往往会出问题,因为词性、用法、位置会对频数产生影响。
 
Back
顶部