各位高手:我最近在思考这个问题,想听到大家的意见。
一般来说 keyword analysis 是拿一个小的专题语料库与一个大的普通语料库对比 从而得出这个专题语料库的一些列主题词。在对比wordlist时我感觉就是在对每个词在两个语料库中出现的次数做对比,用卡方或对数似然率来得到一系列词频有显著差异的词 就是主题词。
如果我的理解正确的话,是否也可以拿两个大小相当的可比语料库A/B(比如中美英语媒体关于同一事件的报道)来做keyword analysis同样步骤出来的结果应该是 AB两个库中 词频差异显著的一系列词?最后的结果不一定叫主题词,因为这两个库可能本来就是同一主题,但结果能让我们看到这两个库在用词上的差异,然后可以再继续选择个别的词去分析。
请问这个理解对吗 这个思路可行吗?
若不行的话 只能自己预选一些词去做卡方或Log-likelihood检验 发现一些词频差异显著的词 但是我想 这些词应该包括在keyword结果里面,所以先用keyword更能体现 corpus-driven的精神。
一般来说 keyword analysis 是拿一个小的专题语料库与一个大的普通语料库对比 从而得出这个专题语料库的一些列主题词。在对比wordlist时我感觉就是在对每个词在两个语料库中出现的次数做对比,用卡方或对数似然率来得到一系列词频有显著差异的词 就是主题词。
如果我的理解正确的话,是否也可以拿两个大小相当的可比语料库A/B(比如中美英语媒体关于同一事件的报道)来做keyword analysis同样步骤出来的结果应该是 AB两个库中 词频差异显著的一系列词?最后的结果不一定叫主题词,因为这两个库可能本来就是同一主题,但结果能让我们看到这两个库在用词上的差异,然后可以再继续选择个别的词去分析。
请问这个理解对吗 这个思路可行吗?
若不行的话 只能自己预选一些词去做卡方或Log-likelihood检验 发现一些词频差异显著的词 但是我想 这些词应该包括在keyword结果里面,所以先用keyword更能体现 corpus-driven的精神。