现在有10个文本集,这10个文本集收集了10年间某领域的所有文章,每年的文章放在一个文本集中。每个文本集有两百篇左右的文章。
我想研究的是:某个概念在这十年间,在这个领域中的重要性是如何变化的。我首先统计了这个词在每个文本集中的简单频数(关键字出现次数/总字数),发现频数在10年间呈明显下降趋势。但我计算了一下这个词在每个文本集中的TF-IDF权重之后,发现,TF-IDF权重在10年间基本保持一致水平。
我到底应该用那个结果呢?这两个结果出入好大……对于我这种研究,要看这个关键字在10年间重要性的变化,到底应该用简单频数来排序还是用TF-IDF权重来排序呢?
谢谢!
我想研究的是:某个概念在这十年间,在这个领域中的重要性是如何变化的。我首先统计了这个词在每个文本集中的简单频数(关键字出现次数/总字数),发现频数在10年间呈明显下降趋势。但我计算了一下这个词在每个文本集中的TF-IDF权重之后,发现,TF-IDF权重在10年间基本保持一致水平。
我到底应该用那个结果呢?这两个结果出入好大……对于我这种研究,要看这个关键字在10年间重要性的变化,到底应该用简单频数来排序还是用TF-IDF权重来排序呢?
谢谢!