紧急求助:研究关键字在文本集中的重要性,究竟是用简单频数,还是用TF-IDF权重?

现在有10个文本集,这10个文本集收集了10年间某领域的所有文章,每年的文章放在一个文本集中。每个文本集有两百篇左右的文章。

我想研究的是:某个概念在这十年间,在这个领域中的重要性是如何变化的。我首先统计了这个词在每个文本集中的简单频数(关键字出现次数/总字数),发现频数在10年间呈明显下降趋势。但我计算了一下这个词在每个文本集中的TF-IDF权重之后,发现,TF-IDF权重在10年间基本保持一致水平。

我到底应该用那个结果呢?这两个结果出入好大……对于我这种研究,要看这个关键字在10年间重要性的变化,到底应该用简单频数来排序还是用TF-IDF权重来排序呢?:confused::confused::confused:

谢谢!
 
回复: 紧急求助:研究关键字在文本集中的重要性,究竟是用简单频数,还是用TF-IDF权重?

在计算公式正确的前提下 当然是以后者为准 不过“关键字的重要性”在这里只是在这个文本集范围内有效
 
回复: 紧急求助:研究关键字在文本集中的重要性,究竟是用简单频数,还是用TF-IDF权重?

那比方说,我计算出关键词ABC在文本集1中的TF-IDF权重是0.0015,在文本集2中是0.0020,那可以说关键词ABC在文本集2中的重要性比在文本集1中的要高吗?
 
回复: 紧急求助:研究关键字在文本集中的重要性,究竟是用简单频数,还是用TF-IDF权重?

TFIDF不是算重要性的公式,只是用来给词赋上一个对检索有利的值
 
Back
顶部