一个词是否是关键词,仅仅靠它在该文本中出现的频率是不够的,还需要有个参考语料库(如:BNC)。例如:the,a, of 等词在文本中的频率都很高,但是它们不是关键词,因为它们在任何文本中的频率都很高。当计算一个词是否是一个文本的关键词时可以通过卡方判断,通过计算卡方值的大小就可以判断一个词是否是关键词。计算方法如下:
X2= (|ad-bc|-N/2)2 * N / (a+b)(c+d)(b+d)(c+d)
(N=a+b+c+d)
举例:detective一词在某长度为1000的文本中出现了10次,在容量为10000词的参照语料库中出现了1词,如下表:
词的频数 文本长度 总和
被研究的文本 A=10 B=1000 A+B=1010
参照语料库 C=1 D= 10000 C+D=10001
总和 A+C=11 B+D = 11000 N=11011
把这些值带入公式可得:
X2 = 78.7
一般卡方大于3.84就有显著意义,很显然detective这个词是关键词。
(以上内容参考了杨慧中老师编写的《语料库语言学》第160-161页的内容)