求教“关键主题词”的一个问题 (key keywords)

#1
关键主题词边界确定的问题
对560篇航空航天领域的文本进行关键主题词的统计,共统计出5000多个主题词,其中出现在6篇文本以上,文本覆盖率在1%以上的主题词有1100多个。而统计结果中没有主题性信息(keness),只有文本分布信息。
那么如何来确定关键主题词的边界呢,也就是那些词是真正的关键主题词?是依靠分布,还是依靠频率呢?如果两者都考虑,如何来确定呢?
 
#2
回复: 求教“关键主题词”的一个问题 (key keywords)

请问你是用什么软件,ws吗?keyness是要通过与reference corpus进行对比后得出的吧
 
#4
回覆: 回复: 求教“关键主题词”的一个问题 (key keywords)

请问你是用什么软件,ws吗?keyness是要通过与reference corpus进行对比后得出的吧
是的ws5.0,对比之后得到的结果,这是借鉴梁老师在《语料库应用教程》中获取电力英语technical wordlist的做法。
 
顶部