如何判断一篇文章和一个语料库之间的相关性?

oscar3

高级会员
本人要给学生布置一篇文章,让学生用语料库来进行研究型学习。不过,想事先确定一下该文章和学生将使用的语料库之间的相关性如何。当然,仅文本类型和文章的话题似乎也可以断定文章和语料库之间大体上相关,但是,想更加准确一些。查阅的有关文献,不少文章谈到用Mike Scott的Keyowrds来比较两个语料库的相似性和差异性(Sardinha,1999)。另外Sardinha 还在另外以篇文章提到reference corpus的容量是观察语料库的5倍时,提取出的keywords最多,但是对于观察语料库(文本)的大小没有说明。象我这里将一篇文章和一个容量大上几十倍的语料库相比合适吗?请大家赐教!:)
 
Last edited:
回复: 如何判断一篇文章和一个语料库之间的相关性?

Tony BERBER-SARDINHA的这篇文章谈论了这个问题:
Comparing corpora with WordSmith Tools: How large must the reference corpus be?
http://www.aclweb.org/anthology-new/W/W00/W00-0902.pdf


理论上讲,取样越小,极端值就容易出现,代表性就越差。把小学生的一篇100字的作文和高考作文比一定会有差别,再和一亿字的语料库比也一定有差别。关键在于要这个差别干什么?从差别中想得到什么结论?
 
回复: 如何判断一篇文章和一个语料库之间的相关性?

Thank you, both laohong and xiaoz, for the two links you gave. I found the two pappers are very helpful for me, although they do not provide the exact idea I want. Thanks again!
 
回复: 如何判断一篇文章和一个语料库之间的相关性?

Both Laohong and Dr. Xiao are really instructive tutors, always knowing what is helpful!
 
Back
顶部