旧话重提:对语料库进行取样,如何保证样本的代表性?

singer

普通会员
《中国学生英语口语中话语标记语的使用研究》,王立非 祝卫华,2005/3. 该文中提到,“本研究相应地从BNC口语子库中随机抽取约460,000个词符的语料 ”。还有一些研究也是从BNC中随机抽取一定数量的语料来进行研究。我的问题是:这样抽取的样本的代表性如何?
 
中国学生口语语料当然最好能和国际学生或成人的口语对比为好,其中还涉及到话语内容、时间等等因素的可比性。但是,就像找对象一样,搞不到理想的女朋友,总不能打一辈子光棍吧? 退而求其次,能自圆其说就行。不过,在文章中指明研究的局限性是比较负责任的做法。
 
Back
顶部