问题一:如果我从一亿running words的BNC里抽样,比如,have +noun 的combination都抽出来。假设我得到5000条结果。我只打算研究其中的100条。抽样的科学合理的方法该是如下哪种:1.从5000条中随机抽取100条。 2. 从设置N(比如5)次以上的共现结果中抽取100条。 3. 从得到5000条结果结果中,依照have和名词的共现的各个combination 中按共现频次多少的比例,依次从各个combinations中抽取相应比例的concordance lines, 合计抽取100条。
问题二:从诺大的BNC中指抽取100条,这100条是否能代表BNC? 担心被抽取语料的BNC太大,而抽取量太小,不合理的抽取方法。
感谢您的回答。
问题二:从诺大的BNC中指抽取100条,这100条是否能代表BNC? 担心被抽取语料的BNC太大,而抽取量太小,不合理的抽取方法。
感谢您的回答。