问题一:如果我从一亿running words的BNC里抽样,比如,have +noun 的combination都抽出来。假设我得到5000条结果。我只打算研究其中的100条。抽样的科学合理的方法该是如下哪种:1.从5000条中随机抽取100条。 2. 从设置N(比如5)次以上的共现结果中抽取100条。 3. 从得到5000条结果结果中,依照have和名词的共现的各个combination 中按共现频次多少的比例,依次从各个combinations中抽取相应比例的concordance lines, 合计抽取100条。...