有关从大样本中抽样的办法?

corpora

初级会员
#1
问题一:如果我从一亿running words的BNC里抽样,比如,have +noun 的combination都抽出来。假设我得到5000条结果。我只打算研究其中的100条。抽样的科学合理的方法该是如下哪种:1.从5000条中随机抽取100条。 2. 从设置N(比如5)次以上的共现结果中抽取100条。 3. 从得到5000条结果结果中,依照have和名词的共现的各个combination 中按共现频次多少的比例,依次从各个combinations中抽取相应比例的concordance lines, 合计抽取100条。


问题二:从诺大的BNC中指抽取100条,这100条是否能代表BNC? 担心被抽取语料的BNC太大,而抽取量太小,不合理的抽取方法。

感谢您的回答。
 
#2
问题一:如果我从一亿running words的BNC里抽样,比如,have +noun 的combination都抽出来。假设我得到5000条结果。我只打算研究其中的100条。抽样的科学合理的方法该是如下哪种:1.从5000条中随机抽取100条。 2. 从设置N(比如5)次以上的共现结果中抽取100条。 3. 从得到5000条结果结果中,依照have和名词的共现的各个combination 中按共现频次多少的比例,依次从各个combinations中抽取相应比例的concordance lines, 合计抽取100条。


问题二:从诺大的BNC中指抽取100条,这100条是否能代表BNC? 担心被抽取语料的BNC太大,而抽取量太小,不合理的抽取方法。

感谢您的回答。
只要抽样标准科学合理,结果就应该有代表性。抽取多少条视研究目的而定。如果怕简单随机抽样产生较大误差,可以进行分层抽样,只是麻烦一些。wordsmith可以对抽样行数经行设置<在settings-concord-randomised entries里>。我干脆就用Miniconc,要抽多少行都行!
 

corpora

初级会员
#3
回复: 有关从大样本中抽样的办法?

谢谢。Brainstorming. 是否可以稍微多说2句你的Miniconc..我不是很明白。
 
#4
MinConc是梁茂成老师开发的检索软件,设定显示多少行,屏幕上就展示多少行。这个是界面上的初始信息:
MiniConc 2009, by LIANG Maocheng, the National Research Center for Foreign Language Education, BFSU.
With MiniConc, you can:
1) get a random sample of concordance lines from specified corpus files;
2) search MiniConc result files with a universal regex "\t.+\t", a regex for people with regexophobia.
More information about the idea is available in:
Liang, M. Mini-text and its application in foreign language teaching. Computer-assisted Foreign Language Education in China. No. 3, 2009.
微型文本及其在外语教学中的应用. 《外语电化教学》2009年第3期
 
顶部