回复: 请教抽样提取索引的原则
在卫乃兴、李文中和濮建忠三位博士合著的《语料库应用研究》一书P30的注释里终于发现了Sinclair抽样提取索引的原则,原文照引如下:
“Sinclair的做法是该词语在语料库的频数除以要求的索引行数,获得索引行抽样的间隔。如某一词语的原始频数为5000,如需要提取25行索引,那么5000/25=200,即分别抽取第1行,第201行,第401行等。”
希望以上“发现”对于其他像我这样尚在语料库语言学大门外徘徊的新手有所助益,同时也衷心感谢corpus4u为我们提供了学习和交流的空间,谢谢各位的无私奉献!:)