请教抽样提取索引的原则

请教各位高手很弱的入门问题:卫乃兴老师的《基于语料库和语料库驱动的词语搭配研究》中提到“提取索引时,随机的方法很重要;大型语料库中含有关键词的索引可能极多,全部提取出来不必要也不便于观察和描述。”请教各位:
1.抽样提取索引有什么原则可遵循吗?通常的做法是怎样的?
2.我在北大现代汉语语料库中搜索到KWIC索引170785条,在BNC中搜索的KWIC索引23427条,在进行词语搭配研究中应采取怎样的抽样提取索引比较合适?

谢谢各位!
 
As in other linguistics research, random sampling, stratified sampling or combined are usually used.
 
回复: Re: 请教抽样提取索引的原则

Thank you,Dr. Xu! But can you tell me the principle of random sampling in detail?
 
回复: 请教抽样提取索引的原则

在卫乃兴、李文中和濮建忠三位博士合著的《语料库应用研究》一书P30的注释里终于发现了Sinclair抽样提取索引的原则,原文照引如下:
“Sinclair的做法是该词语在语料库的频数除以要求的索引行数,获得索引行抽样的间隔。如某一词语的原始频数为5000,如需要提取25行索引,那么5000/25=200,即分别抽取第1行,第201行,第401行等。”

希望以上“发现”对于其他像我这样尚在语料库语言学大门外徘徊的新手有所助益,同时也衷心感谢corpus4u为我们提供了学习和交流的空间,谢谢各位的无私奉献!:)
 
回复: 请教抽样提取索引的原则

恩,但理论即便是知道了,还要知道具体如何操作,总不可能都是手工抽取吧。一定是通过编程或软件实现。但目前计算机方面的一些问题是制约大家深入研究的一个问题。
 
回复: 请教抽样提取索引的原则

使用 WordSmith Tool 4.0 的 Concord 进行检索的时候,可以进行抽样的设定。

Settings >> Adjust Settings >> Concord >> at random, 1 in 5

上面设定的是每 5 行取 1 行,比如你的检索有 500 行,那么随机抽取 100 行。
 
回复: 请教抽样提取索引的原则

Xaira also allows random sampling.
 
回复: 请教抽样提取索引的原则

谢谢Haiyang和Xiaoz!不过还想问问AncConc里面有这项随机抽取的功能吗?
 
Back
顶部