求助语料抽样工具

想请教各位老师,除了北外语料库团队开发的concordance sampler用于随机抽样,是否还有分层抽样的工具。研究需要对年代进行分层抽样,在这个地方纠结住了。
 
我前几个月做了个随机抽样工具,主要针对语料库研究中最常见的两种随机取样问题。https://corpus.bfsu.edu.cn/BFSU_Text_Randomizer2.zip
不知能否解决您的问题?

如果不能的话,不知您讲的针对年代进行分层抽样的具体含义。

举例说,是否:(1)您有5000个文本,分属不能年份,要在每10年一个区间随机抽取一定数量的文本,存为若干个子文件夹?
或者是:(2)您对检索所得结果需按年份区间随机抽取索引行?

您的需求描述越具体,我们越能帮到您。
 
Last edited:
谢谢许教授,您这个工具还有之前北外官网的抽样工具可以解决随机抽样的问题。我具体描述一下我的研究情况:
“来”的历时研究,在CCL古汉语语料库中分别检索14个朝代“来”的语料。想在每个朝代的语料结果进行随机抽取。类似于您提到的第二种情况。现在比较纠结如何确定每个朝代随机抽取的量。是14个朝代都抽取同样的量,还是根据每个朝代语料数量的比例确定随机抽取的量。就比如,“来”在周朝出现了500次,在唐朝出现了1500次,在清朝出现了10000次。那么我是应该每个朝代都抽取300条,还是周朝300,唐朝900...这是现在比较迷惑的地方,再次感谢您提供的新的抽样工具。
 
根据您提供的信息,个人建议:
就低。即若出现次数最少朝代“来”的频次为100次,其他13个朝代则均随机抽取100条。
如每个朝代量均很多,则以某一两个朝代先期开展预研究,探索大约几百条例证可以得到较为稳定的词汇语义用法规律,则定在该基础频数,同时余下12-13个朝代随机抽取相近频次。

仅供参考。

其他需要考虑的因素:
(1)检索结果是否都是合法例证。比如,是否只研究黏着语素用法,或是同时考虑双音词/复合词?
(2)是否开展相应的统计检验或建模?相关统计方法有最低样本数/例证数的要求。
等。
 
多谢许教授耐心解答,十分受益。关于您第二条提到的是否开展相应的统计检验或建模,建模参考的是您2023年的《语料库研究方法》。但统计检验这方面的知识还有些欠缺,特别希望许教授能推荐一些相关文献。这也是我一直纠结抽样数量和方法的原因,总是怕前期工作没有做好,影响后续研究的开展。
 
多谢许教授耐心解答,十分受益。关于您第二条提到的是否开展相应的统计检验或建模,建模参考的是您2023年的《语料库研究方法》。但统计检验这方面的知识还有些欠缺,特别希望许教授能推荐一些相关文献。这也是我一直纠结抽样数量和方法的原因,总是怕前期工作没有做好,影响后续研究的开展。
其实有关建模的知识,问大模型就很管用。
 
Back
顶部