求助语料抽样工具

Sun111 · 2025-05-23

想请教各位老师，除了北外语料库团队开发的concordance sampler用于随机抽样，是否还有分层抽样的工具。研究需要对年代进行分层抽样，在这个地方纠结住了。

xujiajin · 2025-05-24

我前几个月做了个随机抽样工具，主要针对语料库研究中最常见的两种随机取样问题。https://corpus.bfsu.edu.cn/BFSU_Text_Randomizer2.zip
不知能否解决您的问题？

如果不能的话，不知您讲的针对年代进行分层抽样的具体含义。

举例说，是否：（1）您有5000个文本，分属不能年份，要在每10年一个区间随机抽取一定数量的文本，存为若干个子文件夹？
或者是：（2）您对检索所得结果需按年份区间随机抽取索引行？

您的需求描述越具体，我们越能帮到您。

Sun111 · 2025-05-24

谢谢许教授，您这个工具还有之前北外官网的抽样工具可以解决随机抽样的问题。我具体描述一下我的研究情况：
“来”的历时研究，在CCL古汉语语料库中分别检索14个朝代“来”的语料。想在每个朝代的语料结果进行随机抽取。类似于您提到的第二种情况。现在比较纠结如何确定每个朝代随机抽取的量。是14个朝代都抽取同样的量，还是根据每个朝代语料数量的比例确定随机抽取的量。就比如，“来”在周朝出现了500次，在唐朝出现了1500次，在清朝出现了10000次。那么我是应该每个朝代都抽取300条，还是周朝300，唐朝900...这是现在比较迷惑的地方，再次感谢您提供的新的抽样工具。

xujiajin · 2025-05-24

根据您提供的信息，个人建议：
就低。即若出现次数最少朝代“来”的频次为100次，其他13个朝代则均随机抽取100条。
如每个朝代量均很多，则以某一两个朝代先期开展预研究，探索大约几百条例证可以得到较为稳定的词汇语义用法规律，则定在该基础频数，同时余下12-13个朝代随机抽取相近频次。

仅供参考。

其他需要考虑的因素：
（1）检索结果是否都是合法例证。比如，是否只研究黏着语素用法，或是同时考虑双音词/复合词？
（2）是否开展相应的统计检验或建模？相关统计方法有最低样本数/例证数的要求。
等。

Sun111 · 2025-05-24

多谢许教授耐心解答，十分受益。关于您第二条提到的是否开展相应的统计检验或建模，建模参考的是您2023年的《语料库研究方法》。但统计检验这方面的知识还有些欠缺，特别希望许教授能推荐一些相关文献。这也是我一直纠结抽样数量和方法的原因，总是怕前期工作没有做好，影响后续研究的开展。

xujiajin · 2025-05-29

作者 Sun111:
多谢许教授耐心解答，十分受益。关于您第二条提到的是否开展相应的统计检验或建模，建模参考的是您2023年的《语料库研究方法》。但统计检验这方面的知识还有些欠缺，特别希望许教授能推荐一些相关文献。这也是我一直纠结抽样数量和方法的原因，总是怕前期工作没有做好，影响后续研究的开展。

其实有关建模的知识，问大模型就很管用。

Sun111 · 2025-05-29

明白，谢谢许老师！前几天网站一直打不开，在这个论坛学到很多东西。

求助语料抽样工具

Sun111

xujiajin

管理员

Sun111

xujiajin

管理员

Sun111

xujiajin

管理员

Sun111