有这种“通用的随机抽样工具” 吗

这个问题是帮朋友问的!他网络很卡,说登陆不上这个网,我帮他问下。

求一个通用的抽样工具
从一个语料库中随机抽取一定数目的语料,数目可以用户指定,比如1000条。目的是由软件帮助随机抽取文件。

感谢各位朋友回复。
 
回复: 有这种“通用的随机抽样工具” 吗

WordSmith allows you to extract every n-th concordance.
Xaira allows you to have n (you specify n) random samples.
 
回复: 有这种“通用的随机抽样工具” 吗

In WordSmith Concord result window, find [Edit]-[Delete]-[Reduce to N] to extract random concordance lines as requested.

It is pointless to randomize text samples as we usually want more instead of less texts.
But we do need to build subcorpora of certain genre, gender-distinguished etc type out of big corpus. The new release of SWECCL (2.0) will include a subcorpus generator which helps extract subcorpora based student levels, timed-untimed, essay topics, etc.
 
回复: 有这种“通用的随机抽样工具” 吗

支持jiajin的看法!语料库建立时就已经是人为地、有选择性地抽样了语料,再在这样的语料库里“随机”抽样1000条出来,不知道意义有多大。
 
回复: 有这种“通用的随机抽样工具” 吗

我这里有个简单的随即抽样的软件,是我们自己用VC写的,如果你感兴趣的话,可以给我发邮件,我发给你.
邮箱:yangminggaol@163.com

非常感谢您发来的软件!
 
Last edited by a moderator:
回复: 有这种“通用的随机抽样工具” 吗

如果方便的话,能否上传到这里?
 
回复: 有这种“通用的随机抽样工具” 吗

感谢回复,我又问了那个朋友,他也是咱们论坛上的。他说他是建库用。不是在建好的库里再随机抽取,可能是我们的帖子没说明白,呵呵。就是用软件实现随机抽取。我刚才给楼上说有vc的朋友发信了。期待您的回复。其实很多小工具都很实用,呵呵
 
Back
顶部