Sub-corpus creator等距抽取总库文件生成子库困难

许老师好,去年夏天北京语料库研修班教了利用“Sub-corpus creator等距抽取总库文件生成子库”我还记了笔记“ [FONT=宋体]等距抽样([/FONT][FONT=宋体]File names match[/FONT][FONT=宋体])[/FONT][FONT=宋体]:[/FONT][FONT=宋体]如样本中[/FONT][FONT=宋体] \s+03 [/FONT][FONT=宋体]即根据文件名中倒数第三位数字每[/FONT][FONT=宋体]10[/FONT][FONT=宋体]个文本抽取一个文本;[/FONT][FONT=宋体] \s+[05]3\ [/FONT][FONT=宋体]每隔[/FONT][FONT=宋体]5[/FONT][FONT=宋体]个文本,即倒数第三位数字可[/FONT][FONT=宋体]0[/FONT][FONT=宋体]可[/FONT][FONT=宋体]5.[/FONT]”,但操作时却不能抽取相应文本,请许博士指点,谢谢!
 
回复: Sub-corpus creator等距抽取总库文件生成子库困难

许博士,是这样的,我要抽取WECCL2.0中英语专业(STU1)二年级(GRADE2)的作文文件,这个很容易做到,2.0书自带的软件很好提取,现在提出来2075个符合条件的文件,但我想从中抽五分之一415个文件,这时文件名已经不是最初总库的顺序了,可能也无法用sub-corpus creator软件那样生存了(尽管那样生存也没弄好)请问如何在文件夹中等距抽取文件,即按文件自然排列每5个文件抽取一个:5th, 10th...415th,不知道您可有什么便捷的办法,多谢了。
 
回复: Sub-corpus creator等距抽取总库文件生成子库困难

不是很清楚你用的是哪个语料库
从你给你的表达式看,应该是s的大小写搞错了
\S+03
\S+[05]3

BTW:你的帖子标题写得比较清楚具体,大家应该向你学习。我特别不喜欢有的网友用“求助”“急急急”做标题。
 
回复: Sub-corpus creator等距抽取总库文件生成子库困难

谢谢许老师啊,表达式我改成大写的好像还是抽取不到文件,不过没有关系了,我帖子上第二次提的问题在李亮博士的指导下已经解决了,准备发帖和其他C友分享一下,谢谢您!
 
Back
顶部