现想针对大学生四六级作文中的搭配情况进行研究,可是不解的是怎样对clec的st3和st4中的作文进行随机取样,它是一个整体啊(我用的是wst 3.0)
clec只有字数说明 没有篇数说明啊
还有 我只想从最简单的研究做起,只当是练习 不知100篇是否有价值?
clec只有字数说明 没有篇数说明啊
还有 我只想从最简单的研究做起,只当是练习 不知100篇是否有价值?
韩宝成的《外语教学科研中的统计方法》中提到三类抽样方法:简单随机抽样、等距抽样和分层抽样。供楼主参考
楼上误解了。我是说
[FONT=宋体]clec的这两个子库是把许多作文放到一个大文档里,(这与文老师的[/FONT]sweccl[FONT=宋体]不同,每篇作文是单独的文档,这样方便随机取样),随机取样怎么进行,需要手工剪切粘贴到新文档里么?[/FONT]
用wordsmith splitter切分后,只得到如下显示:st3.txt:2637lines. 拆分后的文本却看不到。请问老洪,这种情况如何解决?
弱弱地问个问题:
我试着用Splitter对st4进行切分,把end of text separator设置为<ST 4>,然后点Go Now!,却跳出对话框说“No enough room on drive \:”,这是为什么啊?我的盘上还有近1G的空间呢啊~
只能回帖还不能发新帖,所以就发在这里了。
请教大家:
我想区分一下Clec 语料库中4,6级考试作文和自由作文, 手头有书和光盘。据书上说这两个字库里有少量的自由作文,想把这部分自由作文清理出去, 但是看了下光盘上的数据, 不知道哪些是自由作文,只知道说有六个考试题目, 书上也没有提哪六个题目, 要不然还可以根据题目搜索。书上有提到考试作文有30万文字,而st3, st4的考试作文和自由作文加在一起是40万字左右。 那么该怎么区分哪些是自由作文,哪些是考试作文呢?
作文前面有一些标记 <WAY 1> <TYP 1> <SCH 2703> <DIC ?> 等等,但是不知道它们是什么意思, 书上也没有说。 哪位高手可以帮一下吗? 万分感谢!
CLEC那本书上有的,你好好看下。
<Way 1> 系试卷作文
<Way 2>系课堂作业
<Way 3>系课外作业
自由作文应该说是<Way 2>和<Way 3>吧。