[求助]杨惠中教授CLEC的构成合理吗?

slgg6985

普通会员
偶是语料库的“菜鸟”,近日购买了杨惠中教授的CLEC语料库(厚厚一本书加光盘)来研习。有一点搞不明白,想请教众位“大虾”。在100万词的语料库中,其实只有为数不多的几个作文题。每个作文题每个学生写100-200多个词,因此,每一个作文题下面收集了几百篇(大概是200篇或更多)的作文,使每个题目的作文词数(tokens)达到了几万。从这样构成的learner corpus中,能否真正得出可靠的数据呢?就此问题请教诸位,谢啦!

[本贴已被 作者 于 2006年03月02日 20时37分18秒 编辑过]
 
鄙人有个想法。想让本站C友讨论一下CLEC的不合理之处。因为,我在用CLEC写硕士论文的时候已经发现不少。其实tiger在以前就此问题早已经发过帖子。此举并非指责CLEC,而是为CLEC的完善提供建议!!也为将来的语料库建设提供一些前车之鉴。你们说呢?



[本贴已被 作者 于 2006年03月02日 12时22分25秒 编辑过]
 
回复:[求助]杨惠中教授CLEC的构成合理吗?

以下是引用 slgg69852006-3-2 9:35:01 的发言:
偶是语料库的“菜鸟”,近日购买了杨惠中教授的CLEC语料库(厚厚一本书加光盘)来研习。有一点搞不明白,想请教众位“大虾”。在100万词的语料库中,其实只有为数不多的几个作文题。每个作文题每个学生写100-200多个词,因此,每一个作文题下面收集了几百篇(大概是200篇或更多)的作文,因此每个题目的作文词数(tokens)达到了几万。从这样构成的learner corpus中,能否真正得出可靠的数据呢?就此问题请教诸位,谢啦!

深有同感。其实问题还不止这些。不过作为国内的首次尝试,固然有不少瑕疵。但,仍然敬佩那些为CLEC的付梓而付出辛勤劳动的人们!由于申请到的研究经费非常有限,很多时候,他们的劳动都是免费义务的。
 
回复:[求助]杨惠中教授CLEC的构成合理吗?

以下是引用 slgg69852006-3-2 9:35:01 的发言:
偶是语料库的“菜鸟”,近日购买了杨惠中教授的CLEC语料库(厚厚一本书加光盘)来研习。有一点搞不明白,想请教众位“大虾”。在100万词的语料库中,其实只有为数不多的几个作文题。每个作文题每个学生写100-200多个词,因此,每一个作文题下面收集了几百篇(大概是200篇或更多)的作文,因此每个题目的作文词数(tokens)达到了几万。从这样构成的learner corpus中,能否真正得出可靠的数据呢?就此问题请教诸位,谢啦!

我也有同感。我在写硕士论文时,参考了很多以CLEC语料库为数据源的学兄学姐的论文,发现很多数据不可靠,原因就是同一个topic的作文太多了。虽然是名人主持的项目,但是有必要提醒后来的人,注意这个“致命”的问题,不能一味迷信,否则会误人子弟。

[本贴已被 作者 于 2006年03月03日 08时30分08秒 编辑过]
 
在《基于CLEC语料库的中国学习者应与分析》(杨惠中、桂诗春、杨达复主编)中,杨惠中老师有一篇《试卷命题作文与自由作文-关于建库时的语料选择》的文章,其中他也提到了CLEC的不足之处:
“……在选择St3,St4语料时,对学生不同语言能力水平(作文的不同得分)的抽样考虑较多,而对题材的多样性注意不够,对自由作文的采样不够,这样会影响到对学生中间语的分析。”
具体的大家可以看一下原文。不过我也觉得现在做一些对比研究存在挺大的困难,但是就目前来说也只能求助于CLEC来研究我们学习者中介语了。期待以后能有更具代表性的语料库的建成。
 
Back
顶部