[求助]杨惠中教授CLEC的构成合理吗？

slgg6985 · 2006-03-02

偶是语料库的“菜鸟”，近日购买了杨惠中教授的CLEC语料库（厚厚一本书加光盘）来研习。有一点搞不明白，想请教众位“大虾”。在100万词的语料库中，其实只有为数不多的几个作文题。每个作文题每个学生写100-200多个词，因此，每一个作文题下面收集了几百篇（大概是200篇或更多）的作文，使每个题目的作文词数(tokens)达到了几万。从这样构成的learner corpus中，能否真正得出可靠的数据呢？就此问题请教诸位，谢啦！

[本贴已被作者于 2006年03月02日 20时37分18秒编辑过]

hancunxin · 2006-03-02

鄙人有个想法。想让本站C友讨论一下CLEC的不合理之处。因为，我在用CLEC写硕士论文的时候已经发现不少。其实tiger在以前就此问题早已经发过帖子。此举并非指责CLEC，而是为CLEC的完善提供建议！！也为将来的语料库建设提供一些前车之鉴。你们说呢？

[本贴已被作者于 2006年03月02日 12时22分25秒编辑过]

hancunxin · 2006-03-02

回复：[求助]杨惠中教授CLEC的构成合理吗？

以下是引用 slgg6985 在 2006-3-2 9:35:01 的发言：
偶是语料库的“菜鸟”，近日购买了杨惠中教授的CLEC语料库（厚厚一本书加光盘）来研习。有一点搞不明白，想请教众位“大虾”。在100万词的语料库中，其实只有为数不多的几个作文题。每个作文题每个学生写100-200多个词，因此，每一个作文题下面收集了几百篇（大概是200篇或更多）的作文，因此每个题目的作文词数(tokens)达到了几万。从这样构成的learner corpus中，能否真正得出可靠的数据呢？就此问题请教诸位，谢啦！

深有同感。其实问题还不止这些。不过作为国内的首次尝试，固然有不少瑕疵。但，仍然敬佩那些为CLEC的付梓而付出辛勤劳动的人们！由于申请到的研究经费非常有限，很多时候，他们的劳动都是免费义务的。

yuliaoku · 2006-03-02

回复：[求助]杨惠中教授CLEC的构成合理吗？

以下是引用 slgg6985 在 2006-3-2 9:35:01 的发言：
偶是语料库的“菜鸟”，近日购买了杨惠中教授的CLEC语料库（厚厚一本书加光盘）来研习。有一点搞不明白，想请教众位“大虾”。在100万词的语料库中，其实只有为数不多的几个作文题。每个作文题每个学生写100-200多个词，因此，每一个作文题下面收集了几百篇（大概是200篇或更多）的作文，因此每个题目的作文词数(tokens)达到了几万。从这样构成的learner corpus中，能否真正得出可靠的数据呢？就此问题请教诸位，谢啦！

我也有同感。我在写硕士论文时，参考了很多以CLEC语料库为数据源的学兄学姐的论文，发现很多数据不可靠，原因就是同一个topic的作文太多了。虽然是名人主持的项目，但是有必要提醒后来的人，注意这个“致命”的问题，不能一味迷信，否则会误人子弟。

[本贴已被作者于 2006年03月03日 08时30分08秒编辑过]

saraphim · 2006-03-02

在《基于CLEC语料库的中国学习者应与分析》（杨惠中、桂诗春、杨达复主编）中，杨惠中老师有一篇《试卷命题作文与自由作文－关于建库时的语料选择》的文章，其中他也提到了CLEC的不足之处：
“……在选择St3，St4语料时，对学生不同语言能力水平（作文的不同得分）的抽样考虑较多，而对题材的多样性注意不够，对自由作文的采样不够，这样会影响到对学生中间语的分析。”
具体的大家可以看一下原文。不过我也觉得现在做一些对比研究存在挺大的困难，但是就目前来说也只能求助于CLEC来研究我们学习者中介语了。期待以后能有更具代表性的语料库的建成。

[求助]杨惠中教授CLEC的构成合理吗？

slgg6985

普通会员

hancunxin

Moderator

hancunxin

Moderator

yuliaoku

初级会员

saraphim

初级会员