以下是引用 slgg6985 在 2006-3-2 9:35:01 的发言:
偶是语料库的“菜鸟”,近日购买了杨惠中教授的CLEC语料库(厚厚一本书加光盘)来研习。有一点搞不明白,想请教众位“大虾”。在100万词的语料库中,其实只有为数不多的几个作文题。每个作文题每个学生写100-200多个词,因此,每一个作文题下面收集了几百篇(大概是200篇或更多)的作文,因此每个题目的作文词数(tokens)达到了几万。从这样构成的learner corpus中,能否真正得出可靠的数据呢?就此问题请教诸位,谢啦!
以下是引用 slgg6985 在 2006-3-2 9:35:01 的发言:
偶是语料库的“菜鸟”,近日购买了杨惠中教授的CLEC语料库(厚厚一本书加光盘)来研习。有一点搞不明白,想请教众位“大虾”。在100万词的语料库中,其实只有为数不多的几个作文题。每个作文题每个学生写100-200多个词,因此,每一个作文题下面收集了几百篇(大概是200篇或更多)的作文,因此每个题目的作文词数(tokens)达到了几万。从这样构成的learner corpus中,能否真正得出可靠的数据呢?就此问题请教诸位,谢啦!