请教:自建语料库的一般容量

如题,请教各位老师,自建的小型语料库一般需要达到多少词汇的容量才够称得上语料库?

谢谢!
 
大语料库=拦河坝,小语料库=试管

语言教学需要稳定的交际场所,所以诞生了教室教师黑板;
语言研究需要稳定的观察时空,所以诞生了语料检索统计
涉足语料的研究者就像渔夫,抛一次渔网就希冀能捞得足够多的鱼
语料库的容量是为语料研究者的“鱼量”服务的
如果你是研究很低频的现象,那么,再大的库也未必能满足需求;
如果你是研究the这样的高频现象的高频本质,那么哪怕只有10个句子的“库”也许都满足了需求
反过来,语料的需求者有两种类型的需求的,一种需求是举例(有若干个例子就心满意足),另一种需求是统计(越多越好,直到有统计显著性为止)
任何现象都可以区分为多种本质或多种品种类型,如果你需要分析的对象你能从语料库拿到100个例子且性质相同无需再细分类型)就显得鱼量充足了;但如果100个例子被你从理论上或实践上再细分为了5大类及其配套的20个小类,那么具体到每个小类恐怕只有不足以“站稳”的例子量,那么你就应该考虑扩大“拦河坝”或“试管”的capacity。

综上所述,语料库容量需求的底线必须与个人的选题对象及其自定义众所周知的子类型为衡量标准,必须自问“用语料的目的,是举例两三下,还是统计到显著性为止
 
Back
顶部