回复: BNCweb(CQP)与BYU-BNC有什么区别。
两个的原始语料是一样的。
但语料的加工是不同的人做的。BYU-BNC是Mark Davies做的。BNCweb(CQP)是Sebstian Hoffman, Stefan Evert等做的。这两拨人都是非常严肃的学者,所处理的结果都是可靠的。
所谓的语料加工不一样,主要包括tokenization和词性标注等不一样。
不同的token definition会导致单词数的不一样。比如,如果token definition里,hyphen也算的话,well-behaved就算一个单词,否则两个。如果apostrophe也算的话,Father's和Fathers'都算一个单词,否则算两个单词,等等。