BNCweb(CQP)与BYU-BNC有什么区别。

老师们见笑了。问个弱弱的问题:BNCweb(CQP)与BYU-BNC有什么区别。两个语料库搜出的结果怎么不一样啊?哪个更可信啊?更强大呢?BNCweb(CQP)有没有中文使用手册呢?
 
回复: BNCweb(CQP)与BYU-BNC有什么区别。

两个的原始语料是一样的。
但语料的加工是不同的人做的。BYU-BNC是Mark Davies做的。BNCweb(CQP)是Sebstian Hoffman, Stefan Evert等做的。这两拨人都是非常严肃的学者,所处理的结果都是可靠的。

所谓的语料加工不一样,主要包括tokenization和词性标注等不一样。

不同的token definition会导致单词数的不一样。比如,如果token definition里,hyphen也算的话,well-behaved就算一个单词,否则两个。如果apostrophe也算的话,Father's和Fathers'都算一个单词,否则算两个单词,等等。
 
Back
顶部