感谢许教授的耐心解答!ANC因种种原因未能真正建成。
若想研究英语新闻,当前在线版的NOW corpus(News on the Web)无疑是最全面,体量也是最大的。目前为232亿词次。
English Corpora: most widely used online corpora. Billions of words of data: free online access
Compare genres, dialects, time periods; use AI; search by PoS, collocates, synonyms, and much more.www.english-corpora.org
Brown是经典库,100万词,但过于古早。可通过http://114.251.154.212/cqp/brown1/
在线检索,账号test,密码test。
BNC语料库,可从https://llds.ling-phil.ox.ac.uk/llds/xmlui/handle/20.500.14106/2552
下载。
也可以通过
检索BNCLab
bnclab.lancs.ac.uk
以及通过LancsBox内嵌的BNC进行检索分析:
#LancsBox X
lancsbox.lancs.ac.uk
感谢回复!一般希望库越大越好,但实际研究中从特别大的库中得到的初步检索结果数量会超出心理预期,此时反而会希望库“不要太大”。对初步结果进行抽样,所谓的thinning,其实是无奈之举,毕竟无论多大的库本质上都是样本,从样本的检索结果中再抽样,无疑会放大遗漏信息的机率。
Brown家族的库都在一百万词左右,现在看来是很小的,但对有时间限制的研究者来说比较“好操作”,可以在限定时间内分析所有检索结果,成就感大概会更强。
许教授和梁茂成教授早年发布的CROWN和CLOB都是百万词级的,虽然是二十多年前的英语样本,但与Brown/LOB和FROWN/FLOB相比还是更recent,http://114.251.154.212/cqp/ 可以检索,库文本txt原本可以从https://www.corpus4u.org/threads/8661/ 下载,可惜链接失效了
感谢许教授的分享!Crown和CLOB语料库从这里可以下载:https://corpus.bfsu.edu.cn/Crown_CLOB.zip
更新的CROWN2021,也可以下载:https://corpus.bfsu.edu.cn/CROWN2021.zip
更多可下载语料库,请见这里:https://corpus.bfsu.edu.cn/info/1070/1335.htm