回复: LJCorpus时事新闻论坛博客语料库
拐了几道弯,才发现是要收费的。楼主将第四条收费的说明删去了,现在将原文贴出来,免得更多的C友惊喜之后又失望。原文的四点说明如下:
我们在日常的网络抓取过程中,积累了大量的新闻论坛博客语料库,非常贴近时事,语料库的形式为文本文件(GBK编码);大约每天新增2GB左右。具体规格说明如下:
1、语料库来源:主流新闻、论坛、博客的真实文本语料;
2、时间分布:2009.11.1至今;
3、格式:文件名为文章标题,内容采用GBK编码,去除了大量的垃圾等干扰因素;...