[Download] Sogou Chinese Internet Corpus

xiaoz

永远的超级管理员
Staff member
"互联网语料库是一个包含了约4000万互联网页面,原始语料规模超过1Terabyte的海量网络页面语料库。语料收集时间为2006年10月,一定程度上反映了中国互联网网页语料的整体面貌。"

Download:
http://www.sogou.com/labs/dl/t.html

"文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。"

http://www.sogou.com/labs/dl/c.html
 
Back
顶部