搜狗实验室 互联网语料库2.0下载

xujiajin

管理员
Staff member
http://www.sogou.com/labs/dl/t.html

互联网语料库2.0版本是一个包含了约1亿(100,054,692)互联网页面,原始语料规模超过1Terabyte的海量网络页面语料库。语料收集时间为2007年2月,一定程度上反映了中国互联网网页语料的整体面貌。数据收集时注意吸取了产品1.0版本的经验与教训,在保证页面数量的同时,兼顾较高的数据质量,覆盖了中国互联网中绝大部分的重要网页。
语料库统计的意义:提供一个一定程度上及时更新的,能够反映中文互联网世纪面貌的海量互联网网络页面语料库。
应用案例:网页链接关系分析,基于互联网语料的中文信息处理研究等。
 
顶部