NLPIR微博博主语料库100万条

lingjoin

封禁用户
NLPIR微博博主语料库说明
1.NLPIR微博博主语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(www.nlpir.org)予以公开共享其中的100万条数据(目前已有数据接近1亿,已经剔除了大量的冗余与机器粉丝)
本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士kevinzhang@bit.edu.cn予以删除,对给您造成的困扰表示抱歉,并希望谅解;
3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。
4.字段说明:
id 内部id
sex 性别
address 家庭住址
fansNum 粉丝数目
summary 个人摘要
wbNum 微博数量
gzNum 关注数量
blog 博客地址
edu 教育情况
work 工作情况
renZh 是否认证
brithday 生日
下载地址:http://www.nlpir.org/download/weibo_users_corpus.rar
 
Back
顶部