编号: NLPLAB2010T003
时间: 2010-05-28
语料: 中文手机短信
缩写: CSMS
版本: 1.0
版权: 刘伍颖
联系:
(1)邮箱: nlplab@163.com; <自然语言处理实验室>
(2)手机: 13787784974
(3)QQ: 44631423
(4)网址: http://nlplab.webhop.net
格式: 文本文件, UTF-8编码
语言: 中文
用途: 短文本研究, 垃圾手机短信过滤
介绍:
(1)CSMS语料是按时间顺序从志愿提供者那里收集的真实中文手机短信; 每条短信的类别标注信息是根据提供者的反馈进行人工标注的.
(2)总共包含85,870条手机短信, 其中垃圾短信21,099条, 非垃圾短信64,771条.
(3)每条短信文本内容包含源电话号码, 目的电话号码, 短信正文三部分; 出于隐私保护考虑, 电话号码进行了替换, 但不改变通话关系网络.
(4)短信文本内容与类别标注是分开存储的; 在csms/data/目录下存储短信文本内容, 包含85,870个文本文件; 在csms/full/目录下存储类别标注文件.
时间: 2010-05-28
语料: 中文手机短信
缩写: CSMS
版本: 1.0
版权: 刘伍颖
联系:
(1)邮箱: nlplab@163.com; <自然语言处理实验室>
(2)手机: 13787784974
(3)QQ: 44631423
(4)网址: http://nlplab.webhop.net
格式: 文本文件, UTF-8编码
语言: 中文
用途: 短文本研究, 垃圾手机短信过滤
介绍:
(1)CSMS语料是按时间顺序从志愿提供者那里收集的真实中文手机短信; 每条短信的类别标注信息是根据提供者的反馈进行人工标注的.
(2)总共包含85,870条手机短信, 其中垃圾短信21,099条, 非垃圾短信64,771条.
(3)每条短信文本内容包含源电话号码, 目的电话号码, 短信正文三部分; 出于隐私保护考虑, 电话号码进行了替换, 但不改变通话关系网络.
(4)短信文本内容与类别标注是分开存储的; 在csms/data/目录下存储短信文本内容, 包含85,870个文本文件; 在csms/full/目录下存储类别标注文件.