863国家级课题成果推广
课题名称:多语言基础资源库研制与分享
课题编号:2006AA010101
所属项目:中文为核心多语言处理技术
参见科技部:
关于“十一五”国家高技术研究发展计划
(863计划)信息技术领域“中文为核心的
多语言处理技术”重点项目课题承担单位评
审结果的公告
这次推广的语料库包含9大库30余个小库,含
多语种,文本,音频,视频,词汇,多语种
对齐(汉/英/日),主要少数民族语言等....
1.富标注的口语语音库 (包括电话,会议,广播...1500人,30min/person)
2.双语/多语平行语料库(英/汉/日对齐,....其中英汉对齐达2000万句以上)
3.少数民族语言库(汉/藏/维/蒙等.........多语平行语料库达300万句以上)
4.汉语/多语口语质量评估资源库(采集人数1000人以上,1000小时以上,含标注)
5.海量网络资源库(30TB,包括文本,图像,音频,视频,含分类,标引....)
6.字模库(汉基础信息简体汉字模5亿个,含基础信息繁体字模1亿个,
繁体手写字模500万个)
7.手写体库和签名库(英文手写体,欧洲手写体)
8.人名库和词库(中国名含注解,外国名,同义词,近义词,反义词)
9.其他语料库(高正确,分年代,20多项标注项,部分精确分词,一亿句以上)
衷心的希望您能在研发中使用这些成果并得益。
成果推广方式不限,比如合作,转让.......
无论您是为了研究或是保护民族文化,或是
用于研发的测试,我们约50TB的成果都能在
一定程度上为您提供帮助。
一切关于课题的情况我将实时与大家分享,为此次推广工作尽力。
有兴趣的可以给我发站内信或者邮件:
ccd4u@21cn.com
课题名称:多语言基础资源库研制与分享
课题编号:2006AA010101
所属项目:中文为核心多语言处理技术
参见科技部:
关于“十一五”国家高技术研究发展计划
(863计划)信息技术领域“中文为核心的
多语言处理技术”重点项目课题承担单位评
审结果的公告
这次推广的语料库包含9大库30余个小库,含
多语种,文本,音频,视频,词汇,多语种
对齐(汉/英/日),主要少数民族语言等....
1.富标注的口语语音库 (包括电话,会议,广播...1500人,30min/person)
2.双语/多语平行语料库(英/汉/日对齐,....其中英汉对齐达2000万句以上)
3.少数民族语言库(汉/藏/维/蒙等.........多语平行语料库达300万句以上)
4.汉语/多语口语质量评估资源库(采集人数1000人以上,1000小时以上,含标注)
5.海量网络资源库(30TB,包括文本,图像,音频,视频,含分类,标引....)
6.字模库(汉基础信息简体汉字模5亿个,含基础信息繁体字模1亿个,
繁体手写字模500万个)
7.手写体库和签名库(英文手写体,欧洲手写体)
8.人名库和词库(中国名含注解,外国名,同义词,近义词,反义词)
9.其他语料库(高正确,分年代,20多项标注项,部分精确分词,一亿句以上)
衷心的希望您能在研发中使用这些成果并得益。
成果推广方式不限,比如合作,转让.......
无论您是为了研究或是保护民族文化,或是
用于研发的测试,我们约50TB的成果都能在
一定程度上为您提供帮助。
一切关于课题的情况我将实时与大家分享,为此次推广工作尽力。
有兴趣的可以给我发站内信或者邮件:
ccd4u@21cn.com
Last edited by a moderator: