中科院计算所汉语词法分析系统ICTCLAS

xujiajin

管理员
Staff member
#1
http://mtgroup.ict.ac.cn/~zhp/ICTCLAS/index.html
词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(973专家组评测结果),未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。该系统得到了专家的好评,并有多篇论文在国内外发表。
计算所汉语词法分析系统ICTCLAS同时还提供一套完整的动态连接库ICTCLAS.dll和相应的概率词典,开发者可以完全忽略汉语词法分析,直接在自己的系统中调用ICTCLAS,ICTCLAS可以根据需要输出多个高概率的结果,输出格式也可以定制,开发者在分词和词性标注的基础上继续上层开发。
在该系统的学习训练阶段采用了人民日报一个月的切分标注好的语料库,在此对人民日报、北大计算语言所、北京富士通公司表示感谢!
欢迎相关领域的工程技术人员、研究人员使用,并提供宝贵意
 

xujiajin

管理员
Staff member
#3
这个free的ICTCLAS好像是基于一个月的人民日报得出的。他们还有几个版本是基于一年的报纸或者半年的报纸的,那种是要pay的。
 

动态语法

管理员
Staff member
#4
回复:中科院计算所汉语词法分析系统ICTCLAS

有没有可能只用它的分词功能而不要词性标注?
 

xujiajin

管理员
Staff member
#5
当然可能。
Change the default 二级标注 to 词语切分。
Default setting:


Segmentation Only:
 

xiaoz

永远的超级管理员
Staff member
#7
Not sure why ICTCLAS crashes so easily when the XML format is slected for output.
 
#11
can not agree more

[本贴已被 作者 于 2005年10月09日 22时31分53秒 编辑过]

[本贴已被 作者 于 2005年10月09日 22时33分27秒 编辑过]
 

ym

初级会员
#16
还有一个厦门大学史晓东老师的自动分词系统值得一试。好像他的个人网站上可以下载。
 

xusun575

高级会员
#18
回复:中科院计算所汉语词法分析系统ICTCLAS

以下是引用 ym2006-3-17 21:56:23 的发言:
还有一个厦门大学史晓东老师的自动分词系统值得一试。好像他的个人网站上可以下载。
什么好象啊,知道何不让大家分享?谢谢
 

ym

初级会员
#19
segtag 0.04 说明
14:09 2003-12-27
Mandel

863评测的结果还可以。想不到。我毕竟才做了一个星期,哈哈。因此不得不修正了一些 bug,重新发布,免得误人子弟。肯定还有很多错误。指出来吧,我送你一个冰淇淋。


关于segtag汉语切分标注软件的说明
史晓东
2:04 2003-10-28
mandel@xmu.edu.cn

汉语切分和标注是一个基础的工作,在我国得到了很多的研究。在这方面的领先成果,有中科院计算所张华平和刘群的分词系统、北京语言文化大学宋柔教授的分词系统,还有清华大学、北京大学、东北大学等的一些研究工作和切分软件。

值得一提的是张华平和刘群的分词系统,可以免费下载,并提供源代码。segtag 就是利用了他们提供的部分资源。当然,这些资源大部分是从北大计算语言学研究所的也可以免费下载的人民日报语料库(一个月)整理出来的,但是,毕竟更好使用。所以,谢谢他们。

我这里提供的分词系统还很初步,第一个运行版本的程序编写时间只用了一天(500行Delphi代码)。本来不是我想写,是要我的学生向晓雯写的,然后去参加2003年10月底863的评测。可是她的课程很多。时间又很紧,所以我只有代劳了。

本系统的主要特点是未登录词的识别。传统的未登录词主要包括人名、地名、专名等。我这里主要是指新词。当然效果还得等待检验。注意:该功能只适用于一篇较短的文章的分词(大约几十K)。而且,有严重的内存泄漏!

本系统的资源主要采用文本文件,方便用户自己修改。
 
顶部