最好的中文分词系统

中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。

ICTCLAS最提推出奥运版,可免费下载使用。
官方网址:http://ictclas.org
 
回复: 最好的中文分词系统

Thank you for the news of the Olympic update of ICTCLAS.
 
回复: 最好的中文分词系统

给出的是一个C++控制台应用程序,有多少人知道怎么用?
 
回复: 最好的中文分词系统

给出的是一个C++控制台应用程序,有多少人知道怎么用?
是啊!里面没有exe执行文件。Haiyang大师能给我们介绍下怎样运行这个软件吗?麻烦您了,万分谢谢!
 
回复: 最好的中文分词系统

是啊!里面没有exe执行文件。Haiyang大师能给我们介绍下怎样运行这个软件吗?麻烦您了,万分谢谢!

我不是大师啊,叫我 Haiyang 就好。
他们给的分词程序是源代码的形式,需要用户自己编译成可执行文件(exe),编译需要 Visual Studio 等开发软件。
 
回复: 最好的中文分词系统

我不是大师啊,叫我 Haiyang 就好。
他们给的分词程序是源代码的形式,需要用户自己编译成可执行文件(exe),编译需要 Visual Studio 等开发软件。
十分感谢Haiyang的回答!我装了Visual Studio,因为没有编程基础,折腾了很长时间,截至目前,---无果!有空再试试看。
 
回复: 最好的中文分词系统

我尝试了一下 Linux 的版本,编译成功。先下载 Linux 版本,解压,进入该目录,在 Ubuntu Linux 下面的命令行中执行 make 命令,就可以编译。需要事先安装 g++ 包。[aptitude install g++]
 
回复: 最好的中文分词系统

十分感谢Haiyang的回答!我装了Visual Studio,因为没有编程基础,折腾了很长时间,截至目前,---无果!有空再试试看。

1 下载ICTCLAS_OpenSrc_C_windows。
2 解压缩。
3 在Codes and Application文件夹下,双击ICTCLAS_WIN.dsw文件打开(.dsw是VC工程文件)。
4选择build菜单下的Execute(前面有个红色感叹号),确认编译链接无误后,即可运行。

感谢阅读。
 
回复: 最好的中文分词系统

[FONT=宋体]感谢[/FONT]Haiyang[FONT=宋体]、[/FONT]superyangt[FONT=宋体]热情、耐心、详尽的回答!!!只叹我基础太差,共折腾几宿,仍无果!不知问题出在哪,现整理贴出来,麻烦你们再帮我诊断诊断,感谢之情无以言表![/FONT]
[FONT=宋体]我的系统是[/FONT]xp[FONT=宋体]的,按[/FONT]superyangt[FONT=宋体]建议尝试,但出现以下问题:[/FONT]
1. [FONT=宋体]双击[/FONT]ICTCLAS_WIN.dsw[FONT=宋体]文件后,提示“[/FONT]must be converted[FONT=宋体]”,选“[/FONT]Yes to all[FONT=宋体]”进入[/FONT]vc[FONT=宋体],但[/FONT]build[FONT=宋体]菜单下并没有[/FONT]Execute[FONT=宋体],而是[/FONT]build[FONT=宋体]、[/FONT]rebuild[FONT=宋体]之类(见图);选[/FONT]build[FONT=宋体]、[/FONT]rebuild[FONT=宋体]之类,“[/FONT]output[FONT=宋体]”则提示有错([/FONT]build[FONT=宋体]:[/FONT]0 succeeded[FONT=宋体],[/FONT] 1 failed[FONT=宋体]……);选“[/FONT]No to all[FONT=宋体]”,则提示“[/FONT]can’t be loaded[FONT=宋体]”;[/FONT]
2. [FONT=宋体]我下的是[/FONT]Microsoft Visual C++ 2005 Express Edition[FONT=宋体],难道是版本低了?[/FONT]
3. [FONT=宋体]如编译成功,就能得到个[/FONT]exe[FONT=宋体]执行文件吧,然后便可以直接处理待分词的语料,我说的对吗?;[/FONT]
4. [FONT=宋体]运行[/FONT]ICTCLAS[FONT=宋体]前要先把待分词语料放进该程序的某个文件夹去吗(我没放);我记得[/FONT]ICTCLAS[FONT=宋体]([/FONT]02[FONT=宋体]年版)是可先单独运行,然后加载[/FONT]text[FONT=宋体]语料的;这个版本的[/FONT]ICTCLAS[FONT=宋体]处理的语料格式是否也是[/FONT]text[FONT=宋体]。[/FONT]
[FONT=宋体]问了这么多问题,真是难为情。
icon7.gif
[/FONT]

[FONT=宋体]辛苦你们了,谢谢![/FONT]
 

附件

  • Doc1.doc
    253 KB · 浏览: 18
Last edited:
回复: 最好的中文分词系统

Windows奥运共享版源代码有9个错误,无法compile。

Windows开源项目版是原来的0705版本,执行文件如下:

浏览附件ICTCLAS_Win.zip

解压缩后放在一个目录(ictclas)下,再把从ictclas网站下载的FreeICTCLAS.rar解压缩后将整个data目录拷贝到ictclas目录下。双击执行文件即可。
 
Re: 回复: 最好的中文分词系统

Windows奥运共享版源代码有9个错误,无法compile。

Windows开源项目版是原来的0705版本,执行文件如下:

浏览附件392

解压缩后放在一个目录(ictclas)下,再把从ictclas网站下载的FreeICTCLAS.rar解压缩后将整个data目录拷贝到ictclas目录下。双击执行文件即可。


我从ictclas网站想下载的FreeICTCLAS.rar,但不知为何,总下不下来,有下下来的朋友请上传一个,谢谢!

再请教一下肖博士,这个是不是ICTCLAS1.0版?
 
回复: 最好的中文分词系统

应该是。也是这次发布的开源项目版。
 
回复: 最好的中文分词系统

奥运共享版编译结果:

Output Window


Linking...
Creating library Debug/win_cDemo.lib and object Debug/win_cDemo.exp
win_cDemo.obj : error LNK2001: unresolved external symbol "bool __cdecl ICTCLAS_Exit(void)" (?ICTCLAS_Exit@@YA_NXZ)
win_cDemo.obj : error LNK2001: unresolved external symbol "double __cdecl ICTCLAS_FileProcess(char const *,char const *,int)" (?ICTCLAS_FileProcess@@YANPBD0H@Z)
win_cDemo.obj : error LNK2001: unresolved external symbol "unsigned int __cdecl ICTCLAS_ImportUserDict(char const *)" (?ICTCLAS_ImportUserDict@@YAIPBD@Z)
win_cDemo.obj : error LNK2001: unresolved external symbol "char const * __cdecl ICTCLAS_ParagraphProcess(char const *,int)" (?ICTCLAS_ParagraphProcess@@YAPBDPBDH@Z)
win_cDemo.obj : error LNK2001: unresolved external symbol "bool __cdecl ICTCLAS_Init(char const *)" (?ICTCLAS_Init@@YA_NPBD@Z)
nafxcwd.lib(thrdcore.obj) : error LNK2001: unresolved external symbol __endthreadex
nafxcwd.lib(thrdcore.obj) : error LNK2001: unresolved external symbol __beginthreadex
Debug/win_cDemo.exe : fatal error LNK1120: 7 unresolved externals
Error executing link.exe.



Results

win_cDemo.exe - 8 error(s), 0 warning(s)
 
回复: 最好的中文分词系统

谢谢肖博士的精彩回复!我回头再试试。本打算上传一份FreeICTCLAS.rar给刘语料,及方便有需要的朋友,无奈试了几次都上传失败,不知什么缘故。改日再传吧。
 
Last edited:
回复: 最好的中文分词系统

Windows奥运共享版源代码有9个错误,无法compile。

Windows开源项目版是原来的0705版本,执行文件如下:

浏览附件392

解压缩后放在一个目录(ictclas)下,再把从ictclas网站下载的FreeICTCLAS.rar解压缩后将整个data目录拷贝到ictclas目录下。双击执行文件即可。
我刚刚试了下,这样的确可以运行,但该版本的分词精度好像和在线演示的不一样,譬如:
他/r 从/p 马/j 上/m 摔/v 下来/v 了/y 。/w
你/r 马/n 上/m 下来/v 一下/m 。/w

在线演示版的结果是:
[FONT=楷体_GB2312]我们[/FONT]/rr [FONT=楷体_GB2312]马上[/FONT]/d [FONT=楷体_GB2312]回来[/FONT]/v [FONT=楷体_GB2312]。[/FONT]
/wj [FONT=楷体_GB2312]他[/FONT]/rr [FONT=楷体_GB2312]从[/FONT]/p [FONT=楷体_GB2312]马上[/FONT]/d [FONT=楷体_GB2312]掉[/FONT]/v [FONT=楷体_GB2312]下来[/FONT]/vf [FONT=楷体_GB2312]。[/FONT]
/wj [FONT=楷体_GB2312]他[/FONT]/rr [FONT=楷体_GB2312]从[/FONT]/p [FONT=楷体_GB2312]马[/FONT]/n [FONT=楷体_GB2312]上[/FONT]/f [FONT=楷体_GB2312]摔[/FONT]/v [FONT=楷体_GB2312]下[/FONT]/f [FONT=楷体_GB2312]来[/FONT]/vf [FONT=楷体_GB2312]了[/FONT]/y [FONT=楷体_GB2312]。[/FONT]
/wj [FONT=楷体_GB2312]你[/FONT]/rr [FONT=楷体_GB2312]马上[/FONT]/d [FONT=楷体_GB2312]下来[/FONT]/vf [FONT=楷体_GB2312]一下[/FONT]/mq [FONT=楷体_GB2312]。[/FONT]/wj (其中后两句为演示版自己提供的例子)
不知为何这里的“马上”切分都不太一样。[FONT=楷体_GB2312][/FONT]
 
回复: 最好的中文分词系统

I have successfully compiled the AoYun edition but that is merely a sample program of no practical value.

It would be helpful if some computer programmer writes a user interface calling the published Aoyun edition API.
 
Re: 回复: 最好的中文分词系统

I have successfully compiled the AoYun edition but that is merely a sample program of no practical value.

It would be helpful if some computer programmer writes a user interface calling the published Aoyun edition API.

肖先生,我已经调用成功。
 
Last edited:
Back
顶部