最好的中文分词系统

Re: 回复: 最好的中文分词系统

[FONT=宋体]感谢[/FONT]Haiyang[FONT=宋体]、[/FONT]superyangt[FONT=宋体]热情、耐心、详尽的回答!!!只叹我基础太差,共折腾几宿,仍无果!不知问题出在哪,现整理贴出来,麻烦你们再帮我诊断诊断,感谢之情无以言表![/FONT]
[FONT=宋体]我的系统是[/FONT]xp[FONT=宋体]的,按[/FONT]superyangt[FONT=宋体]建议尝试,但出现以下问题:[/FONT]
1. [FONT=宋体]双击[/FONT]ICTCLAS_WIN.dsw[FONT=宋体]文件后,提示“[/FONT]must be converted[FONT=宋体]”,选“[/FONT]Yes to all[FONT=宋体]”进入[/FONT]vc[FONT=宋体],但[/FONT]build[FONT=宋体]菜单下并没有[/FONT]Execute[FONT=宋体],而是[/FONT]build[FONT=宋体]、[/FONT]rebuild[FONT=宋体]之类(见图);选[/FONT]build[FONT=宋体]、[/FONT]rebuild[FONT=宋体]之类,“[/FONT]output[FONT=宋体]”则提示有错([/FONT]build[FONT=宋体]:[/FONT]0 succeeded[FONT=宋体],[/FONT] 1 failed[FONT=宋体]……);选“[/FONT]No to all[FONT=宋体]”,则提示“[/FONT]can’t be loaded[FONT=宋体]”;[/FONT]
2. [FONT=宋体]我下的是[/FONT]Microsoft Visual C++ 2005 Express Edition[FONT=宋体],难道是版本低了?[/FONT]
3. [FONT=宋体]如编译成功,就能得到个[/FONT]exe[FONT=宋体]执行文件吧,然后便可以直接处理待分词的语料,我说的对吗?;[/FONT]
4. [FONT=宋体]运行[/FONT]ICTCLAS[FONT=宋体]前要先把待分词语料放进该程序的某个文件夹去吗(我没放);我记得[/FONT]ICTCLAS[FONT=宋体]([/FONT]02[FONT=宋体]年版)是可先单独运行,然后加载[/FONT]text[FONT=宋体]语料的;这个版本的[/FONT]ICTCLAS[FONT=宋体]处理的语料格式是否也是[/FONT]text[FONT=宋体]。[/FONT]
[FONT=宋体]问了这么多问题,真是难为情。
icon7.gif
[/FONT]

[FONT=宋体]辛苦你们了,谢谢![/FONT]

你好。
我忘了告诉你,我使用的是vc++ 6.0 sp5。
你最好用vc++ 6.0编译。我可以向你保证编译绝对没有问题的。
 
Re: 回复: 最好的中文分词系统

我刚刚试了下,这样的确可以运行,但该版本的分词精度好像和在线演示的不一样,譬如:
他/r 从/p 马/j 上/m 摔/v 下来/v 了/y 。/w
你/r 马/n 上/m 下来/v 一下/m 。/w

在线演示版的结果是:
[FONT=楷体_GB2312]我们[/FONT]/rr [FONT=楷体_GB2312]马上[/FONT]/d [FONT=楷体_GB2312]回来[/FONT]/v [FONT=楷体_GB2312]。[/FONT]
/wj [FONT=楷体_GB2312]他[/FONT]/rr [FONT=楷体_GB2312]从[/FONT]/p [FONT=楷体_GB2312]马上[/FONT]/d [FONT=楷体_GB2312]掉[/FONT]/v [FONT=楷体_GB2312]下来[/FONT]/vf [FONT=楷体_GB2312]。[/FONT]
/wj [FONT=楷体_GB2312]他[/FONT]/rr [FONT=楷体_GB2312]从[/FONT]/p [FONT=楷体_GB2312]马[/FONT]/n [FONT=楷体_GB2312]上[/FONT]/f [FONT=楷体_GB2312]摔[/FONT]/v [FONT=楷体_GB2312]下[/FONT]/f [FONT=楷体_GB2312]来[/FONT]/vf [FONT=楷体_GB2312]了[/FONT]/y [FONT=楷体_GB2312]。[/FONT]
/wj [FONT=楷体_GB2312]你[/FONT]/rr [FONT=楷体_GB2312]马上[/FONT]/d [FONT=楷体_GB2312]下来[/FONT]/vf [FONT=楷体_GB2312]一下[/FONT]/mq [FONT=楷体_GB2312]。[/FONT]/wj (其中后两句为演示版自己提供的例子)
不知为何这里的“马上”切分都不太一样。[FONT=楷体_GB2312][/FONT]

开源版是几年前的,演示版是后来重写的,原因可能在这里。
 
回复: 最好的中文分词系统

谢谢两位高人的指点,你们的成功更给了我继续摸索的信心。顺便说下,近几天,FreeICTCLAS.zip一直无法上传。
 
Re: 回复: 最好的中文分词系统

谢谢两位高人的指点,你们的成功更给了我继续摸索的信心。顺便说下,近几天,FreeICTCLAS.zip一直无法上传。

唉!我实在不知道你要摸索什么。如果是如何使用这个软件的话,那也太简单了;如果你要研究它的程序设计思想的话,那也太有点挑战了。
 
娱乐一下:

白天鹅在湖里游来游去,晚上鹅就关到笼子里去了。
白天鹅/n 在/p 湖/n 里/f 游/v 来/vf 游/v 去/vf ,/wd 晚上/t 鹅/n 就/d 关/v 到/v 笼子/n 里/f 去/vf 了/y 。/wj

熊出没注意。
熊/n 出没/vi 注意/v 。/wj
 
回复: Re: 回复: 最好的中文分词系统

太好了!恭喜你。
你的调用程序是否可以直接处理文本文件,还是要copy / paste 文本?文本字节大小有无限制?standalone or web-based?

肖先生,我已经调用成功。
 
娱乐一下:

白天鹅在湖里游来游去,晚上鹅就关到笼子里去了。
白天鹅/n 在/p 湖/n 里/f 游/v 来/vf 游/v 去/vf ,/wd 晚上/t 鹅/n 就/d 关/v 到/v 笼子/n 里/f 去/vf 了/y 。/wj

熊出没注意。
熊/n 出没/vi 注意/v 。/wj


Mr. superyangt, 能不能将你调试好的发上来让我们这此程序外行共享?
谢谢!
 
回复: 最好的中文分词系统

ICTCLAS2008 is very fast - a 2-MB text file is tagged in no seconds!...and is much more reliable than v 1.0.

清华/nz 两/m 名/q 学生/n 为/p 庆祝/v 毕业/v 校内/s 裸/ag 奔/v 社会/n 哗然/z
对话/vi
裸/ag 奔/v 男/b 称/v 清华/nz 应/v 允许/v 更/d 有/vyou 个性/n
记者/n :/wp 为什么/ryv 选择/v 裸/ag 奔/v 庆祝/v 毕业/v
付/v :/wp 毕业/v 了/ule 比较/d 兴奋/a ,/wd 同时/c 也/d 希望/v 通过/p 这种/r 方式/n 让/v 清华/nz 更/d 有/vyou 人文/n 气息/n 。/wj
记者/n :/wp 你/rr 所/usuo 说/v 的/ude1 人文/n 气息/n 是/vshi 指/v 什么/ry
付/v :/wp 在/p 清华/nz ,/wd 艺术/n 人文/n 还/d 是/vshi 处于/v 边缘/n 。/wj 哈佛/ns 每/rz 个/q 学期/n 都/d 有/vyou 裸/ag 奔/v 节/n ,/wd 他们/rr 的/ude1 名言/n 就是/v “/wyz 如果/c 当众/d 裸/ag 奔/v 都/d 不/d 怕/v 了/y ,/wd 期末/t 考试/vi 还/d 用/v 怕/v 吗/y 如果/c 身体/n 都/d 不/d 受/v 束缚/v 了/y ,/wd 思想/n 还/d 会/v 被/pbei 束缚/v 吗/y ”/wyy
记者/n :/wp 你/rr 觉得/v 你/rr 的/ude1 行为/n 是否/v 有/vyou 损/vg 清华/nz 形象/n
付/v :/wp 我/rr 是/vshi 爱/v 清华/nz 的/ude1 。/wj 上/f 大学/n 后/f ,/wd 我/rr 发现/v 美院/n 在/p 清华/nz 的/ude1 生存/vn 环境/n 并/cc 不好/a ,/wd 陈/nr1 丹青/n 出走/vi 就/d 是/vshi 个/q 例子/n 。/wj 我/rr 希望/v 清华/nz 能/v 更/d 包容/v ,/wd 允许/v 学生/n 有/vyou 个性/n ,/wd 有/vyou 创造力/n ,/wd 这样/rzv 才能/n 真正/d 成为/v 世界/n 一流/b 大学/n



===
他/rr 从/p 马/n 上/f 摔/v 下/f 来/vf 了/y 。/wj
你/rr 马上/d 下来/vf 一下/mq 。/wj
结合/v 成/v 分子/n 时/ng
薄熙来/nr 自从/p 担任/v 商务/n 部长/n 以来/f ,/wd 一直/d 兢兢业业/vl 。/wj
张华平/nr 1995年/t 离开/v 江西/ns 鄱阳/ns 老家/n 就读/vi 于/p 北方/s 工业/n 大学/n ,/wd 如今/t 已经/d 是/vshi 中科院/n 计算/v 所/q 的/ude1 副/b 研究员/n ,/wd 他/rr 说/v ICTCLAS/x 就/d 像/v 是/vshi 他/rr 的/ude1 孩子/n 一样/uyy 珍爱/v ;/wf
 
回复: 最好的中文分词系统

唉!我实在不知道你要摸索什么。如果是如何使用这个软件的话,那也太简单了;如果你要研究它的程序设计思想的话,那也太有点挑战了。
哈哈,我说的是怎样使用,因为前段时间一直编译失败。现在你的指点下用vc++ 6.0编译成功了。十分感谢!
 
Re: 回复: Re: 回复: 最好的中文分词系统

太好了!恭喜你。
你的调用程序是否可以直接处理文本文件,还是要copy / paste 文本?文本字节大小有无限制?standalone or web-based?

我用VC++6.0调用免费版的ICTCLAS30.dll动态链接库,然后增加选择文件的对话框,可以自己选择多个文本文件。我试验6.64M大小的34个文本文件,处理时间大概25秒左右(心里默数的,不甚准确)。

可以直接处理文件,不需要复制粘贴。似乎没有大小限制。standalone应用程序。

谢谢肖先生的关注。
 
回复: Re: 回复: 最好的中文分词系统

我从ictclas网站想下载的FreeICTCLAS.rar,但不知为何,总下不下来,有下下来的朋友请上传一个,谢谢!

再请教一下肖博士,这个是不是ICTCLAS1.0版?
由于近几天FreeICTCLAS.rar都无法上传,现已发到Corpus4u公共邮箱里了,请查收!
 
回复: 最好的中文分词系统

不知道Mr. superyangt调试好了没有, 什么时候可以发布, 极度期盼中!! 谢谢先了!!
 
Re: 回复: Re: 回复: 最好的中文分词系统

我用VC++6.0调用免费版的ICTCLAS30.dll动态链接库,然后增加选择文件的对话框,可以自己选择多个文本文件。我试验6.64M大小的34个文本文件,处理时间大概25秒左右(心里默数的,不甚准确)。

可以直接处理文件,不需要复制粘贴。似乎没有大小限制。standalone应用程序。

谢谢肖先生的关注。


好人!

请问进行让选择调用用户词典,能否选择是否标注词性、是否只分词不标注等,调试后上传程序呢。谢谢了。
 
Back
顶部