ictclas汉语分词求助

#1
我想对建立的汉语语料库进行分词,词性赋码,下载了ictclas软件,但是为什么它不能批量的进行分词?(只能复制一段,对粘贴后的内容进行分词)还是我下载的不对?请高手指点。

PS:除了可对文本进行词性标注赋码外,有没有其他软件可以实现对句法、语义的标注?它们是什么?
 

附件

#3
回复: ictclas汉语分词求助

ICTCLAS-based YACSI (created by iCasino) can do the job.
http://ishare.iask.sina.com.cn/f/24241229.html
许老师,我下载了这个软件,可是怎么都装不了,它显示的是
“没有找到ictclas2011.dll,因此这个应用程序未能启动”
怎么解决呀?
我下的ictclas里只有ictclas50.dll,而非2011.dll
 

附件

iCasino

普通会员
#7
回复: ictclas汉语分词求助

Can you post a short sample of your text here? ICTCLAS2012 is known to have problems with some messy texts, for example, a combination of Chinese and English. Maybe a cleanup of the input text is needed.
 
#8
Re: 回复: ictclas汉语分词求助

Can you post a short sample of your text here? ICTCLAS2012 is known to have problems with some messy texts, for example, a combination of Chinese and English. Maybe a cleanup of the input text is needed.
I had the same problem. Is there any way to fix this? My data is a mixture of Chinese and English...If you could help me to solve this, I'd be most grateful!
A sample of the data looks like this:
我们从Richmond搬到Petaluma在一九九八年时。我们那时候有一只博美 狗叫Tippy。她很可爱,可是她最爱我妈妈。她看到我妈妈会跳一跳。我妈妈说“叫”,她会回答。不过我十六岁,她十二岁死了。我们都很难过。可是我们看到我们隔壁有一只可爱的猫,所以我妈妈去收养一只猫。我妈妈叫他Fortune因为她要一只狗所以她可以命名他Cookie。我妈妈在台湾的时候也有一个猴子。我们都爱动物,所以我希望人会收养动物。你们有什么样的动物?
 

iCasino

普通会员
#9
回复: ictclas汉语分词求助

To solve this problem, a newer version of ICTCLAS2012 is needed. Unfortunately, I'm currently running out of time to do any experiment. A quick (and easy) way is to stick to the ANSI option provided you are working on a system supporting Chinese. When I've managed to find some time, I will give it a try.
 
#10
Re: 回复: ictclas汉语分词求助

To solve this problem, a newer version of ICTCLAS2012 is needed. Unfortunately, I'm currently running out of time to do any experiment. A quick (and easy) way is to stick to the ANSI option provided you are working on a system supporting Chinese. When I've managed to find some time, I will give it a try.
Many thanks for the quick reply, iCasino! I am very much looking forward to your updates.
 
#11
Re: 回复: ictclas汉语分词求助

To solve this problem, a newer version of ICTCLAS2012 is needed. Unfortunately, I'm currently running out of time to do any experiment. A quick (and easy) way is to stick to the ANSI option provided you are working on a system supporting Chinese. When I've managed to find some time, I will give it a try.
Many thanks! I do benefit a lot from what you have done.:)
 

xujiajin

管理员
Staff member
#13
回复: ictclas汉语分词求助

把你的电脑系统时间改到2012年试试。

不要重复发帖。会造成网友反感。
 
#14
ictclas汉语分词系统求助

最近发现自己以前下载的汉语分词系统的ictclas2011.dll文件失效,登录到http://ictclas.nlpir.org/下载了2013版,发现新版的软件没有了之前从一个文件夹批量分词、以及将分词后的文件放到某个文件夹的功能。目前需要用到该软件,请问这个问题怎么解决?
 

iCasino

普通会员
#15
回复: ictclas汉语分词求助

YACSI 0.96 与ICTCLAS2013不兼容,因为其调用函数发生了一些变化,你需要用ICTCLAS2012才能用它进行批处理。
 
#16
回复: ictclas汉语分词求助

各位老师,我在官网上下载了张华平博士ICTCLAS2013版(NLPIR),不知道哪里可以导出文档?谢谢
 
#18
回复: ictclas汉语分词求助

非常感谢iCasino, LJParser,很好用,也可以导出。虽然这个免费版不能处理过多的文档,但对于我刚入门的来说已经足够了。LJParser还有其他不错的功能,要慢慢琢磨。
还想请教关于中英文本对齐的问题:1. 在哪里下载免费的Trado WinAlign比较好,有些下了不能用,昨天下了一个Trados2011的免费30天试用版,要激活码,找了半天没找到。有些介绍说最好不要再用07版,用09版,还是找不到好的下载地方。2. 雪人软件,在论坛上看到介绍雪人软件,确实可以对齐文本,但是导出文档是STM格式,在CUC_paraconc中不能读取,我也不太明白CUC_paraconc要上载的对齐文本是需要什么格式的,txt,是否要分词和词性标注,对齐的文本是否要写上符号<P></P>表示段落,<S></S>表示句子,这些是否都可以在Trados Alignment里面实现
 
#20
回复: ictclas汉语分词求助

非常感谢,下载了梁茂成教授autoaligner, 没有说明书,试了一下,但是没出结果,界面左边是source language file, 我上载了里面的测试文件江泽明_zh.txt, 右边是target language file, 我上载了另一个测试文件江泽民_en.txt,再点击右下角autoalign,自动跳出对话框存档,我命名为江泽民对齐文本,结果自动存了两个txt文件,一个是江泽民对齐文本_source.txt(中文),另一个是江泽民对齐文本_target.txt(英文),这样也用不了哦。请再指点,再次感谢。
 
顶部