WordSmith 3其实可以处理中文

回复:WordSmith 3其实可以处理中文

以下是引用 appler2005-7-12 21:47:33 的发言:
“正如richard所说,能不能显示汉字取决于操作系统。
而能不能像英语一样进行检索主要取决于汉字的词与词之间是否有空格,如果加上空格之后,问题自然也就解决了。”
我用C#写了小软件
有人要的话留下E―mail

appler, 上面的话是我说的,不是richard说的,richard是xiaoz。
可是,我刚才用wordsmith试了一下分词以后的文件,可以检索了,但是生成词表仍然不行。诚如“动态语法”所言,不过我用Wconcord生成词表没有问题。
 
回复:WordSmith 3其实可以处理中文

以下是引用 xiaoz2005-7-12 22:04:50 的发言:
Haven't tried Concordance, but if it is based Unicode as 动态语法 suggested, there is be no problem with this tool.

But for WordSmith 3, only Concord works on segmented Chinese texts. Wordlist, and relatedly Cluster, and Keyword, do not work.

我刚才试验的结果跟你说的是一样的。concordancing可以,其他的出来的是乱码。
 
不过,我用WORDSMITH3 .0 检索中文语料库时碰到一个问题,提出来大家一起讨论!我用中共十六大报告的中文版的一部分做了一个试验语料库。我先做了分词处理,然后我满怀信心的搜索“中国共产党”,出乎意料的是,找到的记录为零。后来我才发现,经过分词处理后“中国共产党”被分为“中国 共产党”两个词。 所以,你要想查”中国共产党“的话,必须把在他们之间加个空格。以后,大家可要注意哟!
 
回复:WordSmith 3其实可以处理中文

以下是引用 appler2005-7-12 21:47:33 的发言:
“正如richard所说,能不能显示汉字取决于操作系统。
而能不能像英语一样进行检索主要取决于汉字的词与词之间是否有空格,如果加上空格之后,问题自然也就解决了。”
我用C#写了小软件
有人要的话留下E-mail
 
用Wconcord(即本网站“精品下载”中的Win Concord)做了一个frequency list. 这个软件虽然很小,但是还是很好用的。它是我最早接触到的 concordancer。
2005071222523832.jpg
 
回复:WordSmith 3其实可以处理中文

以下是引用 appler2005-7-12 21:47:33 的发言:
“正如richard所说,能不能显示汉字取决于操作系统。
而能不能像英语一样进行检索主要取决于汉字的词与词之间是否有空格,如果加上空格之后,问题自然也就解决了。”
我用C#写了小软件
有人要的话留下E―mail

这个软件还算好用。只是用户要知道拷贝移动一些文件后软件才能工作(看说明)。

试了一个短文,很快。长的好象费时。

数量结构不分开?
 
A comparison of the tagged results from ICTCLAS and Hylenda:

Testing data:
昨天凌晨1点,浦口特巡警大队110民警接到群众报警称,在浦东路一出租屋里,有一打工仔割腕自杀。110民警赶到后,发现自杀男子还不到20岁,床上全是鲜血。

ICTCLAS:
昨天/t 凌晨/t 1/m 点/q ,/w 浦口/ns 特/ag 巡警/n 大队/n 110/m 民警/n 接到/v 群众/n 报警/v 称/n ,/w 在/p 浦东/ns 路/n 一/m 出租/v 屋里/s ,/w 有/v 一/m 打工仔/n 割/v 腕/ng 自杀/v 。/w 110/m 民警/n 赶到/v 后/f ,/w 发现/v 自杀/v 男子/n 还/d 不/d 到/v 20/m 岁/q ,/w 床/n 上/m 全/d 是/v 鲜血/n 。/w

Hylenda:
昨天/t 凌晨/t 1/m 点/t ,/w 浦口/ns 特/d 巡警/n 大队/n 110/mq 民警/n 接到/v 群众/n 报警/v 称/v ,/w 在/p 浦东路/ns 一/m 出租/v 屋里/s ,/w 有/v 一/m 打工/v 仔/n 割/v 腕/n 自杀/v 。/w 110/mq 民警/n 赶到/v 后/f ,/w 发现/n 自杀/v 男子/n 还/d 不到/v 20/m 岁/mq ,/w 床上/n 全/a 是/v 鲜血/n 。/w
 
回复:WordSmith 3其实可以处理中文

以下是引用 动态语法2005-7-13 1:26:24 的发言:
以下是引用 appler2005-7-12 21:47:33 的发言:
“正如richard所说,能不能显示汉字取决于操作系统。
而能不能像英语一样进行检索主要取决于汉字的词与词之间是否有空格,如果加上空格之后,问题自然也就解决了。”
我用C#写了小软件
有人要的话留下E―mail

这个软件还算好用。只是用户要知道拷贝移动一些文件后软件才能工作(看说明)。

----因为是demo版嘛。所以有些麻烦是可以理解的。我也是下载后发现问题才不得不赶紧添加了几条说明。不过说实话,这两个小问题实在是可以避免的。
 
算是一个help文件吧。
2005071319105229.jpg


上方的“原文”窗口A是文本载入窗口,则以通过点击3载入文件。
下方的窗口C是分词结果窗口,载入文件后点击4可以获得。
右边的所谓“关键词”窗口B实际上是一个按照词频排列的词表,也可以单独拷出。
如果将1处的“计算词性”勾选的话,则表示进行POS tagging。如果不勾选的话则只进行分词(如图)。

语义指纹和检索优化好像没看出对我们有什么太大用处。
 
我最近比较过发现Hylanda分词工具的效果的确不如中科院计算所的ICTCLAS。问题的关键可能是用于分词的词库质量的差别。

问题:
1、Hylanda分大文件非常慢。
2、有些口语中的词竟然在word list中体现不出来,可见词库收词量不够。
 
回复:WordSmith 3其实可以处理中文

以下是引用 xujiajin2005-7-18 22:33:45 的发言:
我最近比较过发现Hylanda分词工具的效果的确不如中科院计算所的ICTCLAS。问题的关键可能是用于分词的词库质量的差别。

问题:
1、Hylanda分大文件非常慢。
2、有些口语中的词竟然在word list中体现不出来,可见词库收词量不够。

Benchmark tests are important. This is important information for potential users.
 
刚才先用ICTCLAS对文本分词,然后再用wordsmith4进行检索,感觉很好用,克服了汉语文本没有空格而不能对其检索的问题.但是处理的结果里自然含有很多词性标注.但是不影响我们要的结果
 
You can use ICTCLAS to tokenise, but not POS tag your data if you do not want to have tags in the result.
 
回复:WordSmith 3其实可以处理中文

以下是引用 playplay2005-7-21 0:06:59 的发言:
concordance有没有汉化或破解版?使用版是有使用次数限制的。

为什么一定要汉化?

为什么一定要破解?尊重别人的知识产权不是很好吗?
况且这个软件又不是贵得离谱。
 
以上各位提高汉语语料分词以及在未分词语料中字之间加空格的问题。appler为此还编写了加空格的软件,可敬可敬。对于不会编写软件的可以用功能非常强大的TextPro,这个软件不光具有一般的文字处理功能还有文件合并,在字之间加空格,四种汉字之间的转换,批处理等等。oscar3已经推荐该软件,等代站长审核之后就可以下载使用了。
 
回复:WordSmith 3其实可以处理中文

以下是引用 patricx2005-7-19 21:27:42 的发言:
不知道大家用了CCRL没有?是语言文化大学开发的东东

要求发email注册,发后很久没有回应。
 
Back
顶部