(求助)WordSmith与中文检索

jiji · 2006-05-07

不知Demo版的WS4支持中文concordance的情况是不是与正版相同？在使用DEMO中遇到一些问题，请各位帮助看看。

以下是我的source text.

这是我检索“爱”的结果：乱七八糟，也不排队

以上是Search statistics中对“爱”的统计结果：明明是15个，WS4偏说是9个：

AntConc3.1.302更绝，在将字体设为Unicode 8, 之后，硬说是0个。

Concordance 3.2最诚实，指出是15个：

不知是我设置的问题还是软件的问题？谢谢。

laohong · 2006-05-07

能把你的原始语料上传到这里吗？这样会方便大家查出问题所在。

jiji · 2006-05-07

我本来使用《红楼梦》纯文本作语料，发现了以上问题：即concordance高亮显示的词并非search word, 并且排得乱七八糟。后来我想是未分词的原因，于是用15行"我爱你中国"文本来测试，即出现以上情况。另外，"我爱你中国。"（加句号）情形同上。字体设为了Chinese (P.R.C.).

DEMO版Mike称只是不显示25行之外的部分，其它一样，对吗？

xiaoz · 2006-05-07

回复：(求助)WordSmith与中文检索

WST is working fine.

jiji · 2006-05-07

回复：(求助)WordSmith与中文检索

It also works well with English on my machine.

以下是我对字体的设置：

不知还需要哪里进行设置？

laohong · 2006-05-08

回复：(求助)WordSmith与中文检索

应该是你设置的问题。我刚才用 WordSmtih 4 的测试结果跟 Xiaoz 的一样，即使使用WordSmtih 3 结果也正常，如下所示：

laohong · 2006-05-08

回复：(求助)WordSmith与中文检索

AntConc 也没有问题。把你的测试文本存成 utf-8 格式后，打开AntConc，把语言设置成 utf-8，然后导入文本，输入搜索词“爱”，如下图所示，得到的结果还是 15 ，当然 AntConc 的作者还没有解决好不对齐的问题。

jiji · 2006-05-08

谢谢两位，我再查查看看。

patricx · 2006-05-08

you have to be sure if your Chinese texts are in unicode and segmented.

jiji · 2006-05-10

我找到原因了：WordSmith只处理Unicode, 不理会UTF-8编码格式。

LCMC语料库在使用WordSmith前，须将其UTF-8格式转为Unicode, 否则只是乱码。

laohong · 2006-05-10

WordSmith 3 直接处理 GB 文本， WordSmith 4 需要文本是 Unicode 的， AntConc 处理 utf-8 格式的更好一点。

(求助)WordSmith与中文检索

jiji

普通会员

laohong

管理员

jiji

普通会员

xiaoz

永远的超级管理员

jiji

普通会员

laohong

管理员

laohong

管理员

jiji

普通会员

patricx

高级会员

jiji

普通会员

laohong

管理员