(求助)WordSmith与中文检索

jiji

普通会员
不知Demo版的WS4支持中文concordance的情况是不是与正版相同?在使用DEMO中遇到一些问题,请各位帮助看看。

以下是我的source text.
2006050718024812.gif


这是我检索“爱”的结果:乱七八糟,也不排队

2006050718033482.gif


以上是Search statistics中对“爱”的统计结果:明明是15个,WS4偏说是9个:

2006050718045332.gif



AntConc3.1.302更绝,在将字体设为Unicode 8, 之后,硬说是0个。

Concordance 3.2最诚实,指出是15个:

2006050718071945.gif


不知是我设置的问题还是软件的问题? 谢谢。
 
能把你的原始语料上传到这里吗?这样会方便大家查出问题所在。
 
我本来使用《红楼梦》纯文本作语料,发现了以上问题:即concordance高亮显示的词并非search word, 并且排得乱七八糟。后来我想是未分词的原因,于是用15行"我 爱 你 中 国"文本来测试,即出现以上情况。另外,"我 爱 你 中 国 。"(加句号)情形同上。字体设为了Chinese (P.R.C.).

DEMO版Mike称只是不显示25行之外的部分,其它一样,对吗?
 
回复:(求助)WordSmith与中文检索

WST is working fine.
2006050723161157.jpg
 
回复:(求助)WordSmith与中文检索

It also works well with English on my machine.

以下是我对字体的设置:
2006050723514771.gif


不知还需要哪里进行设置?
 
回复:(求助)WordSmith与中文检索

应该是你设置的问题。我刚才用 WordSmtih 4 的测试结果跟 Xiaoz 的一样,即使使用WordSmtih 3 结果也正常,如下所示:
2006050810211221.jpg
 
回复:(求助)WordSmith与中文检索

AntConc 也没有问题。把你的测试文本存成 utf-8 格式后,打开AntConc, 把语言设置成 utf-8, 然后导入文本,输入搜索词“爱”,如下图所示,得到的结果还是 15 , 当然 AntConc 的作者还没有解决好不对齐的问题。

2006050810265087.jpg
 
我找到原因了:WordSmith只处理Unicode, 不理会UTF-8编码格式。

LCMC语料库在使用WordSmith前,须将其UTF-8格式转为Unicode, 否则只是乱码。
 
WordSmith 3 直接处理 GB 文本, WordSmith 4 需要文本是 Unicode 的, AntConc 处理 utf-8 格式的更好一点。
 
Back
顶部