J jiji 普通会员 2006-05-07 #1 不知Demo版的WS4支持中文concordance的情况是不是与正版相同?在使用DEMO中遇到一些问题,请各位帮助看看。 以下是我的source text. 这是我检索“爱”的结果:乱七八糟,也不排队 以上是Search statistics中对“爱”的统计结果:明明是15个,WS4偏说是9个: AntConc3.1.302更绝,在将字体设为Unicode 8, 之后,硬说是0个。 Concordance 3.2最诚实,指出是15个: 不知是我设置的问题还是软件的问题? 谢谢。
不知Demo版的WS4支持中文concordance的情况是不是与正版相同?在使用DEMO中遇到一些问题,请各位帮助看看。 以下是我的source text. 这是我检索“爱”的结果:乱七八糟,也不排队 以上是Search statistics中对“爱”的统计结果:明明是15个,WS4偏说是9个: AntConc3.1.302更绝,在将字体设为Unicode 8, 之后,硬说是0个。 Concordance 3.2最诚实,指出是15个: 不知是我设置的问题还是软件的问题? 谢谢。
J jiji 普通会员 2006-05-07 #3 我本来使用《红楼梦》纯文本作语料,发现了以上问题:即concordance高亮显示的词并非search word, 并且排得乱七八糟。后来我想是未分词的原因,于是用15行"我 爱 你 中 国"文本来测试,即出现以上情况。另外,"我 爱 你 中 国 。"(加句号)情形同上。字体设为了Chinese (P.R.C.). DEMO版Mike称只是不显示25行之外的部分,其它一样,对吗?
我本来使用《红楼梦》纯文本作语料,发现了以上问题:即concordance高亮显示的词并非search word, 并且排得乱七八糟。后来我想是未分词的原因,于是用15行"我 爱 你 中 国"文本来测试,即出现以上情况。另外,"我 爱 你 中 国 。"(加句号)情形同上。字体设为了Chinese (P.R.C.). DEMO版Mike称只是不显示25行之外的部分,其它一样,对吗?
J jiji 普通会员 2006-05-07 #5 回复:(求助)WordSmith与中文检索 It also works well with English on my machine. 以下是我对字体的设置: 不知还需要哪里进行设置?
laohong 管理员 Staff member 2006-05-08 #6 回复:(求助)WordSmith与中文检索 应该是你设置的问题。我刚才用 WordSmtih 4 的测试结果跟 Xiaoz 的一样,即使使用WordSmtih 3 结果也正常,如下所示:
laohong 管理员 Staff member 2006-05-08 #7 回复:(求助)WordSmith与中文检索 AntConc 也没有问题。把你的测试文本存成 utf-8 格式后,打开AntConc, 把语言设置成 utf-8, 然后导入文本,输入搜索词“爱”,如下图所示,得到的结果还是 15 , 当然 AntConc 的作者还没有解决好不对齐的问题。
回复:(求助)WordSmith与中文检索 AntConc 也没有问题。把你的测试文本存成 utf-8 格式后,打开AntConc, 把语言设置成 utf-8, 然后导入文本,输入搜索词“爱”,如下图所示,得到的结果还是 15 , 当然 AntConc 的作者还没有解决好不对齐的问题。
J jiji 普通会员 2006-05-10 #10 我找到原因了:WordSmith只处理Unicode, 不理会UTF-8编码格式。 LCMC语料库在使用WordSmith前,须将其UTF-8格式转为Unicode, 否则只是乱码。
laohong 管理员 Staff member 2006-05-10 #11 WordSmith 3 直接处理 GB 文本, WordSmith 4 需要文本是 Unicode 的, AntConc 处理 utf-8 格式的更好一点。