再请教WordSmith Tools处理中文和日语出现乱码的问题

前一阶段,请教了用ParaConc检索日语出现乱码的问题,承蒙前辈的指点,已经找到解决的方法。总体来讲,ParaConc这类面向西方语言的软件还是非常不符合东方语言的特点,但又很难找到适合东方语言的替代工具。
最近,在学习使用另外一种语料库检索工具WordSmith时,又出现乱码的问题。日语已经能正常显示,但汉语还不行。一般来说,检索和统计都没有问题,能正常显示。但在点击查看原文时,满篇都是乱码。用WordSmith Tools检索汉语,文本一般需要设置成什么编码,source text才能够正常显示呢?中文系统默认的[SIZE=-1]GB2312和[/SIZE]UTF-8都不行。还望熟悉的朋友能多多指点!谢谢
 
Last edited:
回复: 再请教WordSmith Tools处理中文和日语出现乱码的问题

将汉语文件的编码转化成Unicode的格式,就可以在Wordsmith Tools 4.0以上的版本中检索了,但前提是要分词(字),这样就像英语一样,单词中间有空格。
 
回复: 再请教WordSmith Tools处理中文和日语出现乱码的问题

结果见图示
 

附件

  • 111.jpg
    111.jpg
    111.6 KB · 浏览: 22
  • 122.jpg
    122.jpg
    127.6 KB · 浏览: 23
回复: 再请教WordSmith Tools处理中文和日语出现乱码的问题

非常非常感谢楼上朋友的指点,经过处理终于能正常显示了。刚刚接触语料库检索软件,对它们的性能不是太了解。antconc和WordSmith不太一样,antconc可以处理GB2312和UTF-8编码的文本,但前提条件是要选对编码。WordSmith则无法处理GB2312编码的文本,UTF-8虽然能处理,但无法正常显示原文。
 
回复: 再请教WordSmith Tools处理中文

Anybody can tell me how to generate an aggragate % for a group of items such as significantly, dramatically, steadily (up to ten )? I can get one % for one item only.


Also how can I search:

Not only..... but also in W5?


Any idea of using ICTCLAS for Chinese segmentation? I downloaded the demo but don't know how to start up the setup. I know very little of software.

Many thanks
 
回复: 再请教WordSmith Tools处理中文和日语出现乱码的问题

Re: Q1:
File-based concordancing in WST (all versions) and Advacned concordance (Use terms from list below) of AntConc can handle up to 500, 1000 or more search terms (saved in *.txt file) at a time. You can refer to the manuals as to how to do the batch search.

WST has a feature called "match list" which yields individual frequencies of %s (normalized frequency) of the words in the list given.

Re: Q2:
An easy way is to "but also" search in the result of "not only" concordance hits.

Re: Q3:
YACSI, developed by iCasino, is a more user-friendly GUI of ICTCLAS, which is downloadable at http://ishare.iask.sina.com.cn/f/24241229.html.

But I don't think it can handle traditional Chinese texts.
 
回复: 再请教WordSmith Tools处理中文和日语出现乱码的问题

Himawari日本国立日语研究所的向日葵可以处理包括日语,汉语,英语,俄语,法语在内的语言。
 
回复: 再请教WordSmith Tools处理中文和日语出现乱码的问题

基于语料库的学习者英语近义词搭配行为与语义韵研究* [外语研究]
上海交通大学 陆军

这篇论文里谈到语义选择趋向的时候【如下图】,说到语义选择趋向的时候,说有“消极”语义选择趋向,那这个和消极语义韵又有什么分别那?

这个问题我是时而明白时而糊涂,主要是看不同的论文或书籍。

比如:有一些论文中提到语义选择趋向应该是指词类的聚合。也就是某个词后倾向于和某类词聚合。但这个说法有点倾向于类联接。

我本个问题里提到的论文他的解释又类似于语义韵。。。。所以本人再次求解。
 
回复: 再请教WordSmith Tools处理中文和日语出现乱码的问题

比如:有一些论文中提到语义选择趋向应该是指词类的聚合。也就是某个词后倾向于和某类词聚合。

我的看法跟你差不多。

比方说,Sinclair在讲解经典的naked eye的例子时,semantic preferences主要指的是visibility(e.g. see, watch, perceive, observe)等等的一类词,而semantic prosody指的是difficulty(以裸眼观察比较困难)这样的比较消极的语义韵。

类联接主要是指语法类,不指语义。
 
回复: 再请教WordSmith Tools处理中文和日语出现乱码的问题

I have antconc installed and I was in a guess that both antconc and WordSmith are same. Thanks for letting me know about the difference of both applications.. I guess I have to get the WordSmith also.






______________________
Chris--windows 8 problems
 
Back
顶部