WordSmith 3其实可以处理中文

in fact when you use Wordsmith to handle with Chinese material, you may find that sometimes the software is not effective. for example, if you use the Chinese version of Red Dream Mansion as material, and the search word is "贾宝玉", you may find that the word "玉" can't be correctly matched.
 
回复:WordSmith 3其实可以处理中文

以下是引用 僧梦2006-4-9 12:34:51 的发言:
WordSmith有没有汉化版?

暂时没有,其实也不是很需要嘛。
 
回复: WordSmith 3其实可以处理中文

为什么我按照上述方法用wordsmith4试中文文档,总是显示no concordence entries found?请问许博士该怎么办?
 
回复: WordSmith 3其实可以处理中文

Did you try AntConc?
Did u convert your text encoding to unicode?

You can upload a sample text you've made for diagnosis.
 
回复: WordSmith 3其实可以处理中文

just now i tried AntConc,but it didn't work at all,maybe because i am too silly to use the tool properly.
and i dont know how to convert text to unicode.
pls show me how to use these softwares with example.
i am a beginer to do chinese text,and i can't find a tutor in my surroundings.hope and wait.thanks
 
回复: WordSmith 3其实可以处理中文

just now i tried AntConc,but it didn't work at all,maybe because i am too silly to use the tool properly.
and i dont know how to convert text to unicode.
pls show me how to use these softwares with example.
i am a beginer to do chinese text,and i can't find a tutor in my surroundings.hope and wait.thanks
 
回复: WordSmith 3其实可以处理中文

在回复你的问题前,建议你要先搜索一下相关的帖子,最好仔细阅读一下大家以前讨论过的内容,因为你碰到的问题可能别人也碰到过,而且在这里已经讨论过了。

1、 中文分词处理:
要用WordSmith、AntConc、Watt's Concordance Tool(http://www.concordancesoftware.co.uk/)等软件处理中文,尤其是做词频和Corcondance,首先需要把文章进行分词处理(segmentation),你可以在本站找到大家讨论过的分词工具帮你处理语料。下面是你的语料用ICTCLAS分词后的样子(等号之间):

===========================================
  中 新 网 1月 10日 电 中国 建设部 、 国家 发展 改革 委 、 财政部 、 监察部 、 审计署 联合 发布 的 《 关于 加强 大型 公共 建筑 工程 建设 管理 的 若干 意见 》 , 规定 大型 公共 建筑 工程 的 数量 、 规模 和 标准 要 与 “ 国情 ” 和 “ 地方 的 财力 ” 相 适应 。 设计 “ 要 重视 保护 和 体现 城市 的 历史 文化 、 风貌 特色 ” 。
  来自 各地 的 情况 表明 , 当前 国内 一些 大型 公共 建筑 工程 , 特别 是 政府 投资 为主 的 工程 建设 中 暴露 出 诸多 亟待解决 的 问题 , 包括 : 不顾 国情 和 财力 、 片面 追求 外 形 、 忽视 城市 地方 特色 和 历史 文化 等 。
  根据 这 一 《 意见 》 , 大型 公共 建筑 工程 的 数量 、 规模 和 标准 要 与 国家 和 地区 经济 发展 水平 相 适应 , 方案 设计 必须 符合 所在地 块 的 控制 性 详细 规划 的 有关 规定 , 大型 公共 建筑 设计 要 重视 保护 和 体现 城市 的 历史 文化 、 风貌 特色 。
  《 意见 》 要求 , 大型 公共 建筑 方案 设计 的 评选 要 考虑 建筑 外观 与 传统 文化 及 周边 环境 的 整体 和谐 。 对 政府 或 国有 企事业 单位 投资 的 大型 公共 建筑 项目 , 防止 单纯 追求 建筑 外观 形象 的 做法 。
  “ 大型 公共 建筑 ” 一般 指 建筑 面积 2万 平方米 以上 的 办公 建筑 、 商业 建筑 、 旅游 建筑 、 科教文卫 建筑 、 通信 建筑 以及 交通 运输 用 房 。
=============================================

2、文本存储格式:
通常在记事本(Notepad)下存成的文本文件,系统默认存储为GB2312的编码格式。这种格式的文本用Watt's Concordance可以直接处理;如果要用WordSmith来处理, 就需要把文本另存为Unicode格式;如果要用AntConc,最好另存成UTF-8格式。前两个软件本身不需要特意设置,但AntConc还需要做相关设置,详见下面两个帖子的介绍:

AntConc3.2加入了file-based concordancing功能
http://www.corpus4u.org/showthread.php?t=2345

用AntConc处理中文concordance, wordlist, N-gram
http://www.corpus4u.org/showthread.php?t=1714&highlight=antconc
 
Last edited:
回复: WordSmith 3其实可以处理中文

Laohong is so kind to provide a detailed instruction.

To rainbow, your 22.txt is not segmented and encoded as ANSI not unicode. So pls follow laohong's instruction to segment the text and unicodify it in order to be accepted by most concordancers.
 
回复: WordSmith 3其实可以处理中文

laolong ,who help me so wholehearted,is not only kind but also generous ! of course so does Dr.xu! my aprreiciation can't be expressed by words.
 
回复: WordSmith 3其实可以处理中文

一个菜鸟问题:ws.4.0的功能在ws.3.0里是否都有?已经有ws.3.0了,还有必要再买ws.4.0吗?毕竟机会难得啊!谢谢!
 
回复: WordSmith 3其实可以处理中文

WS4 contains almost all features that WS3 has, but not vice versa.
Some prominent features that WS4 have are: 1) WS4 can processed Chinese texts if unicodied; 2) supports long filenames; and many other modifications.
 
回复: WordSmith 3其实可以处理中文

Three simple reasons for upgrading to WordSmith version 4 from version 3:

1) With Version 3, the maximum number of concordances you can get is 16368, all others are ignored and you are not notified.
(See Xiao & McEnery 2005: http://eng.sagepub.com/cgi/reprint/33/1/62)
To verify this, try searching a large corpus for "the". If you get 16368 lines, it is very likely that there are more in your corpus. Version 4 has no such limit.

2) Version 3 only works reliably with English whereas version 4 with any language as long as it is supported by Unicode.

3) Version 3 is no longer maintained but version 4 is constantly improved and enhanced with new functionalities and utilities.

If you have bought your copy of version 3, you can fax your name, address, invoice number, and registration code to Oxford University Press. You will be issued new code for version 4 after a payment of 10 pounds (I think it's 10).
 
Back
顶部