WordSmith 3其实可以处理中文

in fact when you use Wordsmith to handle with Chinese material, you may find that sometimes the software is not effective. for example, if you use the Chinese version of Red Dream Mansion as material, and the search word is "贾宝玉", you may find that the word "玉" can't be correctly matched.
回复:WordSmith 3其实可以处理中文

以下是引用 僧梦2006-4-9 12:34:51 的发言:

回复: WordSmith 3其实可以处理中文

为什么我按照上述方法用wordsmith4试中文文档,总是显示no concordence entries found?请问许博士该怎么办?
回复: WordSmith 3其实可以处理中文

Did you try AntConc?
Did u convert your text encoding to unicode?

You can upload a sample text you've made for diagnosis.
回复: WordSmith 3其实可以处理中文

just now i tried AntConc,but it didn't work at all,maybe because i am too silly to use the tool properly.
and i dont know how to convert text to unicode.
pls show me how to use these softwares with example.
i am a beginer to do chinese text,and i can't find a tutor in my surroundings.hope and wait.thanks
回复: WordSmith 3其实可以处理中文

just now i tried AntConc,but it didn't work at all,maybe because i am too silly to use the tool properly.
and i dont know how to convert text to unicode.
pls show me how to use these softwares with example.
i am a beginer to do chinese text,and i can't find a tutor in my surroundings.hope and wait.thanks
回复: WordSmith 3其实可以处理中文


1、 中文分词处理:
要用WordSmith、AntConc、Watt's Concordance Tool(http://www.concordancesoftware.co.uk/)等软件处理中文,尤其是做词频和Corcondance,首先需要把文章进行分词处理(segmentation),你可以在本站找到大家讨论过的分词工具帮你处理语料。下面是你的语料用ICTCLAS分词后的样子(等号之间):

  中 新 网 1月 10日 电 中国 建设部 、 国家 发展 改革 委 、 财政部 、 监察部 、 审计署 联合 发布 的 《 关于 加强 大型 公共 建筑 工程 建设 管理 的 若干 意见 》 , 规定 大型 公共 建筑 工程 的 数量 、 规模 和 标准 要 与 “ 国情 ” 和 “ 地方 的 财力 ” 相 适应 。 设计 “ 要 重视 保护 和 体现 城市 的 历史 文化 、 风貌 特色 ” 。
  来自 各地 的 情况 表明 , 当前 国内 一些 大型 公共 建筑 工程 , 特别 是 政府 投资 为主 的 工程 建设 中 暴露 出 诸多 亟待解决 的 问题 , 包括 : 不顾 国情 和 财力 、 片面 追求 外 形 、 忽视 城市 地方 特色 和 历史 文化 等 。
  根据 这 一 《 意见 》 , 大型 公共 建筑 工程 的 数量 、 规模 和 标准 要 与 国家 和 地区 经济 发展 水平 相 适应 , 方案 设计 必须 符合 所在地 块 的 控制 性 详细 规划 的 有关 规定 , 大型 公共 建筑 设计 要 重视 保护 和 体现 城市 的 历史 文化 、 风貌 特色 。
  《 意见 》 要求 , 大型 公共 建筑 方案 设计 的 评选 要 考虑 建筑 外观 与 传统 文化 及 周边 环境 的 整体 和谐 。 对 政府 或 国有 企事业 单位 投资 的 大型 公共 建筑 项目 , 防止 单纯 追求 建筑 外观 形象 的 做法 。
  “ 大型 公共 建筑 ” 一般 指 建筑 面积 2万 平方米 以上 的 办公 建筑 、 商业 建筑 、 旅游 建筑 、 科教文卫 建筑 、 通信 建筑 以及 交通 运输 用 房 。

通常在记事本(Notepad)下存成的文本文件,系统默认存储为GB2312的编码格式。这种格式的文本用Watt's Concordance可以直接处理;如果要用WordSmith来处理, 就需要把文本另存为Unicode格式;如果要用AntConc,最好另存成UTF-8格式。前两个软件本身不需要特意设置,但AntConc还需要做相关设置,详见下面两个帖子的介绍:

AntConc3.2加入了file-based concordancing功能

用AntConc处理中文concordance, wordlist, N-gram
Last edited:
回复: WordSmith 3其实可以处理中文

Laohong is so kind to provide a detailed instruction.

To rainbow, your 22.txt is not segmented and encoded as ANSI not unicode. So pls follow laohong's instruction to segment the text and unicodify it in order to be accepted by most concordancers.
回复: WordSmith 3其实可以处理中文

laolong ,who help me so wholehearted,is not only kind but also generous ! of course so does Dr.xu! my aprreiciation can't be expressed by words.
回复: WordSmith 3其实可以处理中文

回复: WordSmith 3其实可以处理中文

WS4 contains almost all features that WS3 has, but not vice versa.
Some prominent features that WS4 have are: 1) WS4 can processed Chinese texts if unicodied; 2) supports long filenames; and many other modifications.
回复: WordSmith 3其实可以处理中文

Three simple reasons for upgrading to WordSmith version 4 from version 3:

1) With Version 3, the maximum number of concordances you can get is 16368, all others are ignored and you are not notified.
(See Xiao & McEnery 2005: http://eng.sagepub.com/cgi/reprint/33/1/62)
To verify this, try searching a large corpus for "the". If you get 16368 lines, it is very likely that there are more in your corpus. Version 4 has no such limit.

2) Version 3 only works reliably with English whereas version 4 with any language as long as it is supported by Unicode.

3) Version 3 is no longer maintained but version 4 is constantly improved and enhanced with new functionalities and utilities.

If you have bought your copy of version 3, you can fax your name, address, invoice number, and registration code to Oxford University Press. You will be issued new code for version 4 after a payment of 10 pounds (I think it's 10).