回复: WordSmith 3其实可以处理中文
在回复你的问题前,建议你要先搜索一下相关的帖子,最好仔细阅读一下大家以前讨论过的内容,因为你碰到的问题可能别人也碰到过,而且在这里已经讨论过了。
1、 中文分词处理:
要用WordSmith、AntConc、Watt's Concordance Tool(
http://www.concordancesoftware.co.uk/)等软件处理中文,尤其是做词频和Corcondance,首先需要把文章进行分词处理(segmentation),你可以在本站找到大家讨论过的分词工具帮你处理语料。下面是你的语料用ICTCLAS分词后的样子(等号之间):
===========================================
中 新 网 1月 10日 电 中国 建设部 、 国家 发展 改革 委 、 财政部 、 监察部 、 审计署 联合 发布 的 《 关于 加强 大型 公共 建筑 工程 建设 管理 的 若干 意见 》 , 规定 大型 公共 建筑 工程 的 数量 、 规模 和 标准 要 与 “ 国情 ” 和 “ 地方 的 财力 ” 相 适应 。 设计 “ 要 重视 保护 和 体现 城市 的 历史 文化 、 风貌 特色 ” 。
来自 各地 的 情况 表明 , 当前 国内 一些 大型 公共 建筑 工程 , 特别 是 政府 投资 为主 的 工程 建设 中 暴露 出 诸多 亟待解决 的 问题 , 包括 : 不顾 国情 和 财力 、 片面 追求 外 形 、 忽视 城市 地方 特色 和 历史 文化 等 。
根据 这 一 《 意见 》 , 大型 公共 建筑 工程 的 数量 、 规模 和 标准 要 与 国家 和 地区 经济 发展 水平 相 适应 , 方案 设计 必须 符合 所在地 块 的 控制 性 详细 规划 的 有关 规定 , 大型 公共 建筑 设计 要 重视 保护 和 体现 城市 的 历史 文化 、 风貌 特色 。
《 意见 》 要求 , 大型 公共 建筑 方案 设计 的 评选 要 考虑 建筑 外观 与 传统 文化 及 周边 环境 的 整体 和谐 。 对 政府 或 国有 企事业 单位 投资 的 大型 公共 建筑 项目 , 防止 单纯 追求 建筑 外观 形象 的 做法 。
“ 大型 公共 建筑 ” 一般 指 建筑 面积 2万 平方米 以上 的 办公 建筑 、 商业 建筑 、 旅游 建筑 、 科教文卫 建筑 、 通信 建筑 以及 交通 运输 用 房 。
=============================================
2、文本存储格式:
通常在记事本(Notepad)下存成的文本文件,系统默认存储为GB2312的编码格式。这种格式的文本用Watt's Concordance可以直接处理;如果要用WordSmith来处理, 就需要把文本另存为Unicode格式;如果要用AntConc,最好另存成UTF-8格式。前两个软件本身不需要特意设置,但AntConc还需要做相关设置,详见下面两个帖子的介绍:
AntConc3.2加入了file-based concordancing功能
http://www.corpus4u.org/showthread.php?t=2345
用AntConc处理中文concordance, wordlist, N-gram
http://www.corpus4u.org/showthread.php?t=1714&highlight=antconc