汉语文本处理常见问题及解答 中文 Chinese text processing FAQ

xujiajin

管理员
Staff member
汉语文本处理常见问题及解答FAQ
[Word版http://www.corpus4u.org/upload/forum/2005080417254541.doc]

1. 分词和汉字之间加空格是一回事吗?

两者不尽相同。分词是以语言的词为单位,汉字之间加空格是以书写符号汉字为单位。
例如:北京是中国的首都。
分词:北京 是 中国 的 首都 。
汉字之间加空格:北 京 是 中 国 的 首 都 。

2. 哪些软件可以自动分词?

a) 中科院计算所汉语词法分析系统ICTCLAS
http://mtgroup.ict.ac.cn/~zhp/ICTCLAS/index.html

b) Chinese Annotation Tool可在线处理简体汉语文本
http://www-rohan.sdsu.edu/~chinese/annotate.html
Perl 版本:http://www.mandarintools.com/segmenter.html

c) 海量智能分词研究版http://www.hylanda.com/

d) CSW Ver 3.18 中文智能分词, 英文名称:Chinese Split Word
网上演示:http://61.129.81.124/csw/csw.asp
软件下载:http://www.vgoogle.net/

e) ChineseTA?
http://www.svlanguage.com/ChineseTA Feature.htm
http://www.corpus4u.org/showthread.php?t=713

3. 哪些软件可以自动在汉字之间加空格?

a) 中华佛典TextPro文本处理程序
http://www2.fodian.net/tools/index.html

b) Chinese Annotation Tool可在线处理简体汉语文本
http://www-rohan.sdsu.edu/~chinese/annotate.html
Perl 版本:http://www.mandarintools.com/segmenter.html

c) MS Word 的 search/replace 功能也可以用来给汉字之间加空格:
http://www.corpus4u.org/showthread.php?t=714


4. 哪些软件可以自动作编码转换(GB/BIG5/UTF-8/UNICODE=UTF-16)?

a) Multilingual Corpus Tool by Scott Piao, 成批转换
http://www.lancs.ac.uk/staff/piaosl/research/download/download.htm

b) WordSmith Tools 4, GB/BIG5 -> UNICODE (UTF-16) 成批转换

c) 南极星NJ Star 文本转换器, 单个转换
http://www.njstar.com

d) b) Chinese Annotation Tool可在线处理简体汉语文本, 单个转换
http://www-rohan.sdsu.edu/~chinese/annotate.html
Perl 版本:http://www.mandarintools.com/segmenter.html

e) MS Word/Notepad, 单个转换
 

xujiajin

管理员
Staff member
5. 哪些软件可以把汉字文本自动转成汉语拼音文本?

a) 南极星NJ Star 文本转换器, 单个转换
http://www.njstar.com

b) b) Chinese Annotation Tool可在线处理简体汉语文本, 单个转换
http://www-rohan.sdsu.edu/~chinese/annotate.html
Perl 版本:http://www.mandarintools.com/segmenter.html

c) MS Word (Asian Language Layout), 单个转换


6. 哪些软件可以把MS Word文件自动成批转换成ASCII纯文本(.txt)?

a) MS Word“转换向导” 模板 (Batch Conversion Wizard.)
http://www.corpus4u.org/showthread.php?t=556

b) WordSmith Tools 4, Text Converter.


7. 哪些软件可以把多个纯文本(.txt)文件合并成一个大文件?

a) 文本文件合并器
http://www.21tx.com/dl/2005/02/21/10209.html

b) WordSmith Tools 4, File Utilities.


8. 哪些软件可以把一个大纯文本(.txt)文件分割成多个文件?

a) WordSmith Tools 4, File Utilities.


9. 哪些软件可以把HTML文件自动成批转换成ASCII纯文本(.txt)?

a) HTML2TXT
http://www.21tx.com/dl/2004/11/01/10320.html

10. 如何利用MS Word辅助加码 (mark up, tagging)?
http://www.corpus4u.org/showthread.php?t=678

11. 如何利用Excel计算各类语词共现数据(T-Score, MI, Z-score)?
http://www.corpus4u.org/showthread.php?t=544
 

xujiajin

管理员
Staff member
12. 哪些软件可以进行关键词索引(KWIC concordancing)检索?

经过“分词”处理的汉语纯文本文档可以借助常见的索引工具(concordancer)进行检索。
其他的方法有WordConcord
见:http://www.corpus4u.org/showthread.php?t=564

经过“分字”处理的汉语纯文本文档也可以借助常见的索引工具进行检索,但效果稍差,因为没有
词的单位为依据。

没有经过“分词”和“分字”处理的汉语文档在进行关键词索引时要么常常出错,要么根本无法进行。
 

xujiajin

管理员
Staff member
北京语言文化大学开发的检索工具。
http://www.cutech.edu.cn/chengguo/introduction/jijin/NF/000031.asp

现代汉语通用汉语生语料语言学属性检索统计系统(Chinese Corpus Retriever for Linguistic Attributes)CCRL V1.0

CCRL是国内外第一个可以对汉语生语料进行语言学属性检索的软件,可为语言学研究和语言教学提供有力支持。其特点是:
1、直接检索任何汉语生语料。
2、可进行字串、词串、语言学属性检索,也可以混和检索。
3、检索软件同词库、词的属性体系、词库中词的属性标注皆相互独立。即用户可以创建自己的词库、词的属性体系,自己在词库中进行词的属性标注,该软件将使用这些数据把用户选定的生语料加工成索引并进行检索。
4、检索方式灵活,检索快速准确,检索结果可按上下文排序。
5、自动进行任何汉语文本的字频、词频统计,词频统计中包括人名、地名、机构明、数字等未登录词的统计。

[本贴已被 作者 于 2005年08月15日 18时02分13秒 编辑过]
 

xujiajin

管理员
Staff member
14. A Corpus Worker's Toolkit
http://www.corpus4u.org/showthread.php?t=798

A Corpus Worker's Toolkit (ACWT) is a collection of NoteTab clips and Perl scripts for Chinese
and English text processing. They can do some quick and dirty corpus/discourse linguistic work
for those who can otherwise not afford sophisticated yet expensive commercial software
programs. Most of these tools function like macros in word processing programs, but they can
do much more and work in a simple text processing environment.
Major tools included in the Toolkit so far:

Text Utilities 文本处理
Merge Files
HTML<-->Text Conversion
Tagged Text --> Plain Text Conversion
File comparison/sizes/counts
Chinese Word-based Segmentation

Search & Analysis 检索统计
Basic Chinese Concordance
Basic English Concordance
Word List/Frequency
Mutual Info/T-Score
Normed Freq/Ratio/Lexical Density

Interactive Text Tagging 互动加码
L2 Errors - The CLEC Tags
Discourse Structure - Samples
Semantics & Pragmatics - Samples
Sociolinguistics - Samples
Syntax - Samples

Discourse Transcription 口语转写
The DuBois et al. System - modified
Header Info
Voice Quality
Turn Taking
Conversation Structure
Metalinguistic
Gesture
 

Hi_Jane

会员
回复: 汉语文本处理常见问题及解答Chinese text processing FAQ

3. 哪些软件可以自动在汉字之间加空格?

a) 中华佛典TextPro文本处理程序
http://www2.fodian.net/tools/index.html

b) Chinese Annotation Tool可在线处理简体汉语文本
http://www-rohan.sdsu.edu/~chinese/annotate.html
Perl 版本:http://www.mandarintools.com/segmenter.html

c) MS Word 的 search/replace 功能也可以用来给汉字之间加空格:
http://www.corpus4u.org/showthread.php?t=714
上述链接中,只有涂成红色的链接可用,但那是分词,而不是分字的.请推荐个可以给汉语做分字处理的网站,可以吗?
 

laohong

管理员
Staff member
回复: 汉语文本处理常见问题及解答Chinese text processing FAQ

南京师范大学贺胜老师的CIPP也可以分词的。
www.cipp.cn
她要的是分字的工具,即给每个汉字前加个空格。用EditPlus很容易做到,不过有个Windows界面的更好。到Lao Hong's Corpus Stuff 的NLP folder 下载经过我改装的NJStar Converter 吧。既可以转换编码,也可以给字加空格。

http://corpuslaohong.ys168.com
corpus4u
 

yoscar

初级会员
回复: 汉语文本处理常见问题及解答Chinese text processing FAQ

c) MS Word 的 search/replace 功能也可以用来给汉字之间加空格:
http://www.corpus4u.org/showthread.php?t=714

我点了这个网址,找不到服务器,
用了MS word,没摸索出来,还望高手指点!!!!!!
 

oscar3

高级会员
回复: 汉语文本处理常见问题及解答Chinese text processing FAQ

c) MS Word 的 search/replace 功能也可以用来给汉字之间加空格:
http://www.corpus4u.org/showthread.php?t=714

我点了这个网址,找不到服务器,
用了MS word,没摸索出来,还望高手指点!!!!!!
用MS-word的find/replace功能给汉字前面加空格需要熟悉regular expression。我感到惊讶的是,怎么没有人想到用免费的TextPro。这个软件对于不懂regular expression的人来说,只要你明白你要干什么,就可以用其编辑下的查找功能实现,比如你可以查找任意全角字符,半角字符,数字,首行,第一个字符等等。
当然对于加空格之类的活,根本用不着regular expression,因为Textpro似乎就是专为语料处理的玩家制作的,在菜单栏“转换”中就有“增加空格”的功能,点击一下就可以了。请注意,Textpro是一款绿色软件,无需安装。
Textpro来自于中华佛典网站,可以点击http://www.fodian.net/tools/TextPro51.zip下载。不知道哪位大德编出了这么好的工具,真要感谢他/她才是。
 

附件

Last edited:

mayerniu

初级会员
回复: 汉语文本处理常见问题及解答Chinese text processing FAQ

利用ACWT既可以分词,也可以分字,还可以进行统计.前边Dr. Xu已经用英语介绍过该软件的安装及应用步骤,下面是该软件的中文使用说明.

语料库工具箱(ACWT)的安装与使用步骤:
1. 安装
要运行这些组件需要安装4.5 及以上版本的NoteTab 工具,Perl(译码)程序,以及下面提及的相关
工具。缺少了这些工具您可能无法正常运行ACWT 中的某些组件。这些工具和组件都可以从网上免费下
载。

NoteTab 工具文件:
1) 先从http://www.notetab.com 网站下载NoteTab。网站上至少有3 种不同版本的NoteTab:简易版
(Light)、标准版(Standard)和专业版(Professional)。简易版(Light version)NoteTab 是免费软件,可
以嵌入前述的各种工具组件。(以下讨论中默认的都是简易版NoteTab。)
2) 将简易版NoteTab 安装到Windows 操作系统中。
3) 如果您按照默认的步骤安装NoteTab Light,那么在...\NoteTab Light\路径下应该有一个目录
“ Libraries ” 。通过Windows 浏览器找到该目录( 默认路径应该是C:\Program Files\NoteTab
Light\Libraries\)。
4) 将您连同这个自述文件一起得到的6 个模块文件(即!TK_Start.clb, 01_TextUtl.clb, 02_WdL_Conc.clb,
03_DiscTag.clb, 04_Trans.clb, and 05_Links.clb)拷贝到...NoteTab Light\Libraries 目录下。将来如果有更新版本的话也请将这些档置于同一个档夹下并进行替换。

Perl 文件:
3) 从http://www.activestate.com/Products/languages.plex?tn=1 下载Active Perl(也可从其它网站下载)
并进行安装。请确保所有档置于C:\Perl\目录及相应的子目录下。安装后,C:\Perl 目录下应当会出
现...\bin, ...\lib, ...\docs 等若干个活页夹。
4) 将如下几个文件拷贝到C:\Perl\bin 目录下:
kwic.pl, kwic_e.pl segment.pl wordlist.txt
cmu_seg.pl ldc.dic split.pl kwic_l.pl
5) 将segmenter.pl 拷贝到C:\Perl\lib 目录下。
请务必按指示相应地存储Perl 档,否则一些基于Perl 的程序将难以正常运行。

配套组件:东北大学自然语言实验室汉语分词器NEUCSP 和中科院计算所词法分析系统ICTCLAS
6) 可以从http://www.nlplab.cn/cipsdk.html 下载到东北大学自然语言实验室汉语分词器NEUCSP。请
将NEUCSP 安装到C 盘根目录,即C:\neucsp。neucsp.exe 及其它系统文件都应存在这个目录下。NEUCSP
可以为当前打开的档进行POS 词性标注。在DOS 环境下,NEUCSP 还可以对多个档进行分词标注处理,
但此处无法实现。
7) 可以从http://www.nlp.org.cn/categories/default.php?cat_id=12 下载到中科院计算所词法分析系统
ICTCLAS。请将ICTCLAS 安装到C 盘根目录,即C:\ictclas。ictclas.exe 应在这个目录下。其它系统文件应
当存储在C:\ictclas\data 的目录下。

2.程序的使用方法
将NoteTab Light 作为一个文本编辑工具打开。
默认在NoteTab Light 窗口的左边您可以看到一个打开的小窗口,上面包含不同的模块单元(clip
libraries)(每个模块单元clip library 包含一组模块clips。每一个模块clip 就是一个语料处理工具。一个单
元可以包含多个模块。)选择!TK_Start(通常在最顶端)。!TK_Start 相当于提供了一个索引面板,可以帮
助用户找到ACWT 中所有工具组件。
切换到您在!TK_Start 上看到的任何一个工具组件。
打开一个文本文件(或者最好先创建一个无用的档作测试之用)。然后可以对随意选中的(部分)文
本实施相应的操作(点击某个模块)。
绝大多数情况下,工具组件默认处理的是当前打开的文档。其它一些组件可以针对本地硬盘上的一
个或多个档进行操作。

(pdf原文:http://www.humnet.ucla.edu/alc/chinese/ACWT/UserGuide_Cf.pdf:)
 

清风出袖

高级会员
回复: 汉语文本处理常见问题及解答Chinese text processing FAQ

其实ACWT还是在用ICTCLAS分词的,而且你的文件大了,效果也不好。
 

Hi_Jane

会员
回复: 汉语文本处理常见问题及解答Chinese text processing FAQ

谢谢laohong,youscarchia,oscar3,mayerniu。非常感谢大家的热心帮助。

很高兴在“五一”期间,我们的家又可以出入自如:)

祝板油们“五一”快乐!
 

armstrong

高级会员
回复: 汉语文本处理常见问题及解答Chinese text processing FAQ

谢谢Oscar3.
各位C友“五一”快乐!
 

armstrong

高级会员
回复: 汉语文本处理常见问题及解答Chinese text processing FAQ

请问如何将下面的语料
1 意大利"绅士大盗"与世长辞 (2001/12/31)
2 12月25日,意大利著名的"绅士大盗"霍斯特·凡塔齐尼因心脏病突发在狱中去世,终年62岁。这位看上去和蔼可亲的"绅士大盗"是一位无政府主义者,曾于二十世纪六、七十年代以一种非常特殊的绅士方式多次抢劫银行。
3 凡塔齐尼一生用非暴力的方式"打劫"了意大利北部的大小银行,据一些报道称,他行动时经常使用一支玩具手枪。在一次打劫行动中,一名女出纳员因惊吓过度昏了过去,事后这位"绅士"竟然为这位小姐送去了玫瑰以表慰问,从此凡塔齐尼便得了"绅士大盗"这个雅号。
4 但是凡塔齐尼1973年的那次越狱行动可就不那么绅士了。在那次越狱行动中,凡塔齐尼打伤了3名看守,在与警方的僵持过程中还挟持了2名人质。1999年,意大利导演恩佐·孟泰莱恩内将凡塔齐尼的这次越狱行动改编为电影,取名《亡命之徒》("Outlaw")。
5 12月25日,凡塔齐尼在意大利北部城市博洛尼亚市郊的多扎监狱中去世。一名监狱官员说,30多年来这位"绅士大盗"一直从监狱里“进进出出”,并尝试过多种越狱方式,但是最终还是没能逃出囹圄。
6 凡塔齐尼对自己这么多年来的"半自由"式的服刑方式似乎非常满意,所谓"半自由"式就是监狱允许表现良好的犯人在监狱外服刑。但上星期,凡塔齐尼企图打劫博洛尼亚又一家银行的时候再次被捕,并被取消了"半自由"式服刑的资格。
7 "绅士大盗"凡塔齐尼出生在德国,其父亲也是一名无政府主义者。后来,凡塔齐尼成为了意大利无政府主义运动的风云人物,同时他还是"红色旅"( “Red Brigade”)极端组织的支持者,该组织曾于1978年刺杀了意大利总理阿尔多·莫洛。

转化为如下的语料
<s n="01">意大利"绅士大盗"与世长辞 (2001/12/31)
<s n="02">12月25日,意大利著名的"绅士大盗"霍斯特·凡塔齐尼因心脏病突发在狱中去世,终年62岁。这位看上去和蔼可亲的"绅士大盗"是一位无政府主义者,曾于二十世纪六、七十年代以一种非常特殊的绅士方式多次抢劫银行。
<s n="03">凡塔齐尼一生用非暴力的方式"打劫"了意大利北部的大小银行,据一些报道称,他行动时经常使用一支玩具手枪。在一次打劫行动中,一名女出纳员因惊吓过度昏了过去,事后这位"绅士"竟然为这位小姐送去了玫瑰以表慰问,从此凡塔齐尼便得了"绅士大盗"这个雅号。
<s n="04">但是凡塔齐尼1973年的那次越狱行动可就不那么绅士了。在那次越狱行动中,凡塔齐尼打伤了3名看守,在与警方的僵持过程中还挟持了2名人质。1999年,意大利导演恩佐·孟泰莱恩内将凡塔齐尼的这次越狱行动改编为电影,取名《亡命之徒》("Outlaw")。
<s n="05">2月25日,凡塔齐尼在意大利北部城市博洛尼亚市郊的多扎监狱中去世。一名监狱官员说,30多年来这位"绅士大盗"一直从监狱里“进进出出”,并尝试过多种越狱方式,但是最终还是没能逃出囹圄。
<s n="06">凡塔齐尼对自己这么多年来的"半自由"式的服刑方式似乎非常满意,所谓"半自由"式就是监狱允许表现良好的犯人在监狱外服刑。但上星期,凡塔齐尼企图打劫博洛尼亚又一家银行的时候再次被捕,并被取消了"半自由"式服刑的资格。
<s n="07">绅士大盗凡塔齐尼出生在德国,其父亲也是一名无政府主义者。后来,凡塔齐尼成为了意大利无政府主义运动的风云人物,同时他还是"红色旅"( “Red Brigade”)极端组织的支持者,该组织曾于1978年刺杀了意大利总理阿尔多·莫洛。


谢谢!
 

laohong

管理员
Staff member
回复: 汉语文本处理常见问题及解答Chinese text processing FAQ

就是给文本加段落号?如果文件不多,可以使用詹卫东的文本预处理程序。注意先得把文本处理一下,最好每行是所要标记段落号的一段或一句,然后打开TextPreProcessing.exe, 敲菜单中的文本预处理下的句子编号,导入原文本得到结果文件。然后用EditPlus打开结果文件,在Search, Replace,Find What里填入“^[0-9]+”,在Replace with 里填入“<s n="\0"> ”(没有引号),选择Regular Expression,就得到你想要的。

__________________

文本预处理程序,将一个普通文本文件进行断句处理,统计句长和频次,按句长降序输出,将普通文本文件转为带有XML标记的文件……

源代码:TextPreProcessing.zip
http://ccl.pku.edu.cn/doubtfire/Cour...Processing.zip
测试用文本文件
http://ccl.pku.edu.cn/doubtfire/Cour..._5/txttest.zip
描述XML文件显示格式的css文件样例
http://ccl.pku.edu.cn/doubtfire/Cour...5/template.css
执行程序:TextPreProcessing.exe
http://ccl.pku.edu.cn/doubtfire/Cour...essing.exe.zip
__________________
 
顶部