[转贴]汉语语料处理软件

清风出袖

高级会员
刚才在北大中文论坛看到了一款软件介绍,看了一下蛮好的,介绍给大家,如果有兴趣可以和作者联系。

一、本软件为绿色软件,在广西民族大学海柳文教授的精心指导下,由南燕飞设计而成,用于信息处理,所处理的是纯文本文件,保存的,也是纯文本文件。本软件的处理速度已经可以和北大ccl语料库比美,大家可以一试其速度,所有提取全部在内存中进行,只有在提取完毕才显示出来,所以在提取的时候,如果您的语料超长,提取超过一万句以上的句子希望您耐心等待!我们作过测试,提取10000句的句子,可以在点击的一瞬间提取出来,20万字的语料,可以在1秒钟内的时间算出全部的字频。
软件的主体风格: 由一个主窗口里面包含有诸多子窗口,用菜单可以打开每个子窗口,每次只能打开一个子窗口,子窗口一般由两个页面组成,一个是用来打开您要处理的语料的,这些语料必须是纯文本文件,就是后缀是txt的文件,可以一次打开多个电子文本,我们建议用打开的方式,这样可以打开无限多的语料,而不用复制粘贴,复制粘贴只能粘贴上去6万字左右的语料(注:处理外国语料的,请用复制粘贴,不受数量限制!);另一个是用来处理语料的页面。其中,打开文本文件的窗口有一个查找另一处的,可以用alt+F调用这个查找对话框,可以向下,也可以向上查找。击右键可以调用菜单,处理多国语言的窗口有一点特别,它要处理的是unicode字符,如果您要处理的外国语言不能被电子文本识别,也就是不能直接为我们的软件打开,就是说,只能在word中打开,那么请您把您的语料从word中复制到我们的文本框中,我们就可以给您处理。如果您要精确提取您的语料,比如说:要提取文本中所有含有"is"的句子,而"this"中也有"is"就会也被当成是含
有"is"而被提取出来,这个时候,为了防止这种情况发生,请在"input a foreign language all latters "右边的文本框中,写入该国语言的所有字母,就可以防止这种情况发生。我只是举个例子,其实英语语料的提取,我们专门做了一个窗口。处理超过5百万字的语料,请保证您的计算机内存在512左右。内存越大越好!
二、以标点符号为标记提取,如果碰到空格、或到头,就不再找下去了。我们希望您的文本是经过校正的文本,这样处理的结果会更好。用句号作标记提取的时候,我们提取的是前一个句号和后一个句号之间的含有关键词的句子。以:""!?为标记提取时,只要碰到这样的标点,软件就停止找下去,不再找下去了。如果您的语料没有标点符号,请采用按字数提取的方法,从关键词语的左边多少个提取,一个提取多少个。这个提取总数字可能由于您提取的关键词语的字数而有一点出入,主要是我们提取的时候,去掉了左右的空格和不可见的字符。软件在提取主题词语的前面用
▲进行标记。
三、标记章节后提取,就是在每章的标题前面用我们给的㊣■复制粘贴在前面,只要是独立的一行,提取时,软件会智能的告诉您是从哪一章节提取出来的。"必须"每章标题前都要标上㊣■,而且是独立的一行。如:在《彷徨》的标题"祝福"前标上㊣■,以后如果提取的句子是从这一章中提取的。软件会智能的把这个标题补在后面。如提取《彷徨》中含有"火药"的句子:1。灰白色的沉重的晚云中间时时发出闪光,接着一声钝响,是送灶的爆竹;近处燃放的可就更强烈了,震耳的大音还没有息,空气里已经散满了幽微的▲火药香。(祝福)这个窗口根据导师的宝贵意见,对于标题中含有关键字的,不再提取,自动过滤掉了。所以您可能以为数目与不标记章节提取出来的不一致。
四,提取成对出现的词语的句子,是提取句子中含有"不但......而且"之类词语的句子,可以提取成三对,成四对出现词语的句子。提供两种提取方式,一种是按顺序提取,就是说不但在而且的前面,比如说:我不但会英语,而且会法语。另一种提取方式是不按顺序提取,就是说,只要一个句子中含有这些词语,它就给提取出来。比如说"因为......所以"这一对,不管因为在前也好,在后也好,只要这句话含有这一对词语,就给您提取出来。
五,提取句子并且按关键词语后一个或者前一个排序,举例来说,我要提取《论语》中的"为"字,如果是按主题词语"为"的后一个排序,那么"为人"、"为谁"的会自动在提取的同
时进行排序。只要是"为人"的句子会自动放在一起,而"为谁"的句子也会自动放在一起,而且标上序号。
六,字频统计,是本软件中的一个重头戏,大家自己用一用就知道它的威力了。词频统计窗口,借助了中科院分词系统,请先用中科院分词系统处理您的语料,然后才能进行词频统计或者单字词与多字词频率统计!
七,提取成批出现的词语的语料。这个窗口是用来专门提取那些成匹出现的的词语举例说,量词,介词。一次允许您输入20个词语,可以一次性提取。无人执守窗口,不受关键词语数量限制!
八,在进行提取或者统计的时候,请不要乱点击鼠标,可能会造成程序中止,因为运行时候,占的内存大。
九、请注意,大型的语料处理请用打开的方式,一次只能复制粘贴6万字左右的语料,但是用打开的方式,可以处理任意多的语料。外国语料的处理请用复制粘贴,不受数量限制,因为用的控件不相同,在这里我们不作过多的解释。请切记!!!
谢谢您的使用,在使用中有什么不明白的,或者您有更好的意见,请写信给本人:邮箱
nanyanfei666666@126.com QQ524597637
附:第一次使用本软件的人,请按如下方法操作:第一步:单击按指定字符串提取语料菜单 第二步:鼠标滑动到"提取含有字符串的单个句子",再往右滑动到"按句号为标记提取句子",然后点击"按句号为标记提取句子",这个时候会弹出一个窗口 第三步:在空白处点击右键,单击"打开语料文本"项,打开您要处理的后缀为txt的电子文本 第四步:单击检索提取句子,这是本窗口中的另一个页面,在输入字符串右边文本框中输入要检索的关键字比如"一"字,按"回车键"或者单击按句号提取按键。结果就显示在上面的空白处!
 

附件

oscar3

高级会员
回复: [转贴]汉语语料处理软件

好像是一个concordancer。谢谢提供这个信息。
 
回复: [转贴]汉语语料处理软件

新手上路,请问到哪里可以下载wordsmith4.0检索工具呀?谢谢!
 

清风出袖

高级会员
回复: [转贴]汉语语料处理软件

今天在北大论坛看到了这个软件的最新版本,特转帖和诸位C友分享!

语料处理软件第二版
汉语语料处理软件07年9月在北大中文论坛发布后,得到了来自全国各地用户的支持,很多用户提出了宝贵的意见,在此表示衷心的感谢!
一直到今天仍然不断有用户写信过来索要,为了方便语言研究者,现提供第二版下载地址:
http://www.nanyanfei.com/qita/语料处理软V2.0.exe
如果上述地址无法下载,请到http://www.nanyanfei.com/qita/biaoge.html 页面找到语料处理软件进行下载。
语料软件第二版,在原来的基础上增加了对word文档的支持,支持同时打开多个后缀为doc和txt的文档,并且支持把多个后缀为txt的电子文本拖到软件里面进行处理。
字频统计的窗口增加了对方正超大字符集的字符的处理能力,如果你的电脑装有这种字体,你可以击右键选择字体,选择方正超大字符集,这样就可以统计这种字体的字频了。
 
Last edited:
顶部