[求助]寻找比较权威的可用于CCRL的中文词库?

请问哪里有比较权威的可用于CCRL的中文词库下载,请各位朋友帮忙。
最好是ACESS 2000做的。
万分感谢!
邮箱:superyangtze@163.com
 
其实CCRL可以处理ASCI编码的TXT文本,这样的文本网上简直太多了啊。ACCESS2000做的库文件还真的不多见啊。
 
另外我有10G的左右的中文数据库,怎么给你呢?这些只能是源文件而已,没有任何标注的。
 
回复:[求助]寻找比较权威的可用于CCRL的中文词库,请各位朋友帮忙

北京语言文化大学开发的检索工具。
http://www.cutech.edu.cn/chengguo/introduction/jijin/NF/000031.asp

[本贴已被 作者 于 2005年08月15日 16时53分37秒 编辑过]
 
patricx朋友,我的目的是:从自己搜集的语料中查找出VP+A+N结构的短语。
CCRL比较好处理这个问题,所以我决定用它。
如果您还有其它好的办法,达到同样的目的,请告诉我。
我是一个新手,请多指教!
 
什么是CCRL?
现代汉语通用汉语生语料语言学属性检索统计系统(Chinese Corpus Retriever for Linguistic Attributes)CCRL V1.0


CCRL是国内外第一个可以对汉语生语料进行语言学属性检索的软件,可为语言学研究和语言教学提供有力支持。其特点是:
1、直接检索任何汉语生语料。
2、可进行字串、词串、语言学属性检索,也可以混和检索。
3、检索软件同词库、词的属性体系、词库中词的属性标注皆相互独立。即用户可以创建自己的词库、词的属性体系,自己在词库中进行词的属性标注,该软件将使用这些数据把用户选定的生语料加工成索引并进行检索。
4、检索方式灵活,检索快速准确,检索结果可按上下文排序。
5、自动进行任何汉语文本的字频、词频统计,词频统计中包括人名、地名、机构明、数字等未登录词的统计。
 
我用过一段时间,主要是集中在关键词检索方面。至于其他方法,WORDSMITH4其实比CCRL还麻烦啊。
 
it's not publicly available. Dr.xu, you can get a copy from here.
http://www.******************

[本贴已被 作者 于 2005年08月15日 17时04分27秒 编辑过]

为了提倡对知识产权的保护,我们将论坛中涉及到的相关链接隐去。希望大家支持。对于之前我们工作中不力之处在此特别致歉。

[本贴已被 xujiajin 于 2005年08月15日 18时00分10秒 编辑过]
 
回复:[求助]寻找比较权威的可用于CCRL的中文词库,请各位朋友帮忙

以下是引用 patricx2005-8-15 16:36:18 的发言:
另外我有10G的左右的中文数据库,怎么给你呢?这些只能是源文件而已,没有任何标注的。

现在汉语电子文本是比较多的,可以绝大多是文学类的。patricx 能否从10G语料中整理出一些百科类的、法律、科技、体育等其他问题的与大家分享就好了。

其实,语料决不是越多越好。
Representativeness, balance and sampling
http://www.corpus4u.com/forum_view.asp?view_id=447&forum_id=34

Literature review of representativeness
http://www.corpus4u.com/forum_view.asp?view_id=360&forum_id=34
 
回复xujiajin朋友:
这个软件可以免费使用100次。
下载的地址patricx朋友已经给出。
如果使用个人用户正式版,需要注册。至于是否收费,未知!
 
i am sorry, at present i have no much time sorting out so many files. and now i am preparing for some exams. and also these files are original texts, so they need tagging too.
 
哦,谢谢。看来中国大陆无处不是破解,无处没有盗版,福耶?祸耶?
 
You know, raw data are better recourses for linguists, because tagged data will not suit individual research purposes. And POS tagging can be done automatically with for example, brill tagger for english and ICTCLAS for Chinese.
 
that is not the cracked edition. the limited edition is 50 times online. and if you give them a phone call, then you can use it online 100 times. but the cracked edition is free to use anywhere and anytime.
 
回复xujiajin先生:
1 在我回复您的帖子当中,我没有提到任何破解,盗版的词语。
2 我反对盗版,破解。我尽个人所能维护知识产权!
3 我不同意您的所谓“看来中国大陆无处不是破解,无处没有盗版,福耶?祸耶?”的说法。
确切的说,不敢苟同。
 
Back
顶部