看一看我的语料库

回复: 看一看我的语料库

请问,我要检索“吧”的一些新表达,如火吧,彩吧等,应该怎么做啊?
你可以看到,我的语料库都比较陈旧,您的新词语可能无法在我的语料库中找到。要检索“彩吧”,就直接输入“彩吧”。但是,检索结果可能不是您期望的,因为,它实际检索的是两个相邻的字,而不是一个双字词。
 

xusun575

高级会员
回复: 看一看我的语料库

谢谢Mandel,把自己的成果向C友开放. 容量之大,搜索速度之快令人惊叹.Standard reference是McEnery所谓的语料库四要点之一. 国内英语界真该向您(当然还有Laohong等)多学一点开放精神.(不过想学也难:rolleyes:)
国内第一无疑,但仍有一点建议,分三小点::D
1.1汉语单语,可否参考Mark Davies http://corpus.byu.edu/[/url].[/SIZE]不是简单的模仿,而是借鉴以创新.您的学识和能力和团队,在这一领域,你们一定是世界第一.
1.2检索结果的排序.这一功能对使用者非常重要.比如有C友希望检索“吧”的一些新表达,或称"搭配",如火吧,彩吧等,若能对 单字"吧"的 检索结果作基于L1的排序,这个问题就可以解决了.
1.3 不论是单语还是双语,建议标注必要的语料信息,功德无量. 以Mark Davies为例. 检索结果前显示有序号,时间,语料\体裁,和来源; KWIC显示 更为具体,以便于研究者援引标注.如"artificial intelligence"最后一条KWIC显示的信息是:
Source information:
Date 1990 (Spring)
Publication information Spring90, Vol. 4 Issue 2, p15-37, 23p, 4 diagrams
Title CO-STAR: A Semantic Representational Schema for Cost Management.
Author Reuber, A. Rebecca1
Source Journal of Information Systems
 
回复: 看一看我的语料库

仍有一点建议,分三小点::D
1.1汉语单语,可否参考Mark Davies http://corpus.byu.edu/[/url].[/SIZE]不是简单的模仿,而是借鉴以创新.
1.2检索结果的排序.这一功能对使用者非常重要.比如有C友希望检索“吧”的一些新表达,或称"搭配",如火吧,彩吧等,若能对 单字"吧"的 检索结果作基于L1的排序,这个问题就可以解决了.
1.3 不论是单语还是双语,建议标注必要的语料信息,功德无量.
谢谢xusun575的建议。回答如下:
1.1 1.2 我们会做一定改进,请假以时日。
1.3 有些语料,因为收集的原因,没有出处,无法标注来源。但是人民日报和解放日报语料都有出处,会适当开放有关信息。

目前暂时没有在收集新的语料。如果有C友愿意贡献合适的XML标注的语料,我们可以返回更多信息。目前的检索软件和有些网站在功能上的确差很多。毕竟是一个100K的小程序,请大家原谅。
 

xusun575

高级会员
回复: 看一看我的语料库

谢谢xusun575的建议。回答如下:
1.1 1.2 我们会做一定改进,请假以时日。
1.3 有些语料,因为收集的原因,没有出处,无法标注来源。但是人民日报和解放日报语料都有出处,会适当开放有关信息。

目前暂时没有在收集新的语料。如果有C友愿意贡献合适的XML标注的语料,我们可以返回更多信息。目前的检索软件和有些网站在功能上的确差很多。毕竟是一个100K的小程序,请大家原谅。
谢谢真诚的答复. 已经令人敬佩不已,岂有"原谅"一说?:)
 

戴光荣

普通会员
回复: 看一看我的语料库

谢谢史博士的奉献。
好好顶一下。
也好好学一学。
嘿嘿。
 
回复: 看一看我的语料库

看了log,才发现有人写程序于22日、23日下载整个语料库。于是修正了软件,原来开放的某些功能现在只对熟悉用户开放。
 

singer

普通会员
回复: 看一看我的语料库

看了log,才发现有人写程序于22日、23日下载整个语料库。于是修正了软件,原来开放的某些功能现在只对熟悉用户开放。
这个下载的人看来也是道中高手了,为什么干这样的事啊?别惹恼了大家,免得被“人肉”出来。:)
 

laohong

管理员
Staff member
回复: 看一看我的语料库

这个下载的人看来也是道中高手了,为什么干这样的事啊?别惹恼了大家,免得被“人肉”出来。:)
咱们这个坛子里不乏此类耍小聪明的“高手”。几个月前有人潜到我的网里做客不打招呼就牵走了几头羊,过后忍不住竟然还发邮件问我具体怎么使用那几个工具……其实在log文件中把马甲和IP一查就一目了然是谁了,再次奉劝这类高人还是先学好做人再做学问吧……
 

xusun575

高级会员
回复: 看一看我的语料库

咱们这个坛子里不乏此类耍小聪明的“高手”。几个月前有人潜到我的网里做客不打招呼就牵走了几头羊,过后忍不住竟然还发邮件问我具体怎么使用那几个工具……其实在log文件中把马甲和IP一查就一目了然是谁了,再次奉劝这类高人还是先学好做人再做学问吧……
为学习我经常去score.crpp.nie.edu.sg转悠,很有收获,但羊怎么没见着?见着了也会手痒滴。:D
 
回复: 看一看我的语料库

忘了说了,对其中的3个语料库(人民日报标注语料、全唐诗、全宋词)是有正规表达式检索功能的,只是要用{}括起来。比如说你要看看古人爬了什么山,可用{登.山}查查。
 
回复: 看一看我的语料库

咱们这个坛子里不乏此类耍小聪明的“高手”。几个月前有人潜到我的网里做客不打招呼就牵走了几头羊,过后忍不住竟然还发邮件问我具体怎么使用那几个工具……其实在log文件中把马甲和IP一查就一目了然是谁了,再次奉劝这类高人还是先学好做人再做学问吧……
我今天又仔细看了看,没有发现“野羊”。看来我的眼力架不好。:D
 
回复: 看一看我的语料库

忘了说了,对其中的3个语料库(人民日报标注语料、全唐诗、全宋词)是有正规表达式检索功能的,只是要用{}括起来。比如说你要看看古人爬了什么山,可用{登.山}查查。
连.是什么意思都记不起来了。回头好好复习下正则。
 
回复: 看一看我的语料库

增加从双语语料库中抽取词典功能。目前尚在测试中,应该很久才会推出。你可以选择“XMUS电影字幕英汉双语语料库”,输入检索词“狗”,然后你就能看到“狗”在该语料库中的翻译的大致统计数据,不一定正确,仅供参考。
 

xusun575

高级会员
回复: 看一看我的语料库

增加从双语语料库中抽取词典功能。目前尚在测试中,应该很久才会推出。你可以选择“XMUS电影字幕英汉双语语料库”,输入检索词“狗”,然后你就能看到“狗”在该语料库中的翻译的大致统计数据,不一定正确,仅供参考。
试用了,很有价值的功能. 大规模语料做到汉英词层面(?模糊)对齐,国内还有第二例吗?建议申请国家基金支持.
 
顶部