看一看我的语料库

回复: 看一看我的语料库

试用了,很有价值的功能. 大规模语料做到汉英词层面(?模糊)对齐,国内还有第二例吗?建议申请国家基金支持.
就凭这点小儿科,你要申请基金我来评审就不批。这在技术上,弄个简单的词典,不是很难的事情,当然要做好,涉及到分词、新词(词组)识别等问题,还是很不容易。翻译和专业也有关系,目前的语料库来源比较杂乱,不太好弄。当语料库规模有一两千万句对的时候,提取词典需要消耗大量的计算资源(你如只有2G内存就不要试了)。不过我对那些名家小说的翻译比较感兴趣,比如从红楼梦双语语料库中自动提取的翻译词典可能不少人会看一看。欢迎各位大侠协助提供相关语料库。
 

laohong

管理员
Staff member
回复: 看一看我的语料库

就凭这点小儿科,你要申请基金我来评审就不批。这在技术上,弄个简单的词典,不是很难的事情,当然要做好,涉及到分词、新词(词组)识别等问题,还是很不容易。翻译和专业也有关系,目前的语料库来源比较杂乱,不太好弄。当语料库规模有一两千万句对的时候,提取词典需要消耗大量的计算资源(你如只有2G内存就不要试了)。不过我对那些名家小说的翻译比较感兴趣,比如从红楼梦双语语料库中自动提取的翻译词典可能不少人会看一看。欢迎各位大侠协助提供相关语料库。
这些数据兄弟倒是有一些,看来史兄来新加坡时得反过来请我喝tiger了……
 
回复: 看一看我的语料库

这些数据兄弟倒是有一些,看来史兄来新加坡时得反过来请我喝tiger了……
老洪对tiger这么感兴趣啊,呵呵,羡慕ing。不过我若不来,您岂不是喝不到,那么这红楼梦机器英汉词典岂不是难产。我决定到您老网站上牵羊去...
 

xusun575

高级会员
回复: 看一看我的语料库

就凭这点小儿科,你要申请基金我来评审就不批。这在技术上,弄个简单的词典,不是很难的事情,当然要做好,涉及到分词、新词(词组)识别等问题,还是很不容易。翻译和专业也有关系,目前的语料库来源比较杂乱,不太好弄。当语料库规模有一两千万句对的时候,提取词典需要消耗大量的计算资源(你如只有2G内存就不要试了)。不过我对那些名家小说的翻译比较感兴趣,比如从红楼梦双语语料库中自动提取的翻译词典可能不少人会看一看。欢迎各位大侠协助提供相关语料库。
Mandel果然志存高远,是真牛,真是牛.比较一下这几年的国家社科项目,你这"小儿科"学问大着呢.:p
 
回复: 看一看我的语料库

1. 关于去掉检索返回500个或20个结果的限制问题。目前你必须具有固定IP才行。等以后再开通基于口令的简单认证方式。
2. 检索速度慢的问题,是有待改进,最近没顾上。
3. 演示版提供了5个专业(非演示版暂时有20多个专业)。
 
回复: 看一看我的语料库

忙了2天,终于把藏文、维吾尔文、蒙古文的检索功能加上了(http://59.77.17.146/corpus_cn2.html)。演示语料很小。这些语料可真不好找啊,那个蒙古文,花了我半天时间才找到1段unicode编码的!国内的网站上的蒙古文无法复制,也没花时间去钻研,不明白他们为什么不采用unicode呢?谁有就给我一些。另外,韩文,日文的双语检索也将不久推出一个演示。明早给本科生吹一下这个网站架设的一些技术。

注意:每次只能选择一个少数民族语料。另外,firefox不能支持蒙古文的竖写。你的系统必须带有相关字体。这些在windows vista上都没有问题,否则,你要准备Microsoft Himalaya字体以及Mongolian Baiti字体。要是用linux,则我就不知道了。检索藏文,维吾尔文,必须输入或从网站上复制其字母或单词,蒙古文因为目前的网站不支持复制(至少我没发现能复制成unicode编码的蒙文),你可以输入“这”。(如果发现蒙文显示方框,表示你系统的字体处理程序usp10.dll版本太低,找一个vista试试)
 
Last edited:
回复: 看一看我的语料库

太好了,我想建一个有关航运的汉英平行语料库,可否给点技术支持?
 
回复: 看一看我的语料库

印象深刻,我想建一个有关航运的汉英平行语料库,可否提供技术支持,本人是新手
 
回复: 看一看我的语料库

想问问您,查到的语料为什么没有出处?写论文需要引用,怎么样才可以找到这些语料的出处。
 
回复: 看一看我的语料库

你要在我的网站上建吗?你能提供语料?
上次问到您可否帮助我建一个个人双语语料库,我有一些有关航运方面的语料,希望建立一个平行语料库以便教学和研究,可以在你的网站上建,但可否同时建一个字库给我?或者传授点建库技术?谢谢!
 
回复: 看一看我的语料库

建设语料库需要采用合适的软件,一般是有个人版本或服务器版本。个人版本很多,服务器版本我倒是不太清楚是否有免费的,不过想来应该有。“建一个字库”是什么意思?建库技术谈不上传授,就是你必须得到相应的软件。每个软件的使用方法不同,按照软件说明手册就能建库了。很遗憾,目前我网站上的软件不是公开的。我可以把你的语料库建好放在网站上供你(以及别人)检索,不过我不能把我的服务器软件给你使用。如果只能供你检索,那恐怕是属于科研合作的范畴了。
 
回复: 看一看我的语料库

Mandel, 谢谢你的回复,对不起,我是说“子库”,我的语料也是一个要好的同事给我的,希望我利用在英国访学的机会建一个语料库以便于今后的教学和科研,当我看到您所发布的语料库时非常喜欢,以为可以利用但忽视了版权问题,见谅!我得跟同事商量一下再说,在次感谢您的回复和建议。
 

xusun575

高级会员
回复: 看一看我的语料库

您的双语库海量,对齐工作应该是自动完成的?如果是,是否会有这样的问题:一个双语对应的语篇中,一定会有一些计算机无法自动完成的对齐,如果出现这种情况,是进行人工干预还是放弃无法对齐的部分?谢谢!
 
顶部