大规模英汉双语句对库(1000万级以上)资源介绍

易尔译科技(http://www.12fanyi.cn/) 经过一年多的努力,构建了一个较大规模的英汉双语句对库(目前句子级别已经达到100万以上,词级已经达到1000万英文单词以上),现将此资源库作以介绍:
该双语句对库是英文——汉语,汉语对英文形式,采用爬虫自动分析与人工领域选择多种渠道,现已经有法律分类句对库,军事、政治双语句对库分类主题句对库以及未分类的大型综合型句对库,有别于其它公司制作的双语句对库,该句对库有以下特点:
一、采用独特的消重技术,使得英汉、汉语双语句对互相不重复。
可以说,本工程制作的100万条英汉、汉英句对绝对数量高于其它公司的千万条,易尔译科技在制作这个大型句对库时,发现1000万条双语句对库经过消重后,余下的不足20万,而且随着工程的向前推进,想找到不重复的句子越来越难;举个例子说明一下:
And these enemies too--poverty, disease and ignorance--we shall overcome.
而我们将战胜这些敌人。
这个句子只能算一条句子,而有的公司计算句对数会根据检索 poverty 出现的句子个数 加上 检索overcome出现的句子个数 加上 检索 ignorance出现的句子数 加上……,这样就会出现每个句子会被重复计算为他所具备词的个数;而[FONT=宋体]易尔译科技能确保每条句子不被重复计算,互不重复句子数量(仅按英文句子条数计算)已经达到 100万级以上[/FONT]
二、采用数据清理与人工检测两种方法,确保每条句子干净,有效。
本工程所有句子,均经过程序自动清理与计算,并加入了人工快速校对,确保每对英汉句对干净有效,不像调研过程中发现其它公司提供的双语句对,会有乱码,或者中英混杂的现象出现,这些看似不经意的小混乱,却能引起工程应用尤其是计算机工程应用中的巨大误差,甚至使程序运行效率迅速下降。
三、所有数据原滋原味,虽人工较对,却不加入人工修改。
双语句对库无论是在科学研究还是工程计算过程中,都应该保持语料的原本形式,除了必须的格式清理与数据校对外,所有句对都保持原样,以反映真实的语料情况。
四、数据采用MSSQL数据库存储,检索与提取极为方便。
本句对库采用了MSSQL2008企业版数据库存储索引,使得分类提取与检索的速度极快。

易尔译科技在英汉句对库方面可提供的服务有:

  一、根据客户需要提供分类句库数据;
  目前已经有法律、军事英汉双语句对库可对外出售,其它领域句对库可根据需要从综合句库里提取;
出售综合型未分类句库的子库,或直接购买全部数据库
领域句库,5000条以上起;综合型子库50000条以上起。量大价格从优。
二、根据客户需要提供相关程序或平台开发业务;
易尔译科技是一家从事互联网高端应用软件开发以及自然语言处理项目研发的团队,具体介绍可参考:
http://www.12fanyi.cn/post/1.html 主要承担项目开发(包括文档书写),软件开发以及资源数据服务,欢迎有项目需求或软件开发需求的客户与我们直接联系。
演示及联系方式请查询易尔译 http://www.12fanyi.cn/ 首页 或 http://www.12fanyi.cn/post/48.html
 
回复: 大规模英汉双语句对库(1000万级以上)资源介绍

请公布一下价格
 
回复: 大规模英汉双语句对库(1000万级以上)资源介绍

:rolleyes: 别忙着做广告,网络经济是眼球经济,开放免费是硬道理.先把你这个1000万资源在网上晒晒,先听听反馈意见再说。
恕我直言,你这条信息,听起来就不美.尤其是语料库这一块,搞这一行的一穷二酸者众,从这里挣钱不易,更不用说发财了。
学学句酷,有道,还有谷歌金山,看看人家是什么赚钱模式。
:D
 
回复: 大规模英汉双语句对库(1000万级以上)资源介绍

其实很多打广告的,大家都能看出来。他们本身不是研究语料库的。是搞机器翻译的MT OR CAT,所以他们手里有很多句库。虽然语料库和机器翻译是结合很紧密的。但毕竟我们的研究目的和他们有些不同。所以他们手里的很多千万级别的句库,可能对于我们来说意义不大。(注:我说的很确切,是对我们来说,并没说他的句库没意义。)
 
Back
顶部