国内外语料库建设一览

[FONT=宋体]已证实可用的英汉平行语料库(部分)[/FONT]

--TEC
http://www.umist.ac.uk/ctis/research/research-overview.htm
[FONT=宋体]翻译语料库方面则以英国曼彻斯特大学科技学院[/FONT](UMIST) [FONT=宋体]翻译研究中心[/FONT]1995[FONT=宋体]年创建的世界上第一个翻译语料库[/FONT]( Translational EnglishCorpus , TEC) [FONT=宋体]最为著名。该语料库主要收集从各国语言翻译成英语的文本[/FONT],[FONT=宋体]目前已有上千万词的语料[/FONT]([FONT=宋体]目标是[/FONT]5 [FONT=宋体]千万词[/FONT]) ,[FONT=宋体]分小说[/FONT]([FONT=宋体]约占[/FONT]80 %) [FONT=宋体]传记、报纸和期刊[/FONT]4 [FONT=宋体]个子库。它并不要求必须双语对齐。[/FONT]
[FONT=宋体]该库不仅对语料进行了附码标注[/FONT],[FONT=宋体]还带有许多超语言信息的标注[/FONT],[FONT=宋体]如对译者情况[/FONT]([FONT=宋体]包括译者姓名、性别、民族、职业、翻译方向等[/FONT]) [FONT=宋体]、翻译方式、翻译类型、源语、原书情[/FONT]? 6 3 ?© 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.[FONT=宋体]况、出版社等等均一一予以标注[/FONT]
--[FONT=宋体]北大双语语料库[/FONT]
[FONT=宋体]北大计算语言学研究所的双语语料库,英汉对齐的句子已有[/FONT]5[FONT=宋体]万多对,并开发了相应的对齐工具和双语语料库管理软件。正在此基础上做汉英对照短语库,预计规模将达数十万条。[/FONT]

--[FONT=宋体]中英双语在线([/FONT]CEO[FONT=宋体])测试开通[/FONT]
[FONT=宋体]网址为[/FONT] http://www.fleric.org.cn/ceo/

--[FONT=宋体]紅樓夢漢英平行語料庫[/FONT]
http://score.crpp.nie.edu.sg/hlm/index.htm

-- The Babel English-Chinese Parallel Corpus
http://www.lancs.ac.uk/fass/projects/corpus/babel/babel.htm
[FONT=宋体]The Babel English-Chinese Parallel Corpus,which was created on our research project Contrasting English and Chinese (ESRC Award Reference RES-000-23-0553),consists of 327 English articles and their translations in Mandarin Chinese. Of these 115 texts (121,493 English tokens plus 135,493 Chinese tokens) were collected from the World of English between October 2000 and February 2001 while the remaining 212 texts (132,140 English tokens plus 151,969 Chinese tokens) were collected from Time from September 2000 to January 2001. The corpus contains a total of 544,095 words (253,633 English words and 287,462 Chinese tokens). Here is a list of the titles of the articles included in the corpus.[/FONT]
[FONT=宋体]The corpus is tagged for part of speech and aligned at the sentence level. The English texts were tagged using the [/FONT][FONT=宋体]CLAWS C7 tagset[/FONT][FONT=宋体] while Chinese texts were tagged using the [/FONT][FONT=宋体]Peking University tagset[/FONT][FONT=宋体]. Sentence alignment was done automatically and corrected by hand. The corpus is also marked for paragraph and sentence. But different markup systems were adopted for the two subcorpora. For the component of the World of English, sentences were marked consecutively throughout whereas for Time, sentences were marked within each paragraph.[/FONT]
[FONT=宋体]The Babel parallel corpus can be accessed via the ParaConc Web or MySql interface (both hosted at [/FONT][FONT=宋体]The Institute of Education, Singapore[/FONT][FONT=宋体]). Users can search in either English or Chinese texts. The concordancer returns matched whole sentences and their translations as well as the their locations. At the bottom of the resulting concordance page is a query report that indicate the query strings and distribution of matches. Users can also specify the format the output concordances as POS-tagged or plain texts.[/FONT]

--[FONT=宋体]上海交通大学语言工程研究所目前有[/FONT]JDEST,LOB,BROWN,CLEC[FONT=宋体]四个语料库共计[/FONT]700[FONT=宋体]万词可供网上检索[/FONT], [FONT=宋体]并可以对检索和统计数据结果下载[/FONT].
http://corpus.sjtu.edu.cn/WebCast/Search.aspx
--The Translational English Corpus (TEC)
http://www.llc.manchester.ac.uk/ctis/research/english-corpus/
http://ronaldo.cs.tcd.ie/tec/jnlp/

--English Chinese Parallel Concordancer (E-C Concord)
The Hong Kong Institute of Education.
Project leader: Dr. Wang Lixun. Program designers: Chris Greaves, Wang Lixun
http://ec-concord.ied.edu.hk/paraconc/index.htm

--Academia Sinica Balanced Corpus of Modern Chinese [FONT=宋体]中央研究院现代汉语平衡语料库[/FONT]
http://www.sinica.edu.tw/SinicaCorpus/

--Lancaster Corpus of Mandarin Chinese
http://bowland-files.lancs.ac.uk/cor...gi-bin/conc.pl
may be changed to
http://www.lancs.ac.uk/fass/projects/corpus/LCMC/

--People's Daily 2000 corpus
some related information here
http://www.lancs.ac.uk/fass/projects/corpus/pdc2000/default.htm

--A Parallel Corpus of Chinese Legal Texts [FONT=宋体]中國法律文件漢英平行語料庫[/FONT]
http://score.crpp.nie.edu.sg/law/index.htm

[FONT=宋体]--语料库语言学与英语教育教学。华南师范大学外国语言文化学院语料库语言学研究室[/FONT]
http://sfs.scnu.edu.cn/corpus4u/default.aspx
 
Last edited:
回复: 国内外语料库建设一览

[FONT=宋体]我一一调试过了,下面的都可用了。上午的帖子出了问题,深表歉意,但当时我确实是试过的。[/FONT]
[FONT=宋体][/FONT]
[FONT=宋体]已证实可用的英汉平行语料库(部分)

[/FONT]


中英双语在线(测试开通 http://www.fleric.org.cn/ceo/

--[FONT=宋体]紅樓夢漢英平行語料庫[/FONT]
http://score.crpp.nie.edu.sg/hlm/index.htm


--[FONT=宋体]上海交通大学语言工程研究所目前有[/FONT]JDEST,LOB,BROWN,CLEC[FONT=宋体]四个语料库共计[/FONT]700[FONT=宋体]万词可供网上检索[/FONT], [FONT=宋体]并可以对检索和统计数据结果下载[/FONT].
http://corpus.sjtu.edu.cn/WebCast/Search.aspx

--The Translational English Corpus (TEC)
http://www.llc.manchester.ac.uk/ctis/research/english-corpus/
http://ronaldo.cs.tcd.ie/tec/jnlp/

--Academia Sinica Balanced Corpus of Modern Chinese [FONT=宋体]中央研究院现代汉语平衡语料库[/FONT]
http://www.sinica.edu.tw/SinicaCorpus/

--Lancaster Corpus of Mandarin Chinese
http://www.lancs.ac.uk/fass/projects/corpus/LCMC/


--People's Daily 2000 corpus
some related information here
http://www.lancs.ac.uk/fass/projects/corpus/pdc2000/default.htm

--A Parallel Corpus of Chinese Legal Texts [FONT=宋体]中國法律文件漢英平行語料庫[/FONT]
http://score.crpp.nie.edu.sg/law/index.htm

[FONT=宋体]--语料库语言学与英语教育教学。华南师范大学外国语言文化学院语料库语言学研究室[/FONT]
http://sfs.scnu.edu.cn/corpus4u/default.aspx
 
--[FONT=宋体]上海交通大学语言工程研究所目前有[/FONT]JDEST,LOB,BROWN,CLEC[FONT=宋体]四个语料库共计[/FONT]700[FONT=宋体]万词可供网上检索[/FONT], [FONT=宋体]并可以对检索和统计数据结果下载[/FONT].
http://corpus.sjtu.edu.cn/WebCast/Search.aspx

上面网址真的可用?
我这两个月来都发现我这里无法检索。一直出现界面如下,请问是不是我的设置有问题?

“/WebCast”[FONT=宋体]应用程序中的服务器错误。[/FONT]
[FONT=宋体]运行时错误[/FONT]
[FONT=宋体]说明[/FONT]: [FONT=宋体]服务器上出现应用程序错误。此应用程序的当前自定义错误设置禁止远程查看应用程序错误的详细信息[/FONT]([FONT=宋体]出于安全原因[/FONT])[FONT=宋体]。但可以通过在本地服务器计算机上运行的浏览器查看。[/FONT]

[FONT=宋体]详细信息[/FONT]: [FONT=宋体]若要使他人能够在远程计算机上查看此特定错误信息的详细信息,请在位于当前[/FONT] Web [FONT=宋体]应用程序根目录下的[/FONT]“web.config”[FONT=宋体]配置文件中创建一个[/FONT] <customErrors> [FONT=宋体]标记。然后应将此[/FONT] <customErrors> [FONT=宋体]标记的[/FONT]“mode”[FONT=宋体]属性设置为[/FONT]“Off”[FONT=宋体]。[/FONT]
[FONT=宋体]<!-- Web.Config [/FONT][FONT=宋体]配置文件 -->[/FONT]​
[FONT=宋体] [/FONT]​
[FONT=宋体]<configuration>[/FONT]​
[FONT=宋体] <system.web>[/FONT]​
[FONT=宋体] <customErrors mode="Off"/>[/FONT]​
[FONT=宋体] </system.web>[/FONT]​
[FONT=宋体]</configuration>[/FONT]​


[FONT=宋体]注释[/FONT]: [FONT=宋体]通过修改应用程序的[/FONT] <customErrors> [FONT=宋体]配置标记的[/FONT]“defaultRedirect”[FONT=宋体]属性,使之指向自定义错误页的[/FONT] URL[FONT=宋体],可以用自定义错误页替换所看到的当前错误页。[/FONT]
[FONT=宋体]<!-- Web.Config [/FONT][FONT=宋体]配置文件 -->[/FONT]​
[FONT=宋体] [/FONT]​
[FONT=宋体]<configuration>[/FONT]​
[FONT=宋体] <system.web>[/FONT]​
[FONT=宋体] <customErrors mode="RemoteOnly" defaultRedirect="mycustompage.htm"/>[/FONT]​
[FONT=宋体] </system.web>[/FONT]​
[FONT=宋体]</configuration>[/FONT]​

 
回复: Re: 国内外语料库建设一览

--[FONT=宋体]上海交通大学语言工程研究所目前有[/FONT]JDEST,LOB,BROWN,CLEC[FONT=宋体]四个语料库共计[/FONT]700[FONT=宋体]万词可供网上检索[/FONT], [FONT=宋体]并可以对检索和统计数据结果下载[/FONT].
http://corpus.sjtu.edu.cn/WebCast/Search.aspx

上面网址真的可用?
我这两个月来都发现我这里无法检索。一直出现界面如下,请问是不是我的设置有问题?


“/WebCast”[FONT=宋体]应用程序中的服务器错误。[/FONT]



[FONT=宋体]运行时错误[/FONT]


[FONT=宋体]说明[/FONT]: [FONT=宋体]服务器上出现应用程序错误。此应用程序的当前自定义错误设置禁止远程查看应用程序错误的详细信息[/FONT]([FONT=宋体]出于安全原因[/FONT])[FONT=宋体]。但可以通过在本地服务器计算机上运行的浏览器查看。[/FONT]

[FONT=宋体]详细信息[/FONT]: [FONT=宋体]若要使他人能够在远程计算机上查看此特定错误信息的详细信息,请在位于当前[/FONT] Web [FONT=宋体]应用程序根目录下的[/FONT]“web.config”[FONT=宋体]配置文件中创建一个[/FONT] <customErrors> [FONT=宋体]标记。然后应将此[/FONT] <customErrors> [FONT=宋体]标记的[/FONT]“mode”[FONT=宋体]属性设置为[/FONT]“Off”[FONT=宋体]。[/FONT]



[FONT=宋体]<!-- Web.Config [/FONT][FONT=宋体]配置文件 -->[/FONT]​



[FONT=宋体]<configuration>[/FONT]


[FONT=宋体]<system.web>[/FONT]


[FONT=宋体]<customErrors mode="Off"/>[/FONT]


[FONT=宋体]</system.web>[/FONT]


[FONT=宋体]</configuration>[/FONT]​




[FONT=宋体]注释[/FONT]: [FONT=宋体]通过修改应用程序的[/FONT] <customErrors> [FONT=宋体]配置标记的[/FONT]“defaultRedirect”[FONT=宋体]属性,使之指向自定义错误页的[/FONT] URL[FONT=宋体],可以用自定义错误页替换所看到的当前错误页。[/FONT]


[FONT=宋体]<!-- Web.Config [/FONT][FONT=宋体]配置文件 -->[/FONT]​



[FONT=宋体]<configuration>[/FONT]


[FONT=宋体]<system.web>[/FONT]


[FONT=宋体]<customErrors mode="RemoteOnly" defaultRedirect="mycustompage.htm"/>[/FONT]


[FONT=宋体]</system.web>[/FONT]


[FONT=宋体]</configuration>[/FONT]​
应该不是你设置的问题,这里确实有你说的问题,不知道为什么
 
回复: Re: 国内外语料库建设一览

应该不是你设置的问题,这里确实有你说的问题,不知道为什么

这个问题是因为你给的链接导致的,用户没有登录就进到检索界面了。非注册用户应该用下面这个链接,打开页面后点击guest,然后再进行检索,这样就没问题了。
http://corpus.sjtu.edu.cn/WebCast/
 
Back
顶部