中国外语教育研究中心与外研社联合推出“外研社英汉语料库系列”,现已面市

dudu

dudu
经过中国外语教育研究中心专家的辛苦努力,外研社现推出“外研社英汉语料库系列”,现已整装面市。

《中国学生英语口笔语语料库1.0》(修订版)​
《(Spoken and Written English Corpus of Chinese Learners 1.0 Revised)

国内首个大型英语专业学生大型口笔语语料库​
  • 11,410多分钟珍贵的口语语音样本
  • 130余万词的语音转写文本
  • 120余万词的书面语作文样本
《中国学生英语口笔语语料库1.0》(修订版)包括口语子库和笔语子库两大部分,在原SWECCL 1.0的基础上进行了改进和完善,增加了由课题组自行开发的多个研究工具,采用更为通用的mp3格式保存语音语料,并按照任务类型对口语语料进行了切分,同时对所有文本语料进行了清洁和整理。

口语子库的主要特色※ 包含1,141位英语专业四级口语考试考生11,410多分钟的语音资料;
※ 语音转写文本按照口试中的不同任务类型切分,便于研究的开展;
※ 语音文件按任务类型切分,采用mp3格式保存,便于浏览、编辑和标注。

笔语子库的主要特色
※ 包含3,880篇学生英语作文文本,计1,255,347个形符;
※ 所有文本采用CLAWS4进行词性赋码,便于开展深度研究;
※ 作文涉及16个不同题目,保证了语料库文本内容的多样性。


《中国学生英语口笔语语料库2.0》​
(Spoken and Written English Corpus of Chinese Learners 2.0)

最新大型学生英语口笔语语料库​
  • 10,000多分钟口语录音及其转写分本
  • 120多万词、27个题目的作文语料
  • 多种自主开发的研究工具
《中国学生英语口笔语语料库2.0》(SWECCL 2.0) 是一个全新的语料库,包含口语子库和笔语子库。

口语子库的主要特色
※ 全新语料,共100万词,源于2003-2007年间全国英语专业四、八级口试;
※ 文本按照不同任务类型切分,便于研究的开展;
※ 语音文件采用mp3格式保存,便于使用者浏览、编辑、加工和标注;

笔语子库的主要特色
※ 全新语料,120余万词,源于高校扩招以来的学生作文;
※ 包含27个不同题目的学生英语议论文和说明文;
※ 配有多种自主开发的研究工具,包括:
1)用于从总库中抽取子库的Sub-corpus Generator;
2)可以快速提取多种语言特征的PatCount;
3)专门用于分析类联接的Colligator。


《中国大学生英汉汉英口笔译语料库》​
(Parallel Corpus Of Chinese EFL Learners)

我国首个大型学习者英汉、汉英口笔译语料库
包含最真实的学习者口笔译样本​
  • 2003—2007年八级考试口译部分全部的语音语料
  • 50万字词的语音转写口译平行语料
  • 160万字词的笔译平行语料

语料库简介
《中国大学生英汉汉英口笔译语料库》(PACCEL)收录了全国18所高等院校英语专业三、四年级学生的英汉、汉英口译和笔译翻译测试语料,其中包括完整的口译语音语料以及根据语音语料转写而成的口译文字语料。
PACCEL分为两个子库:口译平行语料库(PACCEL-S)和笔译平行语料库(PACCEL-W),其中口译部分约50万字词,笔译部分约160万字词。所有文字语料均经过句级对齐并进行了词性赋码。PACCEL的建成对于我们了解和研究中国人学英语的全貌具有重大意义,对口笔译教学和研究、翻译测试、教材编写、英语师资培训、英语网络课程建设等具有重大价值。
 

附件

  • 口笔语1.0-封面.jpg
    口笔语1.0-封面.jpg
    33.2 KB · 浏览: 18
  • 口笔语2.0-封面.jpg
    口笔语2.0-封面.jpg
    33.9 KB · 浏览: 13
  • 口笔译-封面.jpg
    口笔译-封面.jpg
    45.1 KB · 浏览: 14
Last edited:
回复: 中国外语教育研究中心与外研社联合推出“外研社英汉语料库系列”,现已面市

thanks.等着购买。
 
回复: 中国外语教育研究中心与外研社联合推出“外研社英汉语料库系列”,现已面市

挺成规模的嘛。
 
回复: 中国外语教育研究中心与外研社联合推出“外研社英汉语料库系列”,现已面市

How much does each of the corpus?

thank you.
 
回复: 中国外语教育研究中心与外研社联合推出“外研社英汉语料库系列”,现已面市

呜呜!1.0/2.0全都没有货!供不应求啊!
 
回复: 中国外语教育研究中心与外研社联合推出“外研社英汉语料库系列”,现已面市

Where can I get them? How much do they cost? I am really in urgent need of them. Please.
 
回复: 中国外语教育研究中心与外研社联合推出“外研社英汉语料库系列”,现已面市

对学习者的语料进行CLAWS4赋码,不知准确度如何?
 
回复: 中国外语教育研究中心与外研社联合推出“外研社英汉语料库系列”,现已面市

在1.0的第27页,作者提到:“... 虽然中介语口语语料缺乏母语所具有的流利度和连贯性,且CLAWS4并非为二语学习者的语言赋码所设计,但经过抽查,标注后的文本赋码正确率达94.5%,可以供研究使用...” 这是针对1.0中的口语语料库而做的抽查,笔语语料库正确率达95.5%(见第40页)。
 
请教:

用该语料库中的Patcount 软件分析WECCL 中的TAGGED语料,前几日可以分析,而近几日总是出现“error at patCount.pl line 135,<F> line 1", 分析不了,不知是怎么回事,请各位指教!:)
 
Back
顶部