汉英政治平行语料库(新版),欢迎访问!!!

cslg.jack

初级会员
新系统说明:
1.包括从1991-2012年的平行语料;
2.以lucene为架构,实现全文索引功能,检索速度更快;
3.支持多种检索模式;
4.支持元属性检索;
5.关键词词频统计;
6.关键词高亮显示;
7.获取上下文。
访问地址:pcpt.cslg.cn (按提示进入新系统)
任何建议和意见,请jacknjATnetease.com或者网站反馈。
另外,我们开发的汉英语料预处理平台已经能和汉英平行语料库在线检索系统实现无缝对接,欢迎有志者交流。
 
回复: 汉英政治平行语料库(新版),欢迎访问!!!

可以直接点击pcpt.cslg.cn



汉英政治平行语料库(Parallel Corpus of Political Texts)
概况及检索平台使用说明一、汉英政治平行语料库概况汉英政治平行语料库(简称PCPT)是常熟理工学院外国语学院朱晓敏老师主持的2011年度教育部人文社科青年基金项目“基于语料库的汉英政治文本翻译研究(项目编号:11YJC740163)”的部分研究成果。
1.语料类型:政府工作报告(包括中央人民政府工作报告、中国共产党的工作报告和
财政预算报告)和政府白皮书;
2.语料来源:中央人民政府门户网站(www.gov.cn);
3.语料时间跨度:22年(1991-2012);
4.语料库规模:中文1939889字符;英语1,229,528词;平行句对40025对。
二、PCPT检索平台使用说明
用户可以分别检索中文或者英文,此时,PCPT就可以被用作是汉语语料库或者英语语料库(可与英语本族语语料库作对比研究使用)。也可以同时检索两种语言,此时,
PCPT就发挥了它作为平行语料库的功能了。
1.模糊检索与精确检索PCPT支持模糊检索和精确检索。在模糊检索模式下,系统自动对用户输入的关键词进行切分重组(主要针对中文搜索,检索平台采用中科院分词系统)。如用户输入单个词组“成功”,在模糊检索模式下,检索平台自动将其切分为“*成*”和“成功”,返回以下关键词“成果”、“成绩”、“成就”或“成功”,但不返回“功能”的检索结果;如选用精确检索模式,
则只返回“成功”的检索结果。如果用户输入多个词组,如“成功案例”,在模糊检索模式下,平台返回包括“*成功*”、“成功案例”,但不返回“*案例*”;在精确检索模式下,只返
回“成功案例”的检索结果。
2.词性标注检索(中英文词性附录)PCPT中的汉语语料经过分词和词性赋码,英语语料带有词性赋码,因此支持用户进行词性标注检索(中文分词采用最新版
Stanford Chinese Segmenter;中文赋码采用最新版Stanford POStagger;英文赋码使用TreeTagger
)。单词和词性之间用下划线“_”相连。例如,用户在中文检索模式下,点击精确检索(此时,模糊检索为不可用),输入“努力_VV”,点击“显示词性标注”,检索平台只返回“努力”做动词的实例,英文检索方式相同。
3.平行检索当用户点选了中文和英文之后,平台转为平行检索模式。用户可在中文检索框里输入中
文关键词,英文框里输入英文关键词。在关键词关系菜单栏里,有“对译”和“非对译”两
种关键词关系可供选择。如,在中文框中输入“成功”,英文框中输入“
success”,选择“对译”关系之后,检索平台返回中文句中包含有“成功”,英文翻译里含有“
success”的平行句对。如果选择“非对译”,则返回中文句中包含有“成功”,而英文翻译中不含有“
success”
的平行句对。在平行检索界面下,带词性标注检索功能同样有效。
4.
正则表达式检索正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这
些特定字符的组合,组成一个“规则字符串”,这个“规则字符串

用来表达对字符串的一种过滤逻辑。对于语言研究者来说,正则表达式与词性标注相结合,能轻松查询到语言结构。譬如 :
\S+_VB\w*\s(\S+_R\w*\s)*\S+_VVN\s可 查 询 到 英 语 中 的 所 有 被 动 态 ;it_PP\s(\S+_MD\s)*(\S+_VH\w*\s)*\S+_VB\w*\s(\S+_RB\w*\s)*\S+_JJ\w*\sthat_IN\s可查
 
回复: 汉英政治平行语料库(新版),欢迎访问!!!

It's great that you share your valuable corpus resource. But is there any research or publication(s) based on the corpus?
 
回复: 汉英政治平行语料库(新版),欢迎访问!!!

谢谢许博士!目前已经有以下文章发表:
1.朱晓敏.基于自建语料库的政治文本英译特点研究[J],解放军外国语学院学院学报,2011(3)。
2.朱晓敏.批评话语分析视角下的《政府工作报告》英译研究(一)-基于语料库的第一人称复数考察[J],外语研究,2011(2)。
3. 现代汉语政治语篇的隐喻特点及其翻译策略(《解放军外国语学院学报》已经录用,刊期未定)。
软件著作权:
汉英平行语料库在线检索系统(v 1.0) 软著登字第0475861号;
汉英平行语料预处理平台(待申报)。
 
回复: 汉英政治平行语料库(新版),欢迎访问!!!

Thanks so much for the information.
 
Back
顶部