Parallel image text corpus of Chinglish
今天走在路上突然想起可以运用wikipedia的概念,由大家共同来完成的一个供大家免费使用的Chinglish的图片配文字的语料库。
1、语料收集目标定位于双语标牌、广告、产品说明、字幕说明等等。不论对错,一律照收。
2、要求包含图片文件和文本文件。图片和文本使用同一文件名,比如yonghegong.jpg对应yonghegong.txt。建议统一用汉语拼音全拼来命名文件。
3、大家上传以后我们负责整理,然后再贴出来。
4、txt文件中应当包含的文字
<header>
<place>Near the entrance of Beijing Yonghe Gong</place>
<date>2005-04-02</date>
<creator>xujiajin</creator>
<contact>ustcxujj@sina.com</contact>
</header>
<text ID="yonghegong">
<p language="Chinese">参观雍和宫向南150米</p>
<p language="English">Visiting Yonghe Gong towards south 150 metres</p>
<p language="Chinese">严禁携带超长香进入雍和宫</p>
</text>
今天走在路上突然想起可以运用wikipedia的概念,由大家共同来完成的一个供大家免费使用的Chinglish的图片配文字的语料库。
1、语料收集目标定位于双语标牌、广告、产品说明、字幕说明等等。不论对错,一律照收。
2、要求包含图片文件和文本文件。图片和文本使用同一文件名,比如yonghegong.jpg对应yonghegong.txt。建议统一用汉语拼音全拼来命名文件。
3、大家上传以后我们负责整理,然后再贴出来。
4、txt文件中应当包含的文字
<header>
<place>Near the entrance of Beijing Yonghe Gong</place>
<date>2005-04-02</date>
<creator>xujiajin</creator>
<contact>ustcxujj@sina.com</contact>
</header>
<text ID="yonghegong">
<p language="Chinese">参观雍和宫向南150米</p>
<p language="English">Visiting Yonghe Gong towards south 150 metres</p>
<p language="Chinese">严禁携带超长香进入雍和宫</p>
</text>
Last edited: