You are using an out of date browser. It may not display this or other websites correctly.
You should upgrade or use an
alternative browser.
回复: HSK作文语料库!
贴:北语中介语语料库可以注册使用
“HSK动态作文语料库”说明
1
“HSK动态作文语料库”是由北京语言大学崔希亮教授主持的一个国家汉办科研项目。项目编号为:HBK01-05/023。
2
“HSK动态作文语料库”是母语非汉语的外国人参加高等汉语水平考试(HSK高等)作文考试的答卷语料库,收集了1992-2005年的部分外国考生的作文答卷,共计10740篇,约400万字。
3
语料库提供给用户的作文语料有两种版本:标注语料和原始语料。标注语料指的是在考生作文答卷上经人工标出各种中介语偏误的语料,原始语料指的是考生原始作文的电子扫描语料。
4
作文语料的加工处理包括下列 内容:
字处理:包括错字标注、别字标注、繁体字标注、异体字标注、拼音字标注、外文词标注、漏字标注、多字标注,以及各种用字错误统计,总的字数字频统计等。
标点符号处理:包括错误标点标注、空缺标点标注、多余标点标注,以及各种标点符号的相关统计。
词处理:包括错词标注、缺词标注、多词标注、离合词错误标注、外文词标注,以及各种用词错误的相关统计,总的词数词频统计等。
句处理:包括各种特殊句式的错误标注,句子成分残缺或多余的错误标注,语序、动词重叠等方面的错误标注,以及各种句子错误的相关统计。
篇章处理:包括句间连接手段的错误标注,语义表达方面的错误标注,以及篇章错误的相关统计。
为了方便用户更充分地使用这些作文语料,语料库还提供了历次考试的时间、地点和作文题目,以及下列考生信息:考生国别、性别、作文分数、口试分数、客观试卷中听力、阅读、综合表达各部分分数和参加高等汉语水平考试的总分分数、所得到的汉语水平证书的等级等。
5
本语料库在建设过程中,特别注重语料的真实性与平衡性,标注的全面性与科学性,软件系统的方便性与快捷性。
6
本语料库是母语非汉语的汉语学习者学习汉语的中介语语料库。运用本语料库中的作文语料,可以进行对外汉语教学的多方面研究。例如汉语中介语研究、第二语言习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考试研究、与对外汉语教学相关的汉语本体研究等。这些研究对提高汉语教学、汉语测试、汉语本体研究等方面的水平,都具有重要意义。
7
建设本语料库的根本目的是为用户提供一个考察和研究的基础平台,为对外汉语教学和研究服务,促进国内乃至全球汉语教学事业的发展。因此,本语料库将 免费提供给广大对外汉语教师、研究人员、对外汉语相关专业的研究生和本科生、以及对汉语教学和研究感兴趣的其他人士使用。我们衷心希望听到相关领域的专家和各界用户的宝贵意见,并在此基础上不断改进、完善语料库,以更好地为广大用户服务。
8
本语料库的总体设计由崔希亮负责,语料的录入、扫描和标注工作由张宝林负责,系统设计和语料上网前的预处理由任杰负责,系统软件的研制由荀恩东负责,考生相关信息的整理由李航负责。
参加语料标注工作的有陈淑芳、陈晓雷、窦玉荣、冯雪丽、付娜、付云华、高会、郭文静、 韩菡、 郝晓庆、黄冠颖、黄燕、 简丽、 李华、李犁、李妮妮、李肖婷、李志娜、梁婷婷、刘海霞、 刘建霞、 刘君、刘琳、 刘云、 逯秋红、吕婷婷、南旭萌、彭岚、彭丽、齐冬梅、商秀坤、史慧超、孙剑、孙群、 田旭红、 王洁、 王蕾、 王丽、王倩、 王小玲、 王玉芝、王真、徐灵婵、杨宇枫、易平平、袁欣、张利会、张珊珊、张颖、赵焕改、朱玥。
参加对语料标注情况进行审查工作的有陈淑芳、陈晓蕾、刁徐君、窦玉荣、付云华、黄冠颖、黄燕、姜桂荣、李华、李志娜、梁婷婷、刘琳、 刘云、 逯秋红、彭丽、商秀坤、孙群、王倩、杨力铮、张颖、赵淑丽、周岚钊。
张宝林、任杰参加了语料库总体设计工作。
田清源、李航参加了软件系统设计工作。
修驰、郑仲光参加了软件系统的研制工作。
姜桂荣、王倩、张颖、梁婷婷、赵淑丽参加了 语料上网前的预处理工作。
高蕊、李桂梅、李卉、朱宏一参加了前期的部分语料标注工作。
9 本语料库的词性标注是依据教育部语言文字应用研究所研制的《信息处理用现代汉语词类标记规范》进行的,肖航先生帮助我们完成了自动分词和词性的自动标注工作。
10
感谢国家汉办、教育部语言文字应用研究所和北京语言大学汉语水平考试中心对本课题的大力支持。
“ HSK动态作文语料库 ” 课题组
2006年12月
回复: HSK作文语料库!
语言信息处理研究所网站
http://202.112.195.8/index.asp
如果这个语料库能够像英语学习者语料库CLEC等一样公开发售就太好了,不过现在也不错,能够在线检索,有一点要说的是,其实很多汉语同仁也在做语料库,可是很少在结项以后拿出来出版,很遗憾。不知道谁会开这个先河?期待中。
回复: HSK作文语料库!
“HSK动态作文语料库”语料标注及代码说明
“HSK动态作文语料库”从字、词、句、篇、标点符号等角度,对所收入的作文语料中存在的外国人使用汉语的中介语偏误进行全面标注。
1 、字处理(包括标点符号)
[C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。
例如:地球[C](“球”是错字)、这[C]。
:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至中B的后面,并在前填写正确的字。
例如:提[B题]高、考虑[B虎]。
[L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。
例如:
后悔[L],表示“悔”在原文中是漏掉的字。
农[L]药,表示“农”在原文中是漏掉的字。
[D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。
例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。
[F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。
例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。
注意:
1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。
例如:俭朴[F樸[B僕]]。
2)繁体字写错了,标为:后[F後[C]]。
[Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。
例如:偏[Y徧]、沉[Y沈]。
[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。
例如:缘[Pyúan]分、保护[Phù]。
[#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。
例如:更[#][#]保存自己的生命,……
[BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。
例如:勤奋、[BC,]刻苦的精神。
[BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。
例如:周围的环境很安静[BQ,]生活也非常平凡。
[BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。
例如:我家周围的[BD,]美丽风景。
2、词处理:(包括成语)
{CC}:错词标记,用于标示错误的词和成语。包括4种情况:
1)把词的构成成分写错顺序的。
把写错的词移至{CC}中CC的后面,并在{CC}前填写正确的词。
例如:首先{CC先首}、众所周知{CC众所知周}。
2)该用甲词而用乙词的。这种情况类似别字,但属于用词层面上的错误。
标示方法同上。
例如:
虽然现在还没有实现{CC实践},……
它在{CC对}价格方面有点贵,所以没得到广大消费者的支持{CC持支}。
3)生造词。指考生自造的、或某些外语中可能有而汉语中不存在的词。
例如:
农作物{CC农产物/农物}、农产品{CC农作品}
……但长期来看造成环境污染,破坏自然生态{CC目态},……
绿色食品的好处在于吃这些食品后在身体里没有农药的残留量{CC潜留量}。
4)词语搭配错误。包括词性、音节等方面的搭配错误。
例如:
最好的办法是两个都保持{CC走去}平衡。
我也回{CC1回去}沈阳。
吃这种东西会{CC1可以}得{CC1得到}病{CC1疾病}。
{CLH}:离合词错误标记,用于标示各种和离合词相关的错误。标在有错误的离合词的后边,表示前边的离合词用法有误。
例如:
……我快要毕业{CLH}大学{CQ了}。
虽然这么[L]多年都没见面{CLH}过,……
……我对哈尔滨{CJ-zy很}感兴趣。有观光{CLH}哈尔滨的宿愿。
{W}:外文词标记,用于标示以外文词代替汉语词的情况。把外文词移至{W}中W的后面,并在{W}前填写相应的汉语词。在W和外文词之间填写汉语词的字数。
例如:
非洲{W2Africa}、爵士乐{W3jazz}。
……教我工作的方法{W2ABC}。
{CQ}:缺词标记,用于标示作文中应有而没有的词。在缺词之处加此标记,并在{CQ}中CQ的后面填写所缺的词。
例如:
这就{CQ要}由有关部门和政策管理制度来控制。
……有的农民{CQ在}不使用化肥和农药的情[B精]况下[BD,]养农作物,……
{CD}:多词标记,用于标示作文中不应有而有的词。把多余的词移至{CD}中CD的后面。
例如:
……然后肯德基的收入有所增加{CD了}。
中国政府应该采取良好的措施来管理农业{CD方面},……
但我觉得{CD按照}上面所写的方法是现在很多人或国家用的方法。
词处理中需要注意下列问题:
1)因介词、方位词等的缺少或多余造成的结构不完整,助词的错用、多用、漏用,词性误用等,均视为词的错误。
例如:
随着社会{CQ的}发展,人们{CQ对}吃的东西很重视。
在这个过程{CQ中}……
特别是非洲{CD的话},问题很大的。
2)结构助词“的” 、“地” 、“得”混用:按错词处理。
例如:
按照人们的要求不用化肥和农药的话,产量会大大地{CC的}下降。
我认为当你很饿的时候,什么东西都吃得{CC的}下。
孩子们饿得{CC地}大哭小叫,……
3)该用汉语数字而用阿拉伯数字的,一律按错词处理。
例如:
那应该怎样解决呢?所以我想出了一{CC1}个办法,少用化肥和农药。
把“十五”写成了“一五”,应把“一五”整体按错词处理,而不能仅仅把“一”处理为别字。
4)错词、多词、成分赘余的一个标注符号中可以包括两个或两个以上的词。
例如:
我想任何人{CC每一个}都不要有浪费食品的习惯,……(每/一/个)
没有{CC2重视做未经}污染的食品就是绿色食品。(重视/做/未/经)
5)原文字数和改后字数不一致的,须在括号中CC之后且紧靠CC处加一个阿拉伯数字,表明改后的字数。
例如:
战[Pzhan]争中最困难的人是没有力气的孩子和老人{CC5老弱子}。
所以我认为首先农民可以使用天然肥料{CC4化肥},代替化肥来种植农作物……
6)不清楚或无法理解的词用{CY}标示,表示“存疑”,标在该词的后面。
例如:
虽然这么[L]多年都没见面{CLH}过,但我和他们的忆惯{CY},是忘不了的。
3、句处理:
{CJ}:病句标记,用于标示错误的句子。一般标在有错误的句子之后、该句标点之前,并用小写汉语拼音字母简要标明病句的错误类型。
例如:
他把那本书看{CJba}。
我认为我们先尽量地[B的]产出农作物给他们,先给他们不挨饿{CJjy}。
如果有人批评这是太奢侈{CJxw},……
句子错误类型代码:
{CJba} : 把字句错误
{CJbei} : 被字句错误
{CJbi} : 比字句错误
{CJl} : 连字句错误
{CJy} : 有字句错误
{CJs} : 是字句错误
{CJsd} : “是……的”句错误
{CJcx} : 存现句错误
{CJjy} : 兼语句错误
{CJld} : 连动句错误
{CJshb} : 双宾语句错误
{CJxw} : 形容词谓语句错误
{CJ-} :句子成分残缺错误标记,用于标示由于成分残缺造成的病句。在短横后边标明所缺成分的名称,该名称用小写代码表示;在小写代码之后填写所缺的具体词语。标在成分残缺之处。
例如:
为了增加{CC满足}粮食,{CJ-zhuy人们}使用了化肥和农药,这样产量就会大大提高。
这样的活动{CJ-sy开展}以来,肯德基的垃[B拉]圾[C]总量大大降低。
……那两种{CC个}东西就容易伤害人类的{CJ-dy健康}系统。
从具体{CJ-zxy情况}来看,……
{CJ+} :句子成分多余错误标记,用于标示由于成分多余(赘余)造成的病句。后边用小写代码标明多余成分的名称,并把所多余的具体词语移至该名称的后面。标在成分多余之处。
例如:
这是我们{CJ+dy做人}的责任。
而且研究{CJ+buy下去}产量能提高的办法。
而且{CJ+zy正在}还死去好多人。
句子成分采用层次分析法的观点,共8种:
{CJ-/+zhuy} :主语残缺或多余
{CJ-/+wy} :谓语残缺或多余
{CJ-/+sy} :述语残缺或多余
{CJ-/+by} :宾语残缺或多余
{CJ-/+buy} :补语残缺或多余
{CJ-/+dy} :定语残缺或多余
{CJ-/+zy} :状语残缺或多余
{CJ-/+zxy} :中心语残缺或多余
{CJX} :语序错误标记,用于标示由于语序错误造成的病句。标在语序错误的词语的后边。如果是相邻的两个成分语序错误,按照自然顺序,把{CJX}标在前一个成分的后边。
例如:
大多数{CJX}这些人生活{CC2活}在很不好的地方,……
可是这两个问题同时{CJX}要解决非常不容易,……
现在每个人很重视健康,受欢迎{CJX}绿色食品。
{CJZR} :句式杂糅错误标记,用于标示把两种不同句式、两种不同说法混在一起的病句。标在句子末尾,标点之前。
例如:
这个问题不可能一两年解决的问题{CJZR}。
现在,全世界流行是绿色食品{CJZR}。
每次吃对身体有害于健康的东西{CJZR}。
因为,人们的必生存之一中最重要的是饮食{CJZR},……
{CJcd} :重叠错误标记,用于标示句中词语的重叠错误,包括重叠方式上的错误,也包括不该用而用重叠,或该用而不用重叠的情况。标在出现重叠错误的词语之后。
例如:
而对生产者来说,尽量不用化肥和农药,在出货之前,进[C]行洗洗{CJcd}。
还有我们{CQ应}对绿色食品研究研究{CJcd}。
{CJgd} :固定格式错误标记,用于标示固定格式搭配上的错误。
例如:
“一……就……”缺少“一”或者“就”。
现代社会应当认“保护自己,尊重其他人”为口号{CJgd}!
{WWJ} :未完句标记,用于标示没写完的半截子的句子。标在未完成句的末尾处。
例如:
只是全球{WWJ}
最后国家政府不考虑经济问题、积{WWJ}
不知道什么时候会普及起来,但是我认为这还是不是个{WWJ}
{CJ?} :句处理存疑标志,用于标示错误类型不清楚的、或错误类型标注很不方便的、或句义不明且有语法错误的的病句。标在存疑病句之后、该句标点之前。
例如:
地球上,有的地方还在“饥饿”来艰苦{CJ?}。
还要想每个人的健康是帮助饥饿人的办法越来多健康的人会越来多帮饥饿的人{CJ?}。
把化肥可以取代{CC代取}用草、剩饭做的自然肥料{CJ?},把农药也可以取代{CC代取}喜欢吃害虫的动物{CJ?}。
4、篇章处理:(包括复句)
{CP} :篇章错误标记,用于标示篇章错误。大括号的前半和后半分别表示有错误的篇章的起点和终点,在起点处标CP,在终点处标P。即:{CP……,……。……,……。P}
所谓篇章错误,主要指句子和句子之间在衔接方面的错误。最典型的情况是每个单句都正确,但作为一个整体来看则句子相互之间缺乏联系,不能构成一个紧凑、自然、流畅的成段表达。而产生这种情况的原因,可能是语义方面的,也可能是连接方式方面的。
例如:
{CP我们经过了漫长的历史,一些没有用的人死于历史中,挨饿其实是可以克服的。P}
(前后句意义上无关)
{CP吸烟对孩子们{CJ-sy有}不好的影响,这一观念他会不会知道呢?所以我早就不理他了。P}
(用了表示因果关系的连词,但句子之间并不存在因果关系)
{CP目前,随着人们生活水平{CQ的}提高,{CJ-zhuy人们}{CD就}对饮食品很重视。就{CJX}{CQ用}未经污染的农产品加工的食品叫做“绿色食品”。P}
(前后句之间缺少过渡句)
{CP我以前看报纸的时候,有一篇关于农药的文章。他说,一般的食品,比如说,米,蔬菜、水果等{CD的}东西,好好儿洗一下就行了,不用担[B但]心。P}
(“他”指称不明,使两句之间失去联系)
5、其他相关问题说明:
1)标注的顺序优先原则:从大到小,即:篇——〉句——〉词——〉字。
篇章错误中含有句、词、字错误的,错句中包含词、字错误的,词中包含字的错误的,均应按照从大到小的顺序依次处理,分别标注。
对同一个错误,能按篇章错误处理的即按篇章错误处理,否则按句式错误处理,其次按句子成分错误处理,再次按词的错误处理,最后按字的错误处理。
从句式的角度看,把字句缺“把”、被字句缺“被”、有字句缺“有”、是字句缺“是”、“是……的”句缺“的”等,均按特殊句式错误处理,而不按成分残缺或缺词处理。换句话说,有些错误虽然可以按句子成分错误或错词处理,但如果是涉及某种特殊句式的问题,则一般优先按句式错误处理。
从词的角度看,句中所缺之词如果涉及某种句式,则标为错句;虽然不涉及句式,但可以充当某种句子成分,则应按成分残缺处理;与句式、成分都无关的才按缺词处理。
例如:
如果我的祖国{CC母国}是西方的先进国的话,我选“绿色食品”。{CP如果我不是西方先进国的人,而且缺少粮食国家的人的话[BQ,]不选“绿色食品”[BQ。]P}
(复句中关联词语的使用错误按篇章错误处理,而不视为错词或别字)
我对这个问题以下几个观点{CJy}。
(该句应为有字句,所以按错句处理,而不按缺述语或缺词处理)
对于非洲来说{CC来看},这是还不够{CJxw}。
(汉语中形谓句无需用“是”,所以按错句处理,而不按多述语或多词处理)
我认为这种{CD的}现象,……在很多人身上{CJ-zy都}会有的。
(“都”可以做状语,所以按成分残缺处理,而不按缺词处理)
从{CC对}现在的情况来说,让大家去吃“绿色食品”是太早了{CC的}。
(正确的说法并不是“是……的”句,因而按错词处理,不视为错句)
目前{CC目先}、祖国{CC母国}。
(“目先”、“母国”,作为词是不存在的,属用词层面上的错误,所以按错词处理,而不视为别字)
现在各个[B各]国家都有“绿色食品”。
(考生知道有“各个”一词,但误将“个”写成了“各”,所以按别字处理,而不视为错词)
2)同一个错误有两种标注方法的,可以把两种标法都标上,中间用斜竖线分开。
例如:
随着现代化{CJ-dy科技的/CJ-zxy的发展}
电子邮件是很方便{CJxw}/{CJsd}!
3)无需处理的情况:
分段错误,指该分而未分段、或不该分而分段的情况。不予处理。
内容上有错误,或表意不清楚,或修饰语太长,但语法上不错的句子,都不必处理。
例如:
我认为吃“绿色食品”会损害{CC害}人类的健康,也会造[C]成污染。那是因为在绿色食品中含有{CC有含}很多化学{CQ物质},如化肥和农药。
(对“绿色食品”的概念理解错误)
这也是个令人深思的问题,我觉得这个问题比绿色食品的问题重要得多。不挨饿的重要性绝比不上绿色食品问题,我认为不挨饿是第一位的。
(前后句观点自相矛盾)
有高机系的国家也可以帮助还很落后的国家决解这个问题。
(“高级系”概念不清)
我们常常能看到贫穷而且没有吃的粮食而在山上找上一般的人不能吃的东西吃的人。
(定语太长,表达罗嗦,但意思不错)
回复: HSK作文语料库!
I am doing a research on wrrtings, so the set of information here is great! Hope I can get help from you guys later!