清风出袖
高级会员
梁茂成教授的研究课题“大规模考试英语作文自动评分系统的研制”初步完成
中国外语教育研究中心梁茂成教授主持的教育部哲学社会科学研究项目“大规模考试英语作文自动评分系统的研制”(编号06JA740007)已初步完成,并于2008年4月6日顺利通过了研究报告鉴定会。研究成果受到了全国大学英语四六级考委会主任、上海交通大学金艳教授、清华大学语言测试专家张文霞教授以及中国外语教育中心刘润清、王克非、陈国华教授的一致肯定,鉴定委员会认为该研究为国内领先水平。
该项目研究英语作文自动评分系统,并对该评分系统的评分信度、最低训练集样本量、适用文体类型、信度影响因素等问题进行探讨。研究发现,由于英语作文自动评分系统中设置了一些对作文质量具有较强预测能力的文本变量,使得系统在接受了足够的训练之后,自动评分的评分信度达到了r = 0.752或更高,可以满足统计学和测试学的要求。在训练集信度可靠的前提下,自动评分系统的评分信度最高达到r = 0.83以上,作文评分系统的评分结果与人工评分的结果之间的吻合率(在0-5的量表上)高于美国ETS的E-rater,表明当训练集样本信度可靠时,该研究中设计的英语作文自动评分系统的评分信度高于E-rater。因此,该系统已经达到了可操作水平。
该研究还发现,人工评分信度从两个方面对自动评分模型的稳定性产生影响。首先,当人工评分信度较低时,机器学习遵循Garbage in, garbage out.的规则,自动评分信度也相应较低;当训练集人工评分信度较高时,自动评分信度也随之升高。其次,不同的人工评分员之间的评分信度差异对自动评分的信度也存在影响。由于训练集数据存在内在的不一致性,致使自动评分系统学习困难,评分信度降低。
梁茂成教授这一研究成果将有力地推动我国大规模英语考试实现作文评分自动化的进程。
中国外语教育研究中心梁茂成教授主持的教育部哲学社会科学研究项目“大规模考试英语作文自动评分系统的研制”(编号06JA740007)已初步完成,并于2008年4月6日顺利通过了研究报告鉴定会。研究成果受到了全国大学英语四六级考委会主任、上海交通大学金艳教授、清华大学语言测试专家张文霞教授以及中国外语教育中心刘润清、王克非、陈国华教授的一致肯定,鉴定委员会认为该研究为国内领先水平。
该项目研究英语作文自动评分系统,并对该评分系统的评分信度、最低训练集样本量、适用文体类型、信度影响因素等问题进行探讨。研究发现,由于英语作文自动评分系统中设置了一些对作文质量具有较强预测能力的文本变量,使得系统在接受了足够的训练之后,自动评分的评分信度达到了r = 0.752或更高,可以满足统计学和测试学的要求。在训练集信度可靠的前提下,自动评分系统的评分信度最高达到r = 0.83以上,作文评分系统的评分结果与人工评分的结果之间的吻合率(在0-5的量表上)高于美国ETS的E-rater,表明当训练集样本信度可靠时,该研究中设计的英语作文自动评分系统的评分信度高于E-rater。因此,该系统已经达到了可操作水平。
该研究还发现,人工评分信度从两个方面对自动评分模型的稳定性产生影响。首先,当人工评分信度较低时,机器学习遵循Garbage in, garbage out.的规则,自动评分信度也相应较低;当训练集人工评分信度较高时,自动评分信度也随之升高。其次,不同的人工评分员之间的评分信度差异对自动评分的信度也存在影响。由于训练集数据存在内在的不一致性,致使自动评分系统学习困难,评分信度降低。
梁茂成教授这一研究成果将有力地推动我国大规模英语考试实现作文评分自动化的进程。