“新旧版本考试的分数可比性研究——以MHK为例”成果公报
发布时间:2021-07-28

  教育部考试中心课题负责人邱静远主持完成了“新旧版本考试的分数可比性研究——以MHK为例”(GJK2017032)。课题组主要成员任杰、余仁胜、汤新国、刘欣、王晓丽、李莉、李冰。

       一、内容与方法

  本研究以MHK为研究对象,从典型样本出发,以实测数据为基础,研究新旧版本考试的分数可比性问题。

       (一)研究主要内容

  本研究通过文献分析回顾了国内外大型标准化测验的改革进程,确定了研究方法和路径,在青海三县进行二级新大纲标杆卷的试测,采集了一手数据。对MHK二级新旧版本大纲进行了对比分析,同时调用了2015-2019年间MHK二级考生真实数据,从被试的分测验和总分的分布,被试的学校、民族和性别等背景信息的分布,试卷及题目的内容、各种统计参数、导出分数的分数分布及及格率等方面进行了研究,确定了MHK二级新大纲标杆试卷、常模团体、锚题数量和分布,实现新旧大纲顺利链接,并进行了有效性论证。

  1. MHK二级新旧版本大纲对比分析

  MHK二级笔试包括听力理解、阅读理解、书面表达三部分。考试最终向学生报告经过转换后的标准分数,该分数由原始分经技术转换获得。

  旧大纲中的等级标准比较简单、笼统,可操作性不强,新大纲保持了旧大纲注重考查考生实际运用汉语能力的理念,突出能力的全面考查,保持旧大纲的主体结构不变。新大纲对二级等级标准进行了修订,对题型进行调整、补充和完善,更新和调整字表和词表,完善了考试流程,在语言表述和内容上则更加贴近少数民族生活和汉语教学实际。和旧大纲相比,新大纲要求应考者能够用汉语处理比较复杂的多种形式的语言材料;能运用交际策略,综合运用听说读写各种技能在社会中进行语言实践;能主动开展文化学习,增强爱国主义情感。

       2. 2018试验卷在青海的试测情况

  2018年4月25日,课题组成员分赴青海三县进行MHK二级新大纲试测,要求学生在规定的115分钟时间内完成MHK二级笔试,并在其之后60分钟内完成新大纲试用情况调查的学生问卷。本次二级试测的学生样本为1072名初中三年级学生。

  测试结束后,课题组成员按照MHK正式考试工作流程,就地销毁所有试卷,将答题卡和学生问卷清点后带回,并组织进行了评卷和学生问卷的统计工作。为了形成不同年份试卷的对比,研究选取MHK二级旧标杆试卷、2016卷、2017卷、2018卷以及2018年4月25日在青海用的2018试验卷共5套试卷作为样本进行分析。此次试测由于被试群体的代表性有限,进行不同年份试卷对比分析时发现,2018试验卷在平均分、标准差、难度、区分度、通过率、信度等方面均与其他卷差异明显。因此,2018试验卷无法做标杆卷,也无法确定常模团体。

       3. 2018年青海试测调查问卷分析

  此问卷旨在调查涉及学生情况的6个部分:家庭经济社会地位、学校汉语课程相关设置、学生课下自主学习汉语的能动性、学习状态、汉语的学习态度和习惯以及对MHK二级各分测验的自评。问卷实测样本量为1072人,总体参测率为84.89%,所保留的样本量为910。同时,为了调查问卷中学生情况与MHK二级成绩之间是否有相关,所以问卷的第6部分与MHK二级的成绩进行了相应数据分析。

  结果表明,三县之间在MHK二级考试中差异显著,但问卷中社会经济地位这个部分差异不显著,而学校汉语课程设置、学生课下自主学习汉语的能动性、学生学习状态(含其他课程)和学习态度与习惯(汉语)这几部分中差异显著;性别在MHK二级成绩中听力、阅读与总分均差异显著,在学生课下自主学习汉语的能动性、学习态度与习惯(汉语)中差异显著,学生学习状态(含其他课程)差异不显著;学生平时练习较少的题型为书面表达客观题、听力和口语题型,平时练习最多的是作文与阅读题型。

       4. MHK二级新常模的确定

  常模是将测验的原始分数转化为有意义的量表分数的桥梁,标杆试卷和常模质量的高低与测验有效性息息相关,是进行等值、将不同年份试卷分数放在同一量尺上进行对比的前提,因此,常模的选取必须满足一定的标准,即常模要具有代表性;平滑性较好,尽量避免天花板效应、地板效应、分数突变等问题;具有时效性,常模团体必须是近时的;样本大小要适当。

  从考生背景信息来看,2018卷与往年考生在各考区、民族和性别分布上无显著差异,考生群体具有代表性。因此,总体来看,2018卷考生可以作为MHK二级新大纲的常模团体。

       5. MHK二级新标杆试卷的确定

       标杆试卷要具有稳定性和可靠性。测验长度要满足基本的信度要求,对于资格或获证类考试而言,为避免误判,要求测验在及格线处信度达到最高、误差最小。

  通过分析认为,在难度、区分度等方面,2018卷与旧标杆卷、2016卷及2017卷较为一致;在题目内容上能够体现MHK二级新大纲的要求;在试卷质量上2018卷的MHK二级新命制的总体试题质量较好,信效度符合考试要求,试卷基本符合做标准卷的要求。其中书面表达客观题难度较大,填空题部分因试题改革未有参照标准,需根据后期情况进行进一步的观察。2018年4月份所用的试验卷,与总体相差甚远。因此,与2018年4月试验卷相比,选取2018卷作为MHK二级新的标杆试卷更好。

       6. 2015-2019不同年份试卷考生数据对比分析

  MHK二级应用于青海省中考。2015-2019年青海省每年考生人数基本稳定,保持在1万左右。5年间,共有49174名考生参报名考试。根据统计,91.0%以上的考生是藏族学生,其次是蒙古族考生占7.5%,回族、土族考生占0.7%,另外还有个别汉族考生。

  在成绩总体分布上,考生在2015-2017年的合格率都在50.0%以上,特别是2017年合格率达到了60.0%以上,2018-2019年的合格率在50.0%以下,大纲的变化对考生来说增加了难度。在各分项成绩分布上,在2015至2019年间,青海二级考生在听力理解和阅读理解两项基本保持了类似的分数分布,但是在书面表达上,没有体现出规律性的分数分布。同时,总体来看,考生在听力理解方面比较好,在书面表达方面比较差,这也是符合调研反馈的基本情况。

  在考生成绩的性别差异、民族差异和地州差异上,每年女生的总分和各分项平均分都高于男生,女生比男生的合格率高出10.0%以上;汉族、回族和土族考生成绩好于蒙古族,蒙古族好于藏族,呈现出较明显的民族差异;青海MHK二级考生主要分布在海东市、海北州、黄南州、海南州、果洛州和海西州六个地州。经过对比可发现,海北州在听力理解、阅读理解、书面表达三个方面的平均得分都高于其他地州,平均得分最低的是果洛州,呈现出明显的地州差异。通过对各地州的成绩分析,可以从数据中看到2015-2017年各地州的成绩基本都好于前一年,2017年成绩基本达到各地州最高。从2018年开始,合格率出现了较为明显的下降。

       7. 2015-2019不同年份试卷锚题的数量和分布

  为了比较锚题和非锚题的答题情况,从2015-2019年5分试卷中随机抽取题号相同的8道题进行分析。在锚题相同的情况下,考生每年成绩都有所提高,而在非锚题中可以看出考生的通过情况有高有低,没有规律可循,所以2015-2017年锚题曝光的可能性有待研究。2018年开始使用新试卷后,虽然都有锚题在试卷中,但是还没有形成相同的锚题,无法做出分析。

       8. 2018卷与2019卷的等值分析 

  2018卷考生群体较稳定,可以作为MHK二级新大纲的常模团体,题目内容、难度、区分度、信效度均能够体现新大纲的改革趋势,符合作为标杆卷的要求。因此,以2018卷作为标杆卷,以考生在共同题上的表现作为等值的媒介,考查试题难度的真实变化,采用基于经典测验理论的Tucker线性等值方法将2019卷等值到标杆卷上,经过等值后两年试卷的分数可以直接比较。

  从共同题与全卷分数的相关程度来看,除书面表达客观题部分外,2019卷及标杆卷(2018卷)共同题与各分测验分数的相关基本在0.80左右,达到了高相关。这说明,由共同题估计的被试能力水平,可以较好地推知到全卷,为等值提供了较好的基础。研究发现,2019卷听力的题目难度比标杆卷(2018卷)略容易,等值后分数整体有所下降,2019卷阅读题目难度比标杆卷(2018卷)略难,等值后分数整体有所上升。总的来说,两年考试难度差异不大。

       (二)研究方法与过程

  研究使用文献分析法构建研究的理论基础,并在文献分析的基础上重点使用案例研究和试测实证两种方法。

  研究思路为:先命制出MHK二级新的标杆卷,之后初步确定锚题。通过试测获取实测数据后,初步确定常模,进一步确定锚题;不断调整直至确定标杆卷和锚题后,进一步确定常模样组,并调整分数体系;不断调整标杆卷和锚题的同时进行水平试卷间等值设计方案、等值方法的研究和等值、评分程序编写和修改。

       二、结论与对策

  研究认为,MHK二级新大纲的修订,体现了少数民族地区双语教学的进步,贴近少数民族实际。MHK二级新大纲实施后两次考试的难度稳定,但MHK二级考生的性别差异、民族差异和地州差异明显。对施测数据的研究显示,在MHK二级新大纲实施后,命制的试题能够较好反映新大纲理念,保持了难度的稳定,基本建立起新旧大纲之间稳定、有序的链接,建立起新的分数体系,使得不同年份之间的平行卷能够进行对比,MHK已实现新旧大纲的平稳过渡。

  1. MHK二级新大纲实施后,考生合格率有较为明显的下降。大纲的变化对考生来说增加了难度,同时,新共同题的使用也可能是合格率下降的原因之一。

  2. MHK二级考生成绩总体分布较为稳定,但各分项成绩分布各具有特点。通过对2015-2019成绩统计分析,MHK二级考生成绩总体分布呈偏正态,且基本保持稳定。在各分项成绩分布上各不相同,听力理解方面较好,书面表达方面较差。

  3. MHK二级考生的性别差异、民族差异和地州差异明显。女生总分和各分项平均分都高于男生10%以上,汉族、回族和土族考生成绩好于蒙古族,蒙古族好于藏族,同时,不同地州成绩差异明显。

  4.旧锚题有曝光的可能性。从数据统计分析可看出,在锚题相同的情况下,考生成绩逐年提高。在新大纲、新锚题启用后,考生成绩没有呈现出明显的上升趋势。在我国现有考试环境下,旧锚题的曝光具有可能性。

  5.MHK二级新大纲实施后两次考试的难度稳定。2019卷和2018卷共同题和各分测验分数高相关,由共同题估计的被试能力水平可以较好地推知全卷。经分析发现,2019卷听力较2018卷略易,而2019卷阅读比2018卷略难,总体来看,两年考试难度差异不大。

  6.MHK二级新大纲的修订,体现了少数民族地区双语教学的进步,贴近少数民族实际。通过从设计标准、题型、考试形式、命题侧重等方面对MHK新旧大纲对比,以及5年考试数据的统计分析可看出,此次MHK二级新大纲修订理念和架构保持稳定,考试内容更加丰富,更加突出了对考生实际运用汉语能力的考查。

  7. 通过对试测数据的研究显示,在MHK二级新大纲实施后,命制的试题能够较好反映新大纲理念,同时保持了难度的稳定,基本建立起新旧大纲之间稳定、有序的链接,建立起新的分数体系,使得不同年份之间的平行卷能够进行对比。

       三、成果与影响

  本课题研究形成2篇论文、4篇研究报告,研究成果与考试实施实际紧密结合,已应用于考试实施实际中。论文《少数民族初中生汉语能力的性别差异分析——学习过程的中介作用》发表于《民族教育研究》2020年第3期(CSSCI来源扩展版),论文《民族汉考新大纲实施的试题质量分析》发表于《内蒙古教育》2019年第5期。形成研究报告《MHK(二级)新大纲试测问卷分析报告》《MHK(二级)新标杆试卷试题质量分析及等值分析报告》《MHK(二级)锚题数量和分布的研究》《MHK(二级)分数体系的研究》。

  2018年6月,青海二级笔试实考9882人,及格率47.9%,考试平稳顺利。此次青海二级笔试为新大纲启用后的首次考试,确定了标杆卷、锚题和常模。2019年6月,青海二级新大纲第二次考试,实考10413人,及格率49.1%。2020年7月,青海二级新大纲第三次考试,实考10229人,及格率50.8%,考后社会反响平静。至此,青海二级笔试已实现新旧大纲的平稳过渡。

       四、改进与完善

  2018年4月在青海的试测由于被试群体的代表性有限,进行不同年份试卷对比分析时发现,2018试验卷在平均分、标准差、难度、区分度、通过率、信度等方面均与其他卷差异明显。因此,2018试验卷无法做标杆卷,也无法确定常模团体,试测没有达到预期效果。

  此外,还有许多问题值得深入研究的问题。比如目前三级、四级大纲正在修订中,如何将四个等级刻画在同一量尺下,需要解决量表的垂直化问题;新冠肺炎疫情的发生对传统纸笔考试、人工阅卷等都提出的挑战,疫情下计算机考试、计算机自动化评分应列入研究范围;除了报告分数外,如何为考生提供个性化的诊断报告,等等。

  五、成果统计一览表

课题组成果统计一览表