中国教育发展战略学会

首页 > 学术研究

关于教育评价制度改革的几点思考

信息来源：《中国教育学刊》2017年第四期作者：谈松华发布时间：[2017/04/21] 浏览次数：3568次

　　教育评价改革正在成为推进教育改革创新的关注热点。在有关当前教育现实问题的讨论中，常常把教育存在的诸多弊端归结为教育评价导向的片面性和评价机制的局限性，进而认为评价制度改革是教育综合改革的突破口。这无疑对教育评价改革提出了新的要求。历史和现实证明，教育评价对于人才培养模式的改革和教育体系的建设具有独特的、不可替代的作用，对于教育发展和改革具有多方面的推进性功能。我国教育评价正处在发展和转型时期，正在从以往比较单一的政府督导和政府主导的评价，发展为更加专业化、多样化的评价。而实现这种转型，以有效地发挥教育评价的多种功能，关键在于提高教育评价的专业化水平。因此，研讨教育评价制度改革，特别是强化教育评价的推进性功能与专业化建设问题，不仅是教育评价领域，也是全面深化教育改革，需要从理论和实践层面进行探索的现实课题。
教育评价制度改革的走向
　　教育评价制度涉及功能、目标、内容、方法、组织等多种因素，是教育制度的重要组成部分。它的任务是为实现教育改革和发展的战略目标服务，为实现教育方针和培养目标提供保障，将伴随不同阶段教育任务的变化而发生变化。我国教育正处在一个新的历史转折点上，教育发展的重点将从普及基本教育转向着重提高质量，教育改革的重点将从体制转轨转向制度创新，人才培养模式将从比较划一、呆板、封闭转向更加多样、灵活、开放。这就必然要求教育评价进行相应的改革，我国教育评价的现状从整体上来讲还处于比较薄弱的状态，缺少相对完整或者完善的科学评价制度和评价体系。其存在的主要问题表现为以下几个方面。
　　其一，教育评价的目标比较狭窄。尽管国家提出了按照教育方针进行德、智、体、美等诸方面的评价要求，但升学竞争引发了强烈的功利导向，教育评价实际的目标指向主要是学生的学业知识，而不是着眼于学生的全面发展。
　　其二，教育评价的方法相对陈旧。既然学业知识是其评价的主要目标，因此评价的方法更多的是纸笔测试，学生要应付各种各样的考试。
　　其三，教育评价的主体比较单一。评价的主体从宏观上主要是政府，社会参与不够、参与渠道不完善。
　　其四，教育评价结果的呈现过于简单。评价结果呈现出来的主要是分数，对学生和教师的评价，仅仅依靠分数是不能完全反映其发展状态的，即使以分数呈现，对其背后应该发掘并可供学生、教师甚至家长更有针对性地改进的因素并没有呈现出来。
　　因此，教育评价的目标要从狭窄转向综合；教育评价的方法要从陈旧转向创新；评价的主体要更加多元；评价结果的呈现方式要更加丰富、更加有效，要能够真正起到改进的作用。改变这种情况，克服这些弊端，教育评价需要实现制度性转变。
　　一是教育评价从专注督政转向督政与督学并重，更加注重督学。教育发展的重点正在从量的扩张转向质的提升。过去30多年教育发展的重点是推进教育的普及，让更多的人受更多的教育。因此，数量的扩张必然成为一个主要的任务，这个任务现在基本接近实现，各级各类教育的毛入学率都已经达到了比较高的水平。现在的重点应该转向质量的提升，这既是教育内在的需要，也是社会大众所普遍关注的重点。过去人们关注的是有没有机会上学，现在更多关注的是接受一种什么样的教育。这是一个大的转变，这个转变要求教育评价也要相应地变化。过去在数量扩张阶段，教育评价的重点在于政府普及教育的政策能不能得到落实，而当重点转到提高教育质量的时候，与人的培养和发展直接相关的教育教学（包括校内外）就成为教育评价的重点。教育教学的评价更具有专业性，既要有政府主导的督学，更需要多方参与的专业化评价。
　　二是从知识水平的测量转向对人的素养的全面评价。教育正在从学历本位或者知识本位转向能力本位。过去强调教育质量，更多的是强调学业知识水平。而现在教育发展的趋势越来越关注能力和素质素养的提升。这种变化对评价来讲，也会有新的要求，当教育的质量更多关注知识的时候，我们测量的重点是考查知识水平，测量知识掌握的程度。当教育质量转向能力和素养的时候，仅仅评价知识水平已经不够了，它需要扩展为对人的素养的全面评价。
　　三是从封闭性的内部评价转向开放性的社会评价和国际评价。从社会开放的角度来说，就是要从学校和教育系统的内部评价转变为专业机构、行业组织及其他社会组织共同参与的社会化、专业化评价。从国际开放的角度来说，需要从单向的吸收转向双向的交流、从国内评价转向利用国际资源或参与国际评价。当我们的教育在对外关系上是单向吸收的时候，更多的是参照发达国家的发展程度，以此作为评价我国教育的重要坐标。当我国国际地位发生了变化、国际关系随之发生了深刻变化的时候，我国的教育评价不必仅依靠国内的机构和人员进行，也可以吸收国际著名专家或专业机构参与专业性评价。不仅需要吸收国际的先进经验，同时也需要总结自己的成功经验，以在国际教育上占有一席之地。所以，现在的教育评价应该比较我国和世界一些先进国家的长处和短处。例如，现在参与PISA考试等就是参与国际评价。这个评价已经不是单向的、仅限于国内的封闭性评价。实际上，这种国际评价既要吸收国外的先进经验，同时也要总结我国的成功经验。
这必然要求我国教育从理念、道路、模式和制度上实现整体性的变革，而评价制度的变革，不仅是制度变革的重点，而且对教育的整体性变革具有驱动和保障作用。
强化教育评价的推进性功能
　　评价制度对于教育发展具有多重功能。一是诊断功能。在学校教育教学的过程中，评价可以诊断教育教学的实施效果及其成因，这种诊断对改进教育教学及实现教育教学目标提供重要的依据。二是选拔功能。选拔并不是教育评价的直接目的，但选拔过程必然也是一个评价过程，所以评价客观上也包含选拔功能。例如，基础教育阶段的初中后和高中后两次分流，都需要有一个考核评价和选拔的过程。三是导向功能。评价尽管是教育教学效果或结果的测评，是在过程或结束时进行的，但评价是依据一定标准及由此而确定的内容进行的，这种标准和内容，客观上具有导向作用，而在应试教育环境下，常常会成为教育教学的“指挥棒”，必然会影响教学，考什么教什么，产生片面的导向作用。四是发展功能。实际上，上面三个功能的正确发挥就能实现评价的发展性功能。同时，在教育评价研究和实践中，越来越重视发展性评价，不仅强调评价最终是为了促进发展，同时围绕发展设计评价目标，组织评价过程。五是管理功能。教育教学管理需要通过评价来改进教育教学。
　　实际上，教育评价几乎涵盖教育的所有领域和过程，如对政府的政策评价和绩效评价，对高校的专业评价和院校评价，对职业教育的职业能力和职业资格评价等。各种评价的目标、内容和方法是有所区别的，但有一点是相同的：评价本身不是目的，而是一种方法，是为实现教育的目的和目标（长远的或近期的、原则的或具体的）服务的。从这个基点出发，各种评价功能的具体目标和要求有所不同，而推进教育的改革和发展，进而推进教育目的和目标的实现，应该是有共性的。因此，也可以说推进性功能是教育评价的综合性功能。强化教育评价的推进性功能，既能有助于避免各种单项评价的局限性，又能使教育评价回归教育的本原，发挥其综合效能。
优化发展性教育评价
　　教育评价有多种类型，如何分类，见仁见智，有从功能角度分，有从对象角度分，有从方法角度分，都有参考价值。从功能整体和实际应用角度而言，一般分为过程性评价、形成（结果）性评价，而两者的综合可以归结为发展性评价，这样的归类与强化与推进性功能评价导向相一致。发展性评价，主要是指学校发展评价、教师发展评价和学生发展评价。这三种评价在探索实践中，主要分别是学校的增值评价、教师的绩效评价和学生的综合素质评价。其中学生的评价是发展性评价的基础。
　　一是学校的增值评价。现在我国对学校的评价缺乏一个比较完整的指标体系。对学校的评价实际上主要是看考试分数、升学率，这是学校评价的硬性指标。这种评价的缺陷是明显的，因为学校的工作不能仅仅看考试成绩，而且每次考试的可比性也是不够的，用这样的一种测评办法来判断学校工作，本身是有局限的。各个学校的基础、生源和师资不一样，仅利用最终的分数来评，对这些学校是不客观，也是不公平的。
　　20世纪80年代以后，英美国家采用比较多的是学校增值评价。增值评价就是把产出和投入作为一个整体来进行评价。学习成就是学校的产出，但是这种产出如果不和投入联系起来就不能全面反映学校发展和进步的程度。所以，就应改变过去只看产出结果，即最后考试成绩和升学率这样的做法。增值评价是把学生进学校时的成绩、家庭背景、社区环境、教师水平等各种因素都作为投入因素，然后对学生的表现，对最终的产出作细致的分析。如果某一所学校所有学生在进校时的平均成绩是60分，经过初中或者高中三年的教育后，以同样的尺度来考量，学生的平均成绩提高到了70分，而另外一所学校所有学生在进校时的平均成绩是80分，经过三年以后，学生的成绩提高到了85分，那从提升的幅度来讲，应该说前一所学校的增值性更强、增值效果更好。而基础好的学校，如果提升得很慢，相比来说，其增值效果是不理想的。
　　这样一方面侧重评价学生接受学校教育后的进步程度的评价方法，激励学生和学校尽最大努力，做最好的自己。另一方面，对于不同家庭背景和社区环境的学生作具体分析，找到针对性的改进措施。这些学生因其家庭环境和社区环境是不一样的，其所受的教育条件也是有差别的。我们可以分析成绩背后的一些因素，进而提出改进措施。应该说，增值评价至少比只看一个最终结果更合理、更公平、更科学，也更有利于改进学校的工作。
　　在推广教育增值评价的过程中遇到两个问题，这两个问题在发达国家也存在。第一个问题是，因为增值评价需要大量的数据作支撑，我国的学校档案建立尚不完善，没有完整的基础数据，所以要推行增值评价比较难。第二个问题是，一些基础好的学校提出异议，从60分提到70分是比较容易的，但是从90分提到95分是比较难的，这样的衡量，对于基础好的学校来说是不公平的。所以，如何找到一个既能反映学校增值水平，同时又能客观地反映不同学校的实际进步程度的评价方法，是增值评价需要进一步改进和完善的地方。
　　二是教师的绩效评价。国内现在还没有比较完善和成熟的教师评价制度，现在的教师评价无非是考查教师工作量、所教学生的成绩、工作态度及教科研、论文发表等。但是缺乏一种比较客观完整的指标。对中小学教师来讲，是否发表论文可以作为评价教师的参考标准，但并不应成为必备依据。中小学教师的主要任务应该放在不断提高教学水平与教学质量上。有一部分教师有条件把好的教学经验进行比较系统的总结，作为论文来发表，是一件很好的事情，但不是所有教师都需要这样做。如果把发表论文作为一个主要评价指标的话，很可能会引导中小学教师在写好文章上下功夫，而不是改进学生的教学。对教师的评价应该和教师的专业发展，如教师的师德、职业责任等相联系。所以，教师评价是世界性难题，但是职业素养、教学效果、师生关系等多方面应该是对教师进行评价的基本要求。前一段美国出了《第56号教室的奇迹》这本书，一位校长把一所生源很差的学校办成了受到各方面都肯定的学校，这应该是我们对教师评价的更重要的一种标准。
　　三是学生综合素质评价。学生评价是教育评价的主要部分，对学校和教师的评价也包含对学生的评价。因为对学校和教师的评价要以对学生发展的评价为基础，离开了对学生发展的评价，就没有真正的教育评价。然而现在对学校的评价往往是看学校的占地面积、建筑面积、学校的教学设施等方面。对教师的评价往往更重视他们的学历。而这些恰恰没有更加有针对性地把学生本身的发展作为评价的基本依据。我国正在进行新一轮的教育改革，教育评价制度改革作为重要任务，主要是在核心素养的基础上制订基础教育质量标准和课程标准，再来全面评价学生的发展水平。要改进教育评价技术，科学解读教育评价结果，为学生和教师提供信息反馈，提供发展性评价，形成素养、知识与能力并重的多元综合评价。
　　对学生的评价大体上可以分为两类。一类是过程性评价，即诊断性评价。就是在教育教学过程中诊断学生教育教学的发展水平，如一些阶段性的测试，或者针对某些问题的检测。另一类是形成性评价。形成性评价也可以说是结果性评价，这个评价指在完成一个学段、需要进入另一个学段的时候，对已结束学段的整体性评价。形成性评价又分两种，一种是标准参照评价，另一种是常模参照评价。标准参照评价就是水平评价，如初中结业的形成性评价，考量的是学生能不能达到初中毕业水平；常模参照评价就是测量一个学生在年级中处于什么位置，以平均成绩为参照。标准参照评价是合格与不合格的问题，常模参照评价是处在什么位置的问题。
深化考试招生制度改革
　　在我国教育评价制度中，初中升高中、高中升高校的考试评价是高利害的系统性评价和选拔性评价，其中高考招生制度改革是教育评价制度改革的重点和难点。国家关于考试招生制度改革的意见，明确了改革的指导思想、基本原则和改革内容，正在进行试点，并逐步推进实施。高考改革的思路即制度设计可以用四点来概括。
　　一是招考分离。现在，我们的考试结果就是招生依据，考试就是招生。其实考试是招生的一种手段，并不是全部，所以首先应把考试和招生相对分离。　
　　二是分类考试。现在主要有两类。一类是高职高专的考试，主要对文化素养和职业技能进行评价。从长远来看，高职高专不一定参加现在的高考，它可能会有另外一种文化测试，更重要的是它要加上职业技能评价，这样更符合职业教育选拔人才的要求。第二类是普通本科的考试，包含必考科目和选考科目，过去的高考是3+X，3+文综/理综，现在必考科目没有动，文理不分科。过去选考科目是指定的，文综就是文科三门，理综就是理科三门。现在浙江和上海开展试点，上海是在理、化、生、史、地、政这六门课里选三门，文理可以交叉选；浙江是七选三，加上技术课。这样的分类考试让学校和学生有更多选择的机会。怎么选择？这需要高等学校先提出来，高校提出不同专业的选考科目，学生会根据想报考的学校和专业公布的考试科目，选择高考选考科目。这对学生来讲有更多的选择，对高中教育教学具有促进改革的作用，但同时也是一个挑战，学生走班、小班教学是必然的，要求学校调整教学安排，教学组织也要发生变化，这需要有一个调整适应的过程。
　　三是综合评价。综合评价是指高校在录取学生的时候，要根据多种材料来综合评价学生。还有一个是综合素质评价，这是高中学校对学生的评价。复旦大学、上海交通大学、同济大学、华东师范大学等高校对学生的综合素质评价提出四个方面的要求，即品德发展与公民素养、修习课程与学业成绩、身心健康与艺术素养、创新精神与实践能力。高中对学生实施综合素质评价的制度现在还在探索中，这种综合素质的评价当然也包括掌握各学科基本知识和基本技能、解决问题的能力、学科特长和兴趣以及身心素养、艺术欣赏等这些方面的能力。
　　四是多元录取。高校现在在录取学生时会有“两依据一参考”，也就是改变过去招生只看高考总分这一个依据。“两依据”就是高考成绩和高中学业水平考试成绩。其中，高中学业水平考试成绩占一定的权重，高考成绩是主要的。“一参考”是指综合素质评价，目前还不能作为依据。如果综合素质评价作为依据的话，它必须要进行等级划分，分等了才能确定成绩，但是综合素质要分等是非常困难的，尤其在我国诚信制度还没有完全建立起来的时候，要把学生素质分等，其可信度是有问题的。所以，现阶段主要是建立学生成长记录，即写实性的记录，学生可以自己写，教师也可以写，把学生最重要的一些表现或者特长通过写实性的记录，形成一个成长记录。这个成长记录档案是给高校作参考的，还需要进一步去探讨。
加强教育评价专业化建设
　　首先，要制订和完善教育评价标准。评价首先要有标准，没有标准就没有依据。根据学生的核心素养，制订教育质量标准；根据教育质量标准再来制订课程标准；根据课程标准编写教材；编写教材以后，进行课程实施，然后再进行课程评价。教育评价不仅是评价课程，它是整体性评价。对物的评价有客观的标准，合格就是合格，不合格就是不合格，但对人的评价是非常困难的，需要研究如何把外在的与内在的统一起来。还有基本标准与特殊才能的关系，基本标准往往是面面俱到，而那些有特殊兴趣或特殊才能的学生，如果只讲统一的标准就会影响或扼杀奇才怪才，甚至拔尖人才的发现和发展。
　　最近电视上播出的一个爵士舞比赛节目，其中的一个表演者引起了很大的争议。非常有名的舞蹈家杨丽萍很欣赏这个表演者，但是一位专门研究爵士舞的评委认为，从爵士舞的角度来讲这位表演者并不合格。杨丽萍认为，舞蹈是用心来跳的，她看到了这个舞者的心，所以认为他就是非常优秀的舞者。这就是评价，“形”和“神”到底是什么关系？我们对学生进行评价的时候，是看外表的东西还是看内在的东西？所以，对人的评价是最复杂的，确实需要我们进一步探讨。
　　其次，探索并完善教育质量评价的手段和方法。不同的手段和方法对测量的评价效果是不一样的，不同领域、不同评价对象需要有不同的评价手段和方法。评价方法可以采取定性和定量、普评和抽评、自评和互评、学业测评和心理测试等不同的方法。评价手段可以采取考试测评、数据采集与评价、问卷评价等不同的手段。现在互联网技术的发展对评价有一定的促进作用。例如，现在的评价很多是要靠数据的，互联网的发展对数据的采集分析具有很重要的作用。还有学生成长记录和档案也可以借助于互联网。上海现在有很多学校请一些互联网教育评价公司对学生进行评价，对学生考试的成绩进行分析，可以得出很多有针对性的结论。我们既需要单向地、深入地去研究一些评价办法，同时需要采用一些综合的手段来进行评价。
　　最后，加强教育评价专业机构的组织和队伍建设。现在我国的教育评价组织机构主要是政府设置的评价机构。我们应在重视政府评价机构作用的同时，鼓励民间专业评价机构的发展，特别要鼓励具有不同专业特色、针对性强的评价机构的发展，以适应不同层级、不同要求的细分评价市场的要求。例如，中小学绩效、学业成绩、学生综合素质、职业院校学生职业能力以及高等学校专业评价等，都要有不同的专业机构来进行评价。同时需要强调的是，教育评价的专业化水平取决于评价队伍的专业化程度，因而，要加强高等院校、特别是师范大学教育测量学科建设，加快教育测量评价专业人员的培养与培训，尽快壮大评价专业人员的队伍，同时加强国际交流，提升教育评价的国际化水平。我们离科学、专业化的测量评价，还有一段比较长的路要走，需要各方面的人员参与探索，一线的教师和校长们，也需要在实践中进行探索，逐步形成符合我国国情的教育评价体系和评价制度。
　　（谈松华，国家教育咨询委员会委员，中国教育发展战略学会学术委员会主任。）

【打印】【关闭】