当前位置 >> 首页 >> 教研指导 >> 专题教研 >> 教学理论 >> 教学评价研究
 
从国外教育评价制度看我国基础教育评价体系的建立
马世晔

摘自:《天津教研网》

近年来,教育评价问题成为我国教育界的热门话题,各级教育行政部门每年都要组织各种各样的教育评价活动,以期提高我国的教育质量。因为教育质量的稳步提高是各国政府进行教育改革的目标,目前世界各国在致力于教育改革时,如何在改革的过程中保证教育质量的提高,是各个国家都非常关注的问题。为此,一些国家进行了教学质量监控与评价的探索,国际上也成立了这方面的专门研究机构。其中比较有代表性的有国际教育成就评价协会(IEA)开展的第三次数学和科学成就比较研究(TIMSS)、国际阅读素养进展研究(PIRLs)、经济合作组织(OECD)负责的国际学生评价项目(PISA)、美国的教育进展评价(NAEP)、英国的国家课程测试(SATS)、澳大利亚准备推出的教育进展评价(NAP)和EAA的ICAS。

1国际上主要的几种大规模教育评价体系

1.1TIMSS

TIMSS是由国际教育成就评价协会(IEA)从1995年以后进行的第三次数学和科学成就比较项目,每4年一轮,主要是通过测试和问卷测量各参加国学生在数学和科学成绩的状况。1995年有40个国家和地区参加,1999年有38个国家和地区参加,2003年有46个国家和地区参加。TIMSS着重考察各国的课程成就。调查的对象主要是4年级(9岁)和8年级(13岁)的学生。TIMSS的目标在于为各国政策制定者了解其国家教育系统的优势和弱势提供国际标准,向政策制定者提供权威的资料和数据,为教育改革提供评估服务。

TIMMS除了测试和问卷调查之外,它还包括课程分析、数学课堂的录像、观察和有关政策的研究,它是一个能够帮助参与国家在数学和科学教育方面取得进步的诊断工具。

1.1.1TIMMS的数学和科学评价:

数学测试包括以下一些内容:①数;②代数;③测量;④几何;⑤数据。

科学测试包括以下一些内容:①化学;②地球科学;③环境问题和科学本质;④生命科学;⑤物理。

1.1.2TIMSS的学校、教师和学生的问卷调查

学生问卷主要调查学生的数学和科学学习的情况以及对数学、科学学习的信念;教师问卷主要调查教师对数学、科学的信念和关于教学实践的信念;学校问卷主要调查校长对学校政策和实践问题的看法。TIMMS试图通过这些问卷考察学生数学和科学学习的背景,以阐明家庭、学校和教育政策对学生成绩的重要影响。

1.1.3TIMSS的课程分析

主要对数学和科学课程的指导书和教科书进行比较,研究科目的内容、内容的衔接和对学生成绩的期望等。通过课程分析,了解教育标准、处理个性差异的方法和教师的工作状况对学校教育的影响。

1.2PIRLS

IEA的国际阅读素养进展研究(PIRLS)以5年为一个周期,2001年进行了第一次国际阅读素养进展研究,2006年进行了第二次,2011年为第三次;2001年.全球35个国家和地区进行了第一轮的阅读素养测评,2006年,共有47个国家和地区参加,中国也首次参与了该项目。PIRLS将9岁左右的学生确定为测试对象,这相当于大部分参加国的四年级.之所以选择这样的群体,是因为9-10岁是儿童作为阅读者的发展过程中一个十分重要的转折点,大多数国家都要求四年级末的学生能够知道如何阅读,并且可以通过阅读来进行学习。基于此项研究的目的和评价对象的特点,PIRLS对“阅读素养”进行了界定,并构建了相应的阅读评价体系,其中包括阅读测试和调查问卷两个部分。PIRLS的阅读素养主要包含三个方面:理解过程、阅读目的、阅读行为和态度。理解过程和阅读目的是阅读测试评价的主要内容,阅读行为和态度的评价则主要是通过调查问卷来进行的。

1.2.1PIRLS测试的主要内容

PIRLS的理解过程主要测查:①关注并提取信息的能力;②直接推论的能力;③解释并整合观点和信息的能力;④判断与评价的能力。

1.2.2PIRLS的问卷调查

PIRLS有学校、教师、学生、家长和课程五种问卷,前四种问卷主要是收集学生学习阅读经验的信息,课程问卷主要由各国的研究协调员来完成,主要是要了解国家的阅读政策、阅读教学的目标和标准、阅读时间的分配、书籍和其他阅读资源的供给。PIRLS通过不同的问卷收集各种情境中可能影响学生阅读表现的信息,以此分析对学生阅读表现的影响因素。

1.3PISA

学生能力国际评价(PISA)是经济合作与发展组织(OECD)发起并组织实施的评价项目,该评价的目标是建立常规的、可靠的,与政策相关的学生成就评价指标体系,帮助各国政府和决策者评价和监控国家的教育成效。PISA2006有58个国家和地区参与,约1.4万所学校样本的超过39万的学生参加了测试。评价的群体为15岁在校生(义务教育结束阶段),评价的领域为阅读、数学、科学,评价工具是13套经过等值的试题册;每个学生一套(2小时题量)和调查问卷;学生问卷(半小时)、家长问卷、学校问卷。

PISA的建立是基于终身学习的理念,它认为要拥有终身学习的能力,学生需要在阅读、数学及科学能力方面有稳固的基础;同时他们也需懂得组织及调节自己的学习进度,学会如何独立学习,如何集体学习,以及如何解决学习过程中所遇到的困难,还必须注意思考方式、学习策略及方法。为全面评估学生以上能力,PISA除了评估15岁学生的知识及技能外,还要求学生报告学习情况,从而了解他们的学习动机及学习模式。在测试内容方面,也不局限于学生的课程内容、学生在学校获得的知识,而是把着眼点放在实际社会生活情境中。

1.3.1PISA的数学测试

PISA数学测试主要从数学技能、数学概念、数学课程因素和数学情境四个领域展开,其中数学技能和概念为主要领域,涉及评价的范围和熟练程度,数学课程因素和数学情境则是次要领域。

1.3.2PISA的科学测试

PISA主要从科学概念、科学方法和科学情境三个角度对科学进行测试,它对科学的评价更多地在于对科学概念的理解,而在对科学方法的评价是较为次要的;在学科内容方面,主要包括生命、健康科学和地球、环境科学以及技术科学。

1.3.3PISA的阅读测试

PISA主要从获取信息、理解信息和思考与判断能力三个方面衡量学生的阅读能力。

1.3.4PISA的问卷调查

PISA的问卷主要收集学生及其所在学校的特点,其目的是为了确定与学生表现的相关社会、文化、经济以及教育方面的因素,其作用是:①提供学生的基本人口维度的信息,以对学生的成绩进行分类比较;②提供学生生活和学习背景信息,力求对学生成绩差异作出合理的解释,为家长、教师和教育决策者提供参考。

1.4美国的评价项目

美国教育进展评价(NAEP)是美国唯一的全国性的、代表性和持续性的评价学生学业成就的评价,这项评价由美国国会授权、由教育部所属的全国教育统计资料中心管理、由教育考试服务中心(ETS)实施。NAEP每隔2年对全国进行一次阅读和数学测试,在时间和资金允许的情况下,定期对写作、科学、历史、地理、公民学、外语、艺术等学科进行测试,测试内容主要是学校课程和国家课程共同的知识和技能的掌握情况。评价结束后向公众报告四年级、八年级和十二年级学生的教育进展情况。NAEP有几种类型的评价方式,即全国评价、州评价和试验城市评价。

在评价目的上,作为全国的成绩单,它的目的不是指导教师如何进行教学,而是向公众、政策制定者和教育者提供学生在各个学科方面能力的描述性信息。在评价工具的设计上,NAEP通过分层抽样的方法对全国的学校进行抽样测量学生的成绩,也用矩阵的方法对试题进行设计,设计的试题分成很多小的项目,分别由不同的社区、地区、州的学生来完成,每个学生完成的题目数量有严格的限定。评价的内容既包括学生在数学、阅读、写作、历史、科学等学科学业水平的发展趋势,也包括对影响学生能力发展的各种因素进行大规模的调查,包括学校教育的情况、家庭教育背景等,调查的对象包括学生、教师、校长和家长,当调查结果与学生在学科学业水平的平均分和成就水平相关时,NAEP就作为普遍的趋势进行报告,这样就为公众、政策制定者提供了更全面的信息。

1.5英国的评价项目

《1988年教育改革法》规定,把义务教育阶段划分为四个关键阶段,即:KSl,5~7岁;KS2,7~11岁;KS3,ll~14岁;KS4,14~16岁;分别对学生在7、11、14和16岁时学习国家课程各科目的情况进行全国统一评定。也就是在7岁时,所有学生都要参加国家的语文和数学测试;在1l岁时,除了参加语文和数学测试外,还增加了科学测试;在14岁时,参加与第二阶段相同科目的测试;这三个阶段的测试叫做国家课程评价(SATS)。在16岁时,参加剑桥评价等机构举办的中等教育证书考试(GCSE),考试科目不再限于语文、数学和科学,多达50余种,学生在其中任选9门参加考试,国家要求所有考生至少要达到C级水平。

国家课程评价不仅有统一的测试,还要求教师把自己平时对学生的评价与之相结合。教师评价要求根据自己对学生的观察、学生的课堂表现以及作业情况,对学生在各个目标上的水平做出判断。

GCSE不仅有学科考试,还包括职业和技术的内容,如运动、烹饪等,每通过一门就可以获得一个证书。

1.6澳大利亚的评价项目

1.6.1NAP

澳大利亚的教育进展评价(NAP)是澳大利亚政府2008年准备推出的全国性评价项目,NAP由联邦政府批准设立并划拨专款,对中小学3、5、7、9年级的各个学科情况进行全面的测评,以对全澳各地的教育水平和发展作出定期地、系统的评价。从2009年开始全澳洲所有学生均要参加NAP,统一阅卷,统一进行统计分析。它是由澳大利亚政府采用招标方式委托澳大利亚教育研究所(ACER)和澳大利亚考试中心(EAA)等机构分别承担的。

题型有选择题、简答题和问答题,科学科目还有2道实验题,做答方式是采取学生先集体分班分组做实验,收集数据,然后再单独回答的方式,考试时间45分钟。NAP的结果报告有公共报告和技术报告两种,主要提供给政府和学校。

1.6.2ICAS

由EAA举办的ICAS是对学校系统最为全面的评价项目。每年大洋洲各国有170万的学生参加考试,另外有来自新加坡、中国香港、马来西亚、中国内地、南非、印尼和印度的70万海外学生在本国参加此项考试。ICAS考试科目有:英文(3~12年级)、数学(3~12年级)、写作(3~12年级)、拼写(3~7年级)、科学(3~12年级)和计算机(3~10年级),最近EAA又推出了一套一般成就测验(GAT),作为ICAS系列的综合科目考试。每年在ICAS考试中的前1%的学生获得大学金牌,前10%的学生获得优秀证书,其他学生也将获得各类参赛证书,标明其成绩水平。

ICAS不仅仅是一项竞赛项目,随着不断发展和数据库积累,它已经越来越成为一项诊断性测验,能比较全面地评价中小学生各年级阶段的知识和能力。由于经过等值处理,考试后,EAA每年对不同国家进行纵向和横向比较,将不同年级学生的表现放在同一量表上去进行分析,为学校教学和学生学习提供反馈信息。EAA为学生提供的诊断报告,明确地指出其优势和劣势的地方,以及和总体学生比较的大概位置;EAA还为参加测评的各个学校提供一份结果报告,为评价该校各科教学状况和各个年度的发展情况提供依据。

2当前国际教育评价的主要特点

2.1评价注重系统性

多数是由学科测试,学校、教师和学生的问卷调查表,课程分析三部分有机构成。测试主要从学生的不同能力发展状况出发,侧重于考查学生的解决问题能力和整体应用能力,不局限于在校学习的基于课程的已经掌握的单一知识.而是强调知识在不同情境中的应用和形成面对实际生活挑战的能力。都注意将定量与定性结合起来,无论是国际项目还是本国项目的体系,大多数都采用了笔纸测验与问卷调查、现场观察、个案访谈相结合等多种评价相结合的方式。另外,普遍采用了多种科学先进的评价技术,如通过分层抽样的方法对全国的学校进行抽样测量学生的成绩,用矩阵的方法对试题进行设计,设计的试题分成很多小的项目,分别由不同的社区、地区、州的学生来完成;同时还运用结构方程模型来确定问卷的结构效度,应用多水平线性模型来分析大规模具有嵌套关系的数据等。

2.2注重评价和测试工作的规范化

为保证各种评价的准确性和公平性,大都委托著名的考试或教育研究机构来负责具体实施。例如:PISA委托美国ETS(美国教育考试服务中心)、荷兰CITO(荷兰教育考试院)、澳大利亚ACER(澳大利亚教育研究所)等参与命题、抽样、统计分析等,NAEP委托ETS承担,NAP委托ACER、EAA(澳大利亚考试中心)等机构承担。各考试机构在操作时,又都用严格的标准管理规范实施中的各个环节,如:ETS定期用自己的《质量与公平性标准》评估各项工作,CITO则用IS09000标准衡量自己的每一项考试。

2.3在成绩报告上重视评价的诊断和发展功能

对教学过程中存在的问题、教学质量的问题进行诊断,了解它的优势和不足,从而为进一步提高教学质量提供信息和建议。成绩报告不再是简单的给一个分数,而是按知识、能力体系提供一个完整的诊断报告。特别是澳大利亚的EAA成绩报告有纸质和网上两种,EAA研制的网上成绩报告系统允许学生和家长、学校根据不同的ID和密码从网上查阅和打印成绩报告以及证书,它的报告内容包含了州、学校、考生各个年级、各个知识、能力表现以及考生不同年级的增值情况;不仅报告考生的优势,也向考生提供劣势分析,帮助学生诊断学习障碍。由于其具有强大的数据库支持,并且提供了进一步统计和制图软件系统,允许学校和教师利用数据形成自己感兴趣的分析报告。其数据和图形还可以拷贝出来用于研究。

2.4多元评价方兴未艾

多元智能理论是一种全新的有关人类智能结构的理论,它的悄然兴起,不仅有力诠释了素质教育的基本理念,而且给课程改革提供了有力的理论支撑。该理论的提出者霍华德.加德纳教授认为:人的智力是由语言智能、节奏智能、数理智能、空间智能、运动智能、人际关系智能、自我认知智能和自然观察者智能等8种以上智能构成。加德纳提出:世界上并不存在谁聪明谁不聪明的问题,而是存在哪一方面聪明以及怎样聪明的问题。非智力的心理因素如兴趣、情感、意志等与学习效果的关系极大,把非智力因素作为一个与知识能力平行的领域来评价,是现代社会对多元化人才的需求。

3国际教育评价给我们的启示

3.1建立我国教育评价体系的必要性

我国基础教育由于缺乏统一的评价体系,长期以来一直以高考作为单一的评价指标,带来了严重后果。胡锦涛总书记在党的十七大报告上指出:“更新教育观念,深化教学内容方式、考试招生制度、质量评价制度等改革,减轻中小学生课业负担,提高学生综合素质。”我国基础教育要大发展,就要充分了解基础教育的现状、投入与产出的效率、不同社会经济文化受教育的状况以及教与学的效果问题,大规模的基础教育评价能够帮助各级政府、教育行政部门、学校通过测试和调查清晰地了解基础教育现状、成效及其存在的问题,从而使我们的教育投入更具有针对性。

3.2评价的内容

国际教育评价有从学科层面开展的,也有从认知层面开展的。学科层面的能提供课程掌握的情况,认知层面的能帮助我们了解受教育者面对未来社会的准备情况,使教育能为今后社会的发展、人才的培养更好地服务。我国基础教育的评价,既应强调基本知识和技能的掌握,也应强调认知能力诊断,这样才能使我国的基础教育朝着全面发展、面向未来的方向发展。

3.3多种方式开展评价工作

对教育的评价不能单一化,只有多种形式的评价并存才能比较客观地反映教育的现状,才能符合各具特色的教学内容和方式的需要。对教育的评价不应脱离具体教育背景,以一种绝对的方式去评价,因此在强调形成性评价的同时也要注意结合终结性评价的内容,这样的评价才具有完整性。

3.4评价机构

为了把教育评价工作进行的更好,国外越来越多的采用多家权威机构联合甚至是分项目招标的方式进行,这样各家可以充分发挥各自的长处,保证教育评价工作的质量和水平。在我国,从事基础教育评价工作的机构很多,为了充分调动各种力量,尽快把我国基础教育评价工作搞好,采用多家机构从不同角度分头开展评价是最为切实可行的方案。