中国教育考试在线

更新时间:2022-12-29 16:24:32 阅读: 评论:0


2022年12月29日发(作者:意大利的风土人情)

席⼩明:中国教育考试的前景与发展途径

原⽂刊载于《中国考试》2021年第1期第23—28页。

编者按

“⼗四五”时期是我国加快推进教育现代化、建设⾼质量教育体系和教育强国的重要阶段,也

是教育考试事业深化新时代教育评价改⾰、建设中国特⾊现代教育考试制度、提升国家教育考

试治理体系和治理能⼒现代化的关键时期。为深⼊探讨“⼗四五”时期我国教育考试事业的发展⽅

向和实现路径,本刊邀请专家围绕教育考试事业发展愿景展开笔谈,希冀能为教育考试在“⼗四

五”时期⾼质量发展提供有益参考。

作者

席⼩明,VIPKIDSInternational⾸席测评和学习产品官,美国教育考试服务中⼼新产品研究开发

部原执⾏总监。

摘要

中国教育考试在“⼗四五”期间应在研发不同⽤途的教育测评、将学习轨迹追踪和⾼风险考试

相结合、拓展⼈⼯智能技术的应⽤3个⽅⾯着⼒。为推动中国测试品牌⾛向世界,应注重培养跨

学科复合型测试⼈才,积极⿎励和扶持民间测试机构参与发展测试⾏业,制定适合中国国情的

测试标准。

关键词

教育考试;⾼风险考试;过程评价;测试机构;测试标准;测试⼈才

正⽂

2021年,中国将进⼊“⼗四五”时期,⽬前各⾏各业都在制订“⼗四五”发展规划。笔者作为⼀

个长期从事国际测试研究的专业⼈员,受《中国考试》杂志的邀请,深⼊思考了中国教育考试

的发展⽅向、测试⾏业的发展趋势,以及如何提⾼专业测试⼈员的素养等问题,并就此提出⼀

些设想和建议,供中国测试界的同⾏参考和讨论。

1

中国教育考试的发展⽅向

基于对中国教育考试评价的了解,对中国教育考试的未来发展⽅向提出以下3点建议。

1.1 研发不同⽤途的测评

⽬前,中国⼤规模、⾼风险的终结性教育评价⽐较普遍,⽐如中考、⾼考、研究⽣考试

等。2020年推出的《深化新时代教育评价改⾰总体⽅案》提出“改进结果评价,强化过程评价,

探索增值评价,健全综合评价”。这⼀要求表明,中国的教育评价改⾰在继续提⾼终结性评价质

量的基础上,还要对过程评价、增值评价和综合评价给予更多的重视。现阶段中国低风险的过

程评价主要由授课教师开发、实施和使⽤,对那些与教学⼤纲结合相对紧密的科⽬来说,在教

学环境中使⽤教师⾃⼰开发的测评⾮常可取,但需要注意的是,开发测评的教师要具备⼀定的

测评知识和较⾼的专业素养,这样才能有效地使⽤过程评价的结果反馈来指导教学。对⼀些能

⼒测试⽽⾔,如语⾔能⼒和软技能等,由教师和第三⽅专业测评公司合作开发过程评价,进⽽

推⼴使⽤,也不失为⼀条有效的路径。这样既可以利⽤授课教师的学科专业素养及对学⽣⽐较

了解的优势,也可以依托测评公司的测试专业化推出更加有效的过程评价。

1.2 将学习轨迹追踪和⾼风险考试相结合

随着科技在电⼦教育学习产品中越来越⼴泛的使⽤,在学习过程中追踪学⽣的知识拓展和

能⼒提⾼成为可能。关于在学习中嵌⼊测评是否能取代⾼风险考试的问题,测评领域有2种不同

的观点:⼀种观点认为,学习和测试的边界将越来越模糊,直⾄电⼦学习产品中嵌⼊的由⼈⼯

智能辅助或驱动的测评可以不断地提供积累叠加的证据,并完全取代标准化⾼风险考试

[1]

;另

⼀种观点认为,⾼风险考试和形成性评价⽬的不同,考试内容和形式存在⼀定差异,因此⼆者

不能混为⼀谈,有必要并存

[2]

学习轨迹的追踪与⾼风险考试有如下区别:第⼀,学习轨迹的追踪在提取信息的公平性和

可⽐性⽅⾯⾯临挑战。⾼风险考试具备标准化考试的优势,即对所有考⽣⽽⾔,考试内容相同

或类似,考试形式、过程都有严格的质量控制,从⽽保证考试结果的效度、信度、公平性,以

及基于考试成绩的⾼风险决策的公平性。第⼆,学习和测试的⽬的不同,学⽣使⽤的策略也不

同。学习过程中,教师会⿎励学⽣冒险、试错、探索不同的解题途径;⽽参加⾼风险考试,学

⽣的⾸要⽬的是在规定的考试时间内最⼤程度地展现⾃⾝的知识和能⼒,以取得最好的成

[2]

。第三,学习过程中的测评和⾼风险考试所考查的知识和技能的侧重点不同,颗粒度或称

细分度通常也不同。在标准化考试中,由于考试的时间长度和可⾏性的限制,以及基于信度、

效度和考试公平性等⽅⾯的考虑,往往不会考查太细分的知识和技能,⽽且有些技能也难以⽤

标准化的形式测评;学习过程中的测评则可以侧重⽐较细分的知识点和技能,以及⽐较难测的

技能,如团队合作精神和创造性思维等。如果学习过程的测评和⾼风险考试所使⽤的知识能⼒

框架结构不同,⼆者不能联系起来,那么把这2类测评信息结合起来使⽤的难度就⾮常⼤。

尽管存在上述挑战,学习过程中的测评如果按照相对标准的知识能⼒框架严格精⼼地设

计,就可以具备标准化考试⽆法提供的优势。RandyBennett认为学习中的测评有2类:第⼀类

是随意的、连续的、与某个特定的教学⼤纲完全吻合的测评,第⼆类是严格设计的、在规定频

率下使⽤的、与特定教学⼤纲不完全吻合的测评

[2]

。笔者认为:第⼀类测评可以⽤在特定的教

学环境中,为教学和学习提供反馈信息,除考查传统的知识技能外,还可以考查解题思路、创

造性思维、参与程度和团队合作精神等。这类测评还可以描画出学⽣的学习习惯和耐⼒,以及

基于特定教学⼤纲的进步轨迹。第⼆类测评则有可能与⾼风险考试结合使⽤,动态追踪学⽣的

进步轨迹,以及预测学⽣未来的发展潜能。但是,使⽤第⼆类测评,要解决的⾸要问题是为各

个科⽬建⽴统⼀的知识能⼒框架,包括粗放的以及细分的知识能⼒,并阐述它们之间的关系和

发展轨迹,从⽽对学习过程中的测评和标准化考试起到指导作⽤,如中国英语能⼒等级量表

(China’sStandardsofEnglishLanguageAbility)

[3]

和欧洲共同语⾔框架(Common

EuropeanFrameworkofReferenceforLanguages:Learning,Teaching,Asssment)[4]

都对

不同级别的语⾔能⼒⽔平进⾏了框架性的描述,可以⽤来指导语⾔⽔平考试的设计和开发。基

于能⼒⽔平框架开发的更细分的知识能⼒描述可以帮助我们设计更好的学习过程测评。其次,

要加强对学习轨迹的描述和发展潜⼒的预测的信度、效度及公平性研究,建⽴适合学习轨迹的

理论框架。此外,还要开展学习环境、学⽣背景和成长轨迹之间关系的研究,由此才可以对学

⽣进步的轨迹和发展潜能有更准确的诠释。

学习轨迹追踪和⾼风险考试相结合,可以从学习过程中的测评和标准化考试中提取不同类

别的证据,学习过程中的测评侧重测量学⽣的动态成长和发展潜能,⽽标准化考试则主要考查

学⽣在某⼀特定阶段的整体⽔平。近年来,中国的互联⽹技术、⼈⼯智能技术、数字化教学和

学习的发展迅速,为学习过程中的测评提供了可能。运⽤电⼦档案追踪学⽣的学习轨迹

[5]

,并

研究如何与⼀次性考试相结合,不仅能测试学⽣在某⼀个时间点的⽔平,⽽且能描画出学⽣的

学习习惯和耐⼒、进步轨迹及进步空间。在作⾼风险决定时,综合考虑学习过程中的测评信息

和标准化考试成绩将会⽇渐成为测试界具有变⾰意义的共识,具体⽽⾔,就是以标准化考试提

供的信息为主,以学习过程测评为辅,在学⽣标准化考试成绩未达到但接近规定分数线时,可

以适当考虑学习过程测评中所反映出来的学⽣发展潜⼒,从⽽作出相对合理灵活的决定。

1.3 拓展⼈⼯智能技术的应⽤

⼈⼯智能技术在教育考试中的应⽤由来已久,特别是在⾃动评分领域的应⽤最为⼴泛,如

作⽂、⼝语及数学考试中都有很多使⽤⾃动评分系统的例⼦;但是,⽬前最好的作⽂⾃动评分

系统也只是⽤语法、词汇、拼写及简单的篇章分析来预测⼈⼯评分

[5]

,⼝语⾃动评分则基于发

⾳、流利程度、词汇、语法等⽐较浅层的分析。现阶段⽤⼈⼯智能技术评阅作⽂和⼝语的篇章

结构、内容和连贯性的挑战相当⼤

[6]

;⾃动批阅其他科⽬(如科学)的答题内容,⼈⼯智能技

术还停留在简单地核查陈述的正确性层⾯,复杂内容的⾃动分析技术还⾮常落后。

⼈⼯智能在测量模型领域也应⽤已久,如IRT测量模型最初应⽤在⾃适应考试中,然后被应

⽤于⾃适应学习系统中。在命题⽅⾯,⼈⼯智能技术普遍应⽤在数学测试和语⾔的低级技能

(如词汇、语法等)测试中,⽽对⼀些较复杂的题型⽬前还没有成熟到可以⽀持⾃动命题。研

究者普遍认为,在语⾔测试领域,可以有所突破的⼀个⽅⾯是使⽤⼈机交互系统⽀持考⽣和机

器对话。⼈机交互系统在⼝语测试中的使⽤已有很多研究

[7]

,但⽬前都还不够成熟,不能运⽤

到⼤规模标准化测试中,这是未来⼝语听⼒能⼒测试的⼀个重要发展⽅向。

在追踪测试中,⼈⼯智能技术在学⽣的应试⾏为及提供测试结果反馈⽅⾯的应⽤还不太

多,主要原因是⾃动反馈技术还不够成熟。在过程分析⽅⾯,使⽤键盘监控(keystroke

logging)技术,可以通过即时记录、回放学⽣写作⽂的过程,包括打字速度、句⼦编辑、段落

编辑和停顿等来分析或猜测学⽣的写作策略

[8]

;但是,有⼀些写作策略的分析还只是停留在猜

测层⾯,需要在学⽣写完后⽤访谈或其他形式进⼀步证实。在结果反馈⽅⾯,作⽂及限制性⼝

语的⾃动反馈技术发展的时间较长,也相对⽐较成熟

[5,9-11]

。但是,针对⼝语各个维度的分析

及开放式⼝语的反馈⽅⾯,⽬前的技术还不够成熟,尤其是在开放式⼝语中找出发⾳、语法和

⽤词错误等⽅⾯还⾯临很⼤挑战;此外,在分析作⽂和⼝语的篇章结构、语⽤和连贯性并提供

有⽤的反馈等⽅⾯,⼈⼯智能技术的局限性更⼤

[5-6,11]

。对这些技术的完善将是⼈⼯智能反馈

技术的发展⽅向。

2

测试⾏业的发展趋势

从科举考试开始,考试在中国教育的发展中⼀直发挥着重要作⽤,可以说考试是教学的风

向标。为了培养⾯向21世纪的⼈才,提⾼中国⼈才的全球竞争⼒,从考试改⾰⼊⼿带动教育其

他⽅⾯的变⾰是⼀个很好的切⼊点。笔者认为,建⽴专业的国际测试品牌是提⾼中国教育产业

国际竞争⼒的⼀条必经之路。为建⽴国际测试品牌,应该⿎励设⽴民间测试机构,成⽴民间测

试机构的会员联盟,以及制定业内共同遵守的测试⾏为准则。

2.1 ⿎励设⽴民间测试机构

⽬前中国⼤型教育类考试基本由教育部所属机构及各地教育考试院设计、开发及实施。第

三⽅考试多与国际教育相关,如SAT、ACT、TOEFL、IELTS等店铺考试,也有⼀些服务于中

国本⼟⽤途的考试,如剑桥少⼉英语考试、ETSHEIghten批判性思维能⼒考试等,这些考试都

是由国际知名测试机构,如美国⼤学理事会(CollegeBoard)、美国ACT公司、美国教育考试

服务中⼼(EducationalTestingService)、剑桥⼤学考试委员会(CambridgeAsssment)

及英国⽂化教育协会(BritishCouncil)等开发的。除官⽅及国际测试机构外,⽬前中国还没有

具有影响⼒的民间测试机构和测试品牌,这与中国教育考试长期由政府主导推⾏的传统密切相

关,也与国内专业测试⼈员的储备不⾜相关。相⽐之下,国际知名测试机构吸纳了来⾃世界各

地的尖端⼈才,⼈员专业素质普遍较⾼。通过建⽴民间测试机构招募全世界教育测试⼈才,不

仅可以满⾜中国国内考试需求,⽽且可以把测评推向海外,建⽴国际品牌;官⽅考试机构也可

以更积极地招募⼀些国际专家,利⽤国际团队补充⽬前国内⼈才建设和储备的短板,不断提⾼

本⼟测试⼈员的专业⽔平和国际视野。官⽅考试机构可以集中⼒量承办公⽴学校的中考、⾼

考、研究⽣考试等与国家教育政策紧密相关的考试,对私⽴学校、民办学校和⼀些教育机构使

⽤的考试、社会化考试及低风险测评则可以放开,⿎励民间测试机构参与良性竞争,以促进测

试⾏业的发展。

⽬前,民间测试机构或技术公司给政府提供的服务⼤多集中在技术平台的设计、承建、维

护及⼈⼯智能技术的⽀持等领域。随着民间测试机构的发展,政府可以加强与其在考试设计、

命题、评分和数据分析等⽅⾯的合作;同时,通过对其服务进⾏监控以保证考试质量。在海

外,政府和教育部门主要采取公开竞标的⽅式选择第三⽅测试公司的服务,政府和教育部门所

属专业测试⼈员的主要任务是制定标准、明确服务范畴、提供详细的说明,并指导验收⼯作。

这样既可以⿎励⾏业竞争,也可以⾼效低成本地使⽤第三⽅公司的专业⼈员,通过项⽬监管验

收保证考试质量。

2.2 成⽴民间测试机构的会员联盟

⿎励民间测试机构发展可以促进测试领域的发展和繁荣,但如果没有监管就可能造成鱼龙

混杂的状态。很多测试都具有⾼风险性,如果不能保证质量,就会影响考⽣的升学、就业乃⾄

升职,损害他们的利益。尤其需要指出的是,⽬前⼤多数分数使⽤⽤户和教师的评价素养偏

低,对测试使⽤的信度和效度要求以及反拨作⽤了解不够。在这种情况下,如果没有⾏业规

范,则可能造成质量差的测评充斥市场,或导致对测评的滥⽤。

成⽴民间测试机构的会员联盟,对测试⾏业进⾏⼀定的监管可以起到规范⾏业⾏为的作

⽤。会员联盟可以是⼀个相对灵活的组织,由专业⼈员对⼊会机构的从业⼈员资质进⾏审核,

以保证⼈员配备的专业化达到⼀定标准。这些加⼊会员的机构也应该在测试设计、开发及使⽤

时⾃觉地遵循国际通⽤测试⾏业标准(如美国《教育与⼼理测量标准》

[12]

),并通⼒合作开发

适合中国国情的测试标准以供成员机构遵循

[13]

3

测试⼈才培养

中国教育测评领域的发展离不开⼈才,为此需要花⼤⼒⽓培养专业的测试⼈才。

3.1 开设实践性测试研究⽅向的硕⼠⽣培养项⽬

⽬前,中国⾼校开设教育测评研究⽅向的研究⽣项⽬不仅数量少,⽽且偏重理论研究。根

据语⾔测试领域的专家调研,中国⾼校语⾔测试研究⽣项⽬中有关命题实践和测试社会影响⼒

等⽅⾯的课程设置⾮常少

[14]

。⼀⽅⾯,通过研究⽣项⽬培养的测试及统计专业⼈才偏重理论、

⽅法论和研究,对考试实践知之甚少,如考试框架设计和命题,评分标准设计及验证,针对不

同⽤途考试的分数标尺如何设⽴,各种分数计算模型如何构建,整套试卷的综合难度和区分度

如何控制,单个试题质量如何分析,等等;另⼀⽅⾯,教育考试机构聘请的命题和考后评卷⼈

员以教师为主,这些教师很少有⼈接受过专业的测试理论和技术培训。这2⽅⾯因素导致中国测

试领域⼈才紧缺。为此,笔者建议⾼校的测试学硕⼠⽣培养应侧重于学科的实践性,重点开设

测试学研究⽅向,设置考试设计、考试命题、评分标准设计及验证、考试测量模型、考试数据

分析、考务管理及⼈⼯智能技术评估等相对实⽤的课程,从⽽帮助考试机构培养和储备专业测

试⼈才,助⼒中国的测试⾏业实现科学化、专业化,增强国际竞争⼒。博⼠⽣培养项⽬可以注

重于理论研究,以保证测试领域基础学科的长期发展。此外,建议在博⼠⽣和硕⼠⽣培养项⽬

中设置测试社会责任学

[9]

、测试与教育改⾰等课程,这样可以影响并⿎励测试⼈员跳出技术与

内容的舒适圈,依托其专业背景,积极参与教育改⾰和教育政策的制定,推动测试公平合理的

使⽤,增加测试专业⼈员在重⼤教育决策中的话语权。

3.2 培养跨学科测试复合型⼈才

由于受到科技及交叉学科的深度影响,测试⾏业需要⼤⼒培养教育、科技、认知科学和脑

神经科学等领域的复合型⼈才,以保证科技及其他影响教育的⾏业对教育的推动作⽤实现最⼤

化。举例说明,⽬前全球通晓测试和⼈⼯智能的复合型⼈才⾮常稀缺,如果懂测试的⼈员缺乏

⼈⼯智能技术知识,就不利于其与⼈⼯智能技术专家的深度合作,并妨碍其对技术的使⽤作出

正确判断;反之,⼈⼯智能技术专业⼈才如果不具备教育测试背景知识,就不能抓住教育测试

领域⼈⼯智能运⽤的需求和痛点,⼈⼯智能技术就不能被合理运⽤于测试领域。⾼深晦涩的⼈

⼯智能领域有可能让教育领域⽤户对⼈⼯智能望⽽却步,也有可能不加批判地全盘接受。由计

算机/电⼦⼯程系和教育系联合培养教育领域⼈⼯智能综合性⼈才,不仅能保证教育⼈⼯智能技

术的飞速发展,⽽且有利于⼈⼯智能公司和⽤户之间进⾏更加良性、积极、有效的沟通,⿎励

⽤户合理地使⽤⼈⼯智能教育测试产品。因此,加强跨学科测试复合型⼈才的培养已成为当务

之急。此外,在跨学科测试复合型⼈才尚未培养出来之前,可以全职或兼职聘请教育测试⼈⼯

智能领域既有理论背景⼜有深厚实践经验的国际知名专家,这样也可以快速提升中国教育测试

领域的整体实⼒。

4

结束语

建设⾼质量教育体系是中国未来5年对教育提出的要求,教育考试作为⾼质量教育体系的重

要组成部分,也应在提⾼质量上下功夫。我们要把握住教育测试的未来发展趋势,注重培养跨

学科复合型测试⼈才,积极⿎励和扶持民间测试机构参与发展测试⾏业,建⽴具有国际竞争⼒

的测试品牌,推动中国的测试⾛向世界。

参考⽂献

本文发布于:2022-12-29 16:24:32,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/90/54177.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图