首页 > 英文翻译

comet

更新时间:2022-12-26 14:23:06 阅读：评论：0

2022年12月26日发(作者：大陆架振荡器)

德国COMET评分量表在我国应用的多面Rasch模型分析

何兴国;赵志群;何壮

【摘要】德国COMET评分量表是职业能力测评的重要评价工具,其蕴含着设计导

向的职业教育思想和综合职业能力的人才培养目标,对我国职业教育评价及改革都

具有重要借鉴意义.运用项目反应理论之多面Rasch模型,对COMET评分量表在我

国学生职业能力测评中的适用性进行了分析.结果表明:COMET评分量表总体区分

度较高,能够有效地区分我国职业教育背景下的学生职业能力水平;我国学生对

COMET评分量表部分项目存在着不适应现象,部分学生答题行为内部一致性较差;

我国教师对COMET评分量表宽严尺度把握内部一致性较好,但不同评分教师个体

之间的宽严程度还存在差异;评分教师与评分项目交互作用也存在一些显著偏差.

【期刊名称】《职业技术教育》

【年(卷),期】2016(037)025

【总页数】6页(P69-74)

【关键词】COMET评分量表;多面Rasch模型;项目分析;职业能力测评;职业院校

【作者】何兴国;赵志群;何壮

【作者单位】北京师范大学教育学部北京,100875;北京师范大学职业与成人研究

所北京,100875;北京师范大学教育学部北京,100875

【正文语种】中文

【中图分类】G719.516

起源于德国的职业教育学生职业能力测评国际研究项目（Competence

DevelopmentandAsssmentinTVET，COMET），对职业能力的理解超越了

行为主义和一般个性特征的能力观，将其理解为专业能力、方法能力和社会能力相

统一，行动过程和行动结果相统一的综合职业能力，其以设计导向职业教育思想、

行动导向教学、工作过程知识等先进的职业教育理论为基础，构建了跨职业领域的

职业能力测评模型[1]。COMET项目于2008年对德国不莱梅州和黑森州9所职

业学校700名学生进行了大规模标准化职业能力测评，为职业院校学生职业能力

测评提供了新的视角和方法，被认为是职业教育领域的“PISA”项目，得到了国

际社会的广泛关注[2]。2009年以来，北京师范大学在国际合作项目中引入

COMET测评方案，在北京、广州、重庆等地多次开展学生职业能力测评实践，为

我国职业院校学生职业能力评估提供了新的方法，也为我国职业教育质量保障提供

了有效的工具[3]。

COMET评分量表是职业能力测评的重要评价工具，其蕴含和体现了德国设计导向

的职业教育思想和综合职业能力的人才培养目标。即培养的职业人才不仅要具有技

术适应能力，而且更重要的是应对能力，本着对社会、经济和环境负责的态度，参

与设计和创造未来的技术和劳动世界；具有专业能力、方法能力和社会能力相统一

的整体性综合职业能力，即在复杂的职业情境中做出判断并采取行动的职业能力。

正是以此思想为指导和目标，COMET评分量表建立了八个评价维度的评价体系，

以评估学生职业能力轮廓和职业能力水平。一是“直观性与可展示性”，即通过语

言或文字描述，利用图纸条理清晰、结构合理地向委托方展示解决方案以及完成工

作任务后的结果。二是“功能性”，即工具性的专业能力、与具体情境无关的学科

知识以及专业技能。三是“使用价值导向”，即以职业为导向，除满足用户直接使

用要求外，还要考虑后期保养和维修的便利性。四是“经济性”，即在工作行动中，

需要估算经济性并考虑各种成本因素，并考虑未来可能产生的使用成本。五是“生

产流程与工作过程导向”，即考虑企业的上下级结构以及不同生产部门之间的衔接，

考虑跨越每个人工作领域的部门间合作。六是“社会接受度”，即人性化的工作设

计与组织、健康保护以及其他超越工作本身的社会因素，例如委托方、客户和社会

的不同利益。七是“环保性”，即不仅指一般的环保意识，而且针对生产过程和生

产结果提出的特定要求，使用了对环境无害的材料，以及完成工作的计划多大程度

上符合环保要求。八是“创造性”，即在特定情境下为完成任务预留的高度设计空

间，解决方案在满足创造性要求的同时要有助于目标的实现。COMET评分量表的

八个评价维度充分体现了设计导向的职业教育思想和综合职业能力目标，并进一步

细化为39个评分项目，见表1，每个项目评分采用0～3分的李克特四级计分，

依次为“完全不符合”“基本不符合”“基本符合”“完全符合”[4]。

COMET评分量表是在德国职业教育文化中开发出来并得到实证检验，引进

COMET评分量表对我国开展学生职业能力测评和教学改革都具有重要的现实意义。

然而，基于不同的职业教育理念和文化背景，COMET评分量表在我国应用中的适

应性还有待研究。本研究将通过COMET测评方案下的我国职业院校学生职业能

力测评实践，探讨COMET评分量表在我国的适用性，具体包括COMET评分量

表的区分性、学生答题行为一致性、评分教师之间的一致性、评分教师内部一致性、

评分教师与评分项目的交互作用等问题。

（一）数据来源

本次研究所使用的是重庆市2014年6月中等职业学校汽车运用与维修专业学生职

业能力监测数据。测评工作由重庆市教育评估院统一组织实施，共抽取25所学校

的786名2012级在校学生参与测评。选择2012级学生，原因在于2012级学生

经过两年的专业学习，处于职业能力发展的关键时期，了解其职业能力现状对检验

教学效果及进一步改进教学均具有重要的现实意义。

根据COMET测评方案，本次测评开发并使用了基于该专业典型工作任务的综合

测评工具：“发动机水温高排故”。共有16位教师参与评分，每份试卷由随机2

位教师评定。评分教师接受了评分培训，根据COMET评分量表的39个项目进行

评分。

（二）研究工具

多面Rasch模型（Many-FacetedRaschModel,MFRM）是项目反应理论模型

之一，可以将学生职业能力、评分教师宽严程度、评分项目难度、评分等级梯难度

等放在同一等距水平的Logit标尺上进行精确度量，计算每个度量值的估算误差、

拟合程度以及各层面的交互作用，为评分量表以及测验质量分析提供了更加客观的

视角。因此，研究选取该模型进行参数估计，建立了以下分析模型：

其中，Pnijk是学生n由评分员j在项目i上评为k分的概率，Pnij(k-1)为其他条

件相同情况下该学生被评为k-1分的概率。这一概率受到考生能力Bn、评分项目

难度Di、评分教师宽严程度Cj和评分量表中各得分梯难度Fk的影响（由K-1到

K的相对难度）。

本研究采用SPSS22对收集到的原始数据进行管理，使用Facets3.70软件，选

择多面Rasch模型（Many-FacetRaschModel,MFRM）进行参数估计，结果

主要包括学生职业能力、测量误差、拟合指数、项目难度、等级量表梯难度、各面

之间的交互作用等。

（一）总体分析

图1显示了各层面的总体分布情况。图左侧第一列为Rasch量尺，以Logit为单

位。分析中将评分项目的平均难度设定为Rasch量尺的零点。第二列至第五列分

别为学生面、评分项目面、评分教师面和评分量表等级面。

从学生面来看，学生职业能力跨度为5.38个Logit单位，职业能力最高值为1.02，

最低值为-4.26。学生职业能力集中在[-1,0]区间内，占总人数的71.5%。学生职

业能力平均值为-1.13，低于评分项目平均难度值0。

从评分教师面来看，16名评分教师中评分最严格的是5号教师，评分最宽松的是

11号教师。教师评分的宽严程度相差在1.26个Logit单位以内。

从评分项目面来看，评分项目难度的跨度为5.7个Logit单位，评分项目难度分布

合理，“环保性”的评分项目32（考虑到环境友好的工作设计）难度值最高，这

表明该项目的完成对学生职业能力要求高，只有职业能力值达到该项目难度（3.22）

的学生才可能胜任该项目。“直观性与可展示性”的评分项目2（恰当表述解决方

案）、“功能性”的评分项目6（解决方案满足功能性要求）难度值最低，这表明

该项目的完成对学生职业能力要求最低，只要职业能力达到对应难度的学生就可以

胜任该项目。

从评分量表等级面来看，在分值使用方面，各分值与临近分值之间的界限清楚，且

相邻几个等级区间的宽度分布比较均匀，见图2，不存在等级倒置（disorder[5]）

的现象。

（二）分层面分析

1.学生面

Rasch模型中以分隔系数（Separation）和分隔信度（Reliability）来衡量某一层

面个体之间的差异是否大于测量误差[6]。分隔系数大于2时说明个体之间存在较

大差异，分隔系数越大则个体间差异越显著。学生面分析结果显示，分隔系数为

3.06、分隔信度为0.90、卡方值为7770.7（p＜0.01），这说明学生职业能力存

在显著差异。分隔指数（Strata）代表了量表将该层面内个体分成有显著差异的

等级数，可根据分隔信度计算得到，计算公式为（4·Separation+1）/3[7]。经计

算可得学生层面的分隔指数为4.41，即学生职业能力可分为5个显著不同的层次，

这表明COMET评分量表可以有效区分不同职业能力水平的学生。

Rasch模型中最常用的拟合参数为加权均方差（InfitMNSQ）和未加权均方差

（OutfitMNSQ）。两个参数取值范围在[0,+∞]之间，理想值为1。拟合参数大

于1称为不拟合（underfit），即数据的实际变异大于模型的预期，当高能力学生

答错了简单项目或低能力学生答对了高难度项目时会出现不拟合的情况。拟合参数

小于1称为过度拟合（overfit），即数据的实际变异小于模型的预期[8]。当项目

难度分布太偏向两个极端，即项目分为太难和太容易的两大类，中等能力的学生全

部答对了简单题目，全部答不出难的题目时就会出现过度拟合。拟合参数的取值一

般在[0.7,1.3]之间[9]，每个面中不拟合的个体数量一般应在5%以下[10]。从此次

测评的学生拟合参数来看，InfitMNSQ值大于1.3的比例为16%，Outfit

MNSQ的相应比例为17%，明显高于5%的要求。这说明部分学生答题行为内部

一致性较差，进一步调查发现，当前中职课程教学活动中教育者更多关注技术的功

能性传授，缺乏对技术所涉及的社会和环境问题的关注，这可能导致学生在难度中

等的技术的功能性、经济性评分项目表现较好，而在难度较低的直观性与可展示性

评分项目，以及难度较高的环保性、社会接受度评分项目上表现过低。这就是中国

职业教育理念下学生对COMET评分量表部分项目存在的不适应现象。

2.评分教师面

评分教师面的分析结果显示，分隔系数为8.57、分隔信度为0.99、卡方值为

1177.4（p＜0.01），说明教师之间的宽严程度存在着显著差异。计算可得教师面

的分隔指数为11.76，亦即教师之间打分的宽严程度可以分为12个显著不同的层

次，这说明评分教师外部一致性不佳。

从拟合参数来看，仅有5号教师出现不拟合，其OutfitMNSQ值为1.31，非常

接近1.3的拟合标准，这表明教师在评分时都能保持较高的内部一致性。总体来说

评分教师个体评分素质较高、经验丰富，经过评分培训，能够保持较高的内部一致

性。但是不同教师之间，对COMET评分量表的整体理解和把握还存在着一定的

差异，特别是表现在评分过程中不同评分教师个体之间的宽严程度存在较大差异。

3.评分项目面

评分项目面分析结果显示，分隔系数为7.17、分隔信度为0.98、卡方值为

26361.3（p＜0.001），说明评分项目之间的难度存在着显著差异。计算可得分隔

指数为9.89，亦即项目难度可以分为10个显著不同的层次。这也充分表明

COMET评分量表区分度较高，能够有效地区分不同能力水平的学生。从拟合参数

估计结果可以看出，大多数项目的OutfitMNSQ和InfitMNSQ参数都在0.7～

1.3的可接受范围之内，拟合效果良好，仅“直观性与可展示性”的评分项目1

（方案表述适合与委托方沟通）和“环保性”的评分项目31（考虑到所用材料符

合环境可持续发展的要求）出现不拟合的情况，其OutfitMNSQ和InfitMNSQ

参数分别为1.46、1.45和1.42、1.19，即在这两个评分项目上，出现了高能力学

生得低分，或低能力学生得高分的现象。原因可能在于，我国职业教育理念下的学

生对于这两个评分项目的敏感性不强，在答题过程中无意或潜意识行为较多，因而

出现了不拟合现象，这也说明这两个评分项目不能有效区分我国职业教育背景下的

学生职业能力。

4.评分等级面

图2为各评分等级的概率曲线图，图中每条曲线对应一个分值。从左至右依次为0、

1、2、3。横轴为能力量尺，纵轴为概率。图中相邻两个分数的交点就是量表的阈

值（Thresholds）。从左至右三个交点分别对应三个阈值：-3.48、-0.07和3.54。

由于能力越高的学生获得高分数的概率应当更大，所以梯难度应当呈递增趋势。数

据分析结果表明，COMET评分量表不存在低分梯难度高于高分梯难度的等级倒置

现象[11]。同时三个阈值将整个Rasch能力量尺划分为四个能力区间，每个能力

区间对应一条概率曲线的峰值，在此能力区间内的学生最容易得相应得分值。例如

代表1分的概率曲线峰值对应的能力区间为[-3.48,-0.07]，所以能力在此区间内的

学生得1分的可能性最高。两端的区间可以延伸到无穷大或无穷小，中间两个区

间的跨度为3.41和3.61。Rasch理论认为，这一区间的理想宽度为1个Logit，

最大不超过4个Logit单位[12]。本次研究中COMET评分量表的两个区间分布比

较平均，宽度都在4Logit以内，没有出现某一区间过大或过小的现象。此外，四

个分数等级的拟合参数在[0.9,1.2]之间，不存在不拟合或过度拟合。综合评分等级

面的统计结果，说明COMET测评的评分等级方案设计合理，可以有效区分不同

能力水平的我国职校学生。

5.教师与评分项目交互作用的偏差分析

评分教师的Infit和Outfit参数表明了教师评分的自身一致性程度。对教师与评分

项目的交互作用分析，可以进一步了解中国教师在特定评分项目上的一致性程度。

多面Rasch模型中以Z值的大小来判定交互作用的大小，一般认为|Z|＞2时存在

显著偏差，显著偏差占项目比例在5%以内为可接受范围。当Z值大于2时说明该

教师对此学生打分显著严格；相反，当Z值小于-2时说明该教师对此学生打分显

著宽松。

教师与评分项目的交互分析表明，实验偏差项目共有624个，其中显著偏差项目

272个，占43.59%。其中，偏差超过10个的评分项目有“直观性与可展示性”

的评分项目1（方案表述适合与委托方沟通），“功能性”的评分项目7（考虑到

当前先进技术）、项目9（从职业活动角度说明解决方案）和项目10（所表述和

解释的方案正确），“使用价值导向性”的评分项目12（方案考虑到使用的持久

性和功能扩展的可能性）。这表明评分教师在评价这些项目时与其他项目的尺度不

一致，其原因一方面在于教师自身偏好等因素，另一方面也在于这些项目内涵难以

把握，例如界定方案表述的适合性，从职业活动的角度说明方案，使用价值的持久

性和功能的可扩展性等。这也提示应增进和统一评分教师对这些项目在我国职业教

育背景下内涵的理解，特别应进一步贯彻“职业教育的学习内容是工作”的职业教

育理念，增进教师对职业教育内容的“职业性”理解，而不仅仅是从狭义的“技术”

角度理解学习内容。

运用现代教育测量项目反应理论的多面Rasch模型分析，对COMET评分量表在

中国的适用性研究有以下发现：

COMET评分量表总体区分度较高，能够有效地区分我国职业教育背景下的学生职

业能力水平。评分项目难度差异显著，区分性强；评分等级设置合理，不存在低分

阈值高于高分阈值的等级倒置现象。

我国职业院校学生对COMET评分量表的个别项目还存在不适应现象，部分学生

答题行为存在内部一致性较差现象，主要表现在“直观性与可展示性”的评分项目

1（方案表述适合与委托方沟通）和“环保性”的评分项目31（考虑到所用材料

符合环境可持续发展的要求）等方面。其原因在于我国职业教育实践界多持行为主

义职业能力观，重视技术的功能性教学，而忽视了技术的环保性、社会接受度和顾

客导向等方面的培养，学生对这些评分项目的敏感性不强。这提示我国职业教育应

进一步建立设计导向的职业教育思想和综合职业能力目标，不仅要培养学生对技术

的功能性意识与能力，还要培养学生对于技术的环保性、社会授受度和顾客导向等

的意识和能力，也就是对技术的社会性设计的能力。

我国职业教育教师对COMET评分量表宽严尺度把握内部一致性较好，但不同评

分教师个体之间的宽严程度还存在着较大差异。交互作用分析发现，教师个体之间

的评分宽严程度差异突出表现在“直观性与可展示性”的评分项目1（方案表述适

合与委托方沟通），“功能性”的评分项目7（考虑到当前先进技术）、项目9

（从职业活动角度说明解决方案）和项目10（所表述和解释的方案正确），“使

用价值导向性”的评分项目12（方案考虑到使用的持久性和功能扩展的可能性）

等方面。这也表明，应加强我国教师对职业教育本质内涵的理解：职业教育的学习

内容是工作，而不仅仅是从狭义的无任何社会关联的“技术”，进一步增进和统一

评分教师对项目评价尺度的把握。

参考文献

[1][4]RaunerF,enceDevelopmentandAsssment

inTVET(COMET)[M].Springer,2013:47-50.

[2]FischerM,RaunerF,enzdiagnostikinderBeruflichen

Bildung-MethodenzumErfasnundEntwickelnberuflicherKompetenz:

COMETaufdemPrüfstand[M].Muenster:LIT,2014:2.

[3]赵志群，庄榕霞.职业院校学生职业能力测评研究[J].职教论坛,2013(3):4-7.

[5]zingRatingScaleCategoryEffectiveness[J].JAppl

Meas,2002,3(1):85-106.

[6]MyfordCM,ingandMeasuringRaterEffectsUsing

Many-facetRaschMeasurement:PartI[J].JournalofAppliedMeasurement,

2003,4(4):386-422.

[7]MyfordCM,ingandMeasuringRaterEffectsUsing

Many-facetRaschMeasurement:PartII[J].JournalofApplied

Measurement,2004,5(2):189-227.

[8]晏子.心理科学领域内的客观测量——Rasch模型之特点及发展趋势[J].心理科学

进展,2010(8):1298-1305.

[9]MokMMC,CheongCY,MoorePJ,elopmentand

ValidationoftheSelf-directedLearningScales(SLS).[J].JournalofApplied

Measurement,2006,7(4):418-449.

[10]张洁.PETS三级口语考试评分误差研究——结合定量统计和定性描述的方法

[J].外语测试与教学,2012(2):33-42.

[11]何壮，赵守盈.技能评分项目裁判员评分结果的多面Rasch模型分析——项目

反应理论在体育运动领域的应用[J].成都体育学院学报,2014(3):43-48.

[12]igatingRatingScaleCategoryUtility[J].Journalof

OutcomeMeasurement,1999,3(2):103-122

本文发布于:2022-12-26 14:23:06，感谢您对本站的认可！

本文链接：http://www.wtabcd.cn/fanwen/fan/90/34202.html

上一篇：牛奋男

下一篇：xiaonini

标签：comet

留言与评论（共有 0 条评论）