智能教学系统的评价与选择
贾积有 孟青泉
(北京大学 教育学院,北京 100871)
摘 要:本文在简要介绍智能教学系统概念的基础上,详细阐述了国际上常用的智能教学系统的评价方法,包括客观性的成绩评价方法和主观性的调查问卷评价方法。然后基于这些评价方法,以三个典型学科(数学、英语和语文)的智能教学系统为例,分析了选择智能教学系统时需要考虑的因素。关键词:智能教学系统;评价;选择;学科
中图分类号:G434 文献标志码:A 文章编号:2096-0069(2019)03-0001-09
一、概念简介
2016年12月六级答案人工智能技术在教育领域具有广泛应用[1],其中的一个重要领域就是智能教学系统。该概念的英文表达为Intelligent Tutoring System,简称ITS,在国内也被翻译作智能导学系统。我们认为,智能教学系统更能全面而准确地反映ITS 的内涵和外延。智能教学系统作为教育领域的专家系统,能够模仿人类教师或者助教,帮助学生学习某门学科、某个领域或者某个知识点的知识[2]。一个成功的智能教学系统应该像一个优秀教师或者助教那样,具有某个学科、领域或者知识点的专业知识,根据学生情况用合适的方式向学生展示或者讲解知识,通过作业、测验和考试等各种手段了解学生对知识的掌握程度,回答学生学习过程中产生的问题,也就是对学生进行个性化教学。所以说一个智能教学系统的智能程度,就是对优秀教师或者助教的模仿程度。
二、智能教学系统的评价方法
(一)客观性的学习效果评价
客观性的学习效果评价方式主要采用智能教学系统所涉及的教学领域的效果评估方法,比如教育科学研究中常用的准实验法。准实验法的研究对象通常有实验班或者实验组(下文称实验班)、对照班或
者对照组(下文称对照班)两组学生,前者使用某种智能教学系统进行学习,后者不使用智能教学系统进行学习,除此之外,两者没有其他区别。经过一段时间的教学实验后,以使用智能教学系统与否作为自变量,以使用者的学习成绩改善程度为因变量,考察因变量与自变量的关系,也就是考察使用智能教学系统是否会对使用者的学习成绩改善造成影响,以及影响程度有多大。
学习者的成绩改善程度的衡量,需要综合考虑教
收稿日期:2019-02-05
作者简介:贾积有(1969— ),男,河南获嘉人,北京大学教育学院教育技术系教授,博士生导师,北京大学教育信息化国际研究中心主任,研究方向为教育技术学和人工智能教育应用;孟青泉(1986— ),男,山西浑源人,北京大学教育学院教育技术系讲师,博士后,研究方向为人工智能教育应用
。
学实验前后的成绩变化。实验之前的成绩即前测反映了学习者的学习基础,实验之后的成绩即后测反映了学习者的学习成果。最理想的实验情况为,实验组和对照组的前测成绩没有统计意义上的显著性差异,而这种差异通常是通过独立样本学生T 检验或者F 检验(即方差分析或变异数分析,ANOVA, Analysis of Variance 的缩写)来检测的[3]。在这种前测无显著性差异的前提下,再对实验班和对照班
的后测进行独立样本学生T 检验。根据检验结果的概率p 值,检测结果可能有三种情况:(1)两个班的成绩无显著性差异(p >0.05)时,这表明智能教学系统相对于传统或者其他方法而言,对学生学习成绩没有显著影响;(2)两个班的成绩有显著性差异(p <0.05)、实验班成绩高于对照班时,这表明智能教学系统相对于传统或者其他方法而言,对学生学习成绩有显著正面影响;(3)两个班的成绩有显著性差异(p <0.05)、实验班成绩低于对照班时,这表明智能教学系统相对于传统或者其他方法而言,对学生学习成绩有显著负面影响。
后测中实验班和对照班的成绩差异可以用效果量(Effect Size,简称ES)来进行准确衡量。在国际文献中,效果量一般用一个无量纲的分数来表示,分子为实验班和对照班的平均成绩差,而分母则为一个合并后的标准差S pooled ,这个标准差如何计算,国际文献中存在一些差异。我们介绍常用的两种:Cohen’d [4][5][6]和Hedges’g [7]。
打烊读音Cohen’d 的计算公式为:
两个公式的细微差异仅仅在于分母上对混合的标准差的计算。不管怎样计算,两个班的平均成绩差异越大,班内的标准差越小,则效果量越大。
按照Cohen’d 来衡量,效果量如果是0.2左右,就是一个小的效果;如果是0.5左右,就是一个中等规模的效果;如果是0.8以上的话,就是一个大的效果。当然一个效果到底是小还是大,与检验背景等很
多因素紧密相关,就像Cohen(科恩)所强调的:所谓的小、中、大的概念都是相对而言的,不仅仅彼此之间,而且是针对行为科学领域,甚至是针对某个特定背景和研究手段而言。面对这种相对性,为这些术语提供传统的操作定义,以便在不同的研究领域如行为科学中用于效果分析,存在一定的风险。然而,这种风险是可以接受的,因为我们相信,通过提供一个通用的常规参考框架,可以获得比损失更多的收益。只有在没有更好地估计效果量的基础时,才建议使用该参考框架。[8]
Sawilowsky(萨维罗夫斯基)[9]在Cohen 对效果量的相对大小的评述基础上,进一步建议:效果量如果为0.01,那是非常小的,1.2是非常大的,2.0是巨大的。
lacoste怎么读不管怎么计算,效果量综合反映了实验班和对照班全体学生的成绩差异,因此在国际研究文献中经常被用来作为衡量某种教学方法效果大小的一个重要指标。因为分母反映的是标准差的大小,效果量的单位通常被称作标准差。
美国大学缩写
如果前测和后测考试内容相同,则实验组和对照组可以分别进行成对样本学生T 检验,检测每个组从前测到后测的变化幅度在统计意义上是否具有显著性。同前面的独立样本学生T 检验类似,检测结果也
是三种情况:无显著性差异;后测成绩显著高于前测成绩;前测成绩显著高于后测成绩。后测和前测的差
异大小也可以通过效果量的计算精确表示出来,只不过这时候的计算因为后测和前测样本相同而得到了简化,比如Cohen’d 中,因为前测和后测样本数相同,
n 1=n 2=n ,
Hedges’g 的计算公式为:
以上两个公式中的n 1和n 2分别为实验班和对照班的样本量,SD 1和SD 2分别为实验班和对照班的标准差。confidant
d =
S pooled =
Mean 1-Mean 2
S pooled
n 1*SD 12
+n 2*SD 2
2
n 1+n 2-2
Mean 1-Mean 2
S pooled
g =
(n 1-1)*SD 12+(n 2-1)*SD 22
n 1+n 2-2
S pooled =
n 1 (SD 12+SD 22)2 (n -1)
S pooled =
这样的问卷。
在评估智能教学系统模型的技术接受度方面,很多量表是对戴维斯技术接受度模型(Technology Acceptance Model,简称TAM)[10]的进一步发展和完善。这种模型认为,当用户面对一个计算机信息系统时,认知有用性和认知易用性是两个主要的决定因素。认知有用性(Perceived Ufulness,简称PU)是指用户在使用某一信息系统时,主观上认为其所带来的工作绩效的提升程度。认知易用性(Perceived Eaof U,简称PEOU)是指用户在使用某一信息系统时,主观上认为能为其省事、减少用心费神的程度。
在这方面,Hwang 等[11][12][13]所设计的“计算机支持的学习接受度调查问卷”可供参考。关于系统认知有用性的问题包括:我觉得使用这样的学习方式(或系统)让学习活动的内容更丰富;我觉得使用这样的学习方式(或系统)对我学习新知识很有帮助;这样的学习方式(或系统)所提供的学习机制让我的学习过程更为顺畅;这样的学习方式(或系统)可以帮助我在需要时获得有用的信息;这样的学习方式(或系统)可以让我学得更好;本次学习活动中,使用这样的学习方式(或系统)比一般的计算机辅助学习更有效果。关于系统认知易用性的问题包括:对我而言,学习这套系统的操作并不困难;我只花费短短的时间就完全学会这套系统的使用;使用这套系统所进行的学习活动是容易理解的;我很快便学会这套系统的操作方式;我觉得这套系统的接口是容易使用的;整体而言,本次学习活动所使用的系统是容易学习和使用的。
erp什么意思学习满意度方面可以参考Chu 等人的设计[14],内容包括:这次的学习任务,让我更理解学习内容;
这次的学习任务中,我努力学习观察事物的差异;这次的学习任务虽然不简单,但学习方式却不难理解;这种学习方式比以前的学习方式更具有挑战性和趣味性;使用这种方式学习,我可以获得一些新发现或新知识;这种方式学习能让我用新的方法或思考模式来学习;这种学习方式有助于我学习分辨事物的特性;这种学习方式有助于我运用新的角度观察事物。
学习动机方面可以参考Pintrich(佩尼奇)[15]和Wang & Chen [16]等所设计的调查问卷。关于内在动机
如果前测中实验班和对照班的差异在统计意义上是显著的,也就是说基础不同,那么在检验后测的差异时就必须考虑这种差异。这时候就要采用共变量分析(或称协方差分析,Analysis of Covariance, 简称ANCOVA)的方法来研究智能教学系统对学生成绩的影响。ANCOVA 在比较智能教学系统与其他方法的效果时,可以同时考虑或控制其他对学习效果有影响的自变量,使我们在相同的背景或基础上去比较不同教学方式的效果。而控制其他自变量对因变量的影响也是回归分析的基本功能,因此ANCOVA 可以说是结合了ANOVA 与回归分析的功能,排除了前测的差异,以更精确地分析两组或两组以上后测是否有显著性差异。
共变量分析需要满足三个基本前提条件。(1)常态性:即符合正态分布的要求;(2)独立性:量表的内部一致性信度或α值最好在0.8以上;(3)回归系数同构型:组内回归系数无显著差异。在满足这三个条件
之后,以学习方式(智能教学系统支持的教学或者其他教学方式)为自变量、学生学习前测成绩为共变量、学生的学习后测成绩为因变量,进行共变量分析。分析结果也与样本学生T 检验类似,分为三种情况:无显著性差异(p >0.05);智能教学系统的效果显著好于其他教学方式(p <0.05); 智能教学系统的效果显著差于其他教学方式(p <0.05)。当然,也可以用效果量来精确表示后测中实验班和对照班的差异量的大小。
(二)主观性的用户体验
主观性的用户体验主要通过调查问卷方式采集用户对智能教学系统的反馈数据,包括技术接受度、学习满意度、学习动机、学习态度、学习效能、认知负荷等多个维度。一般来说,调查问卷的每个条目都采用李克特5点或者7点量表,因而具有可计算性和可比性。与学习成绩的比较类似,可以在实验前后的实验班和对照班各测量一次,然后通过T 检验、F 检验或者共变量分析等方法来检测实验前后学生对于这些调查条目回答的变化,也就是学生用户体验的变化,以及这种变化在统计意义上是否显著。当然在检测之前,要检验问卷的信度和效度。最好采用经国内外广泛使用、信度和效度较高的调查问卷。下面介绍一些
的问题包括:在本课程中,我比较喜欢有挑战性的教材,因为这样我可以学到新的事物;在本课程中,我比较喜欢能引起我好奇心的教材,即使困难也无所谓;如果可以,我会选择能学到东西的课程,
feed是什么意思
戈尤即使分数不高也无所谓。关于外在动机的问题包括:在本课程中得到好成绩,对我来说是最满足的事情;如果可以,我希望能在本课程中得到比大多数学生要好的成绩;我希望在本课程中能有好的表现,因为在家人、朋友、老师或其他人面前展现我的能力是很重要的。
学习态度方面可以参考Hwang等人的工作[17][18][19],内容包括:我觉得学习这个课程是有趣而且有价值的;我想要学习更多且观察更多有关这个课程的内容;我觉得学习跟这个课程有关的事物是值得的;我觉得学好这个课程对我来说很重要;我觉得了解这个课程与生活环境之间的关系是重要的;我会主动搜寻更多信息来学习这个课程;我觉得学习这个课程对每个人来说都是重要的。
学习效能方面可以参考 Pintrich等[20]的设计。内容包括:我相信我可以在本课程中得到优异的成绩;我确信能理解本课程中最困难的部分;我自信能理解本课程所教授的基本观念;我自信能理解本课程中老师所教最复杂的部分;我自信能在本课程的作业和测验上表现优异;我预期能学好本课程;我确信能精通本课程所教授的技能;考虑本课程的难度、老师和我的能力,我觉得我可以学好本课程。
认知负荷方面可以参考Hwang等人[21][22][23]的设计。其中关于心智负荷也就是内容难度或任务的挑战性方面的问题包括:这个活动中的学习内容对我而言是困难的;我花了很大的心力,才能回答这个学习活动中的问题;回答这个活动中的问题令我感到困扰;我没有足够的时间来回答这个活动中的问题。关于心智努力也就是内容形式方面的问题包括:在这个学习活动中,教学方式或是教材内容的呈
现方式对我而言比较吃力;我必须投入许多心力来完成这个学习活动或是达成这个学习活动的目标;这个学习活动的教学方式于我来说很难理解或是跟上进度。
当然,在采用以上这些问卷评估某个智能教学系统时,可根据该系统和教学应用的具体情况修改、补充或者删除某些条目。修订后的问卷最好先在小范围测试后再应用到教学实验中。
三、智能教学系统的选择
(一)数学:“乐学一百”在线智能教学系统
当幸福来敲门高清下载
数学教学对于锻炼中小学生的逻辑思维至关重要,但是如何针对学生的特点进行个性化数学教学也是一个世界性的难题。“乐学一百”是一个专注于中小学数学等学科,为教师、学生和家长提供在线智能教学服务的个性化智能教学平台。在深入了解我国中小学教学改革的实际情况和研究数学领域知识模型的基础上,设计者采用自适应学习系统模型[24],运用学习科学的相关原理和技术,科学地设计了引导流程和步骤,让学生在自我探索的过程中高效地吸收知识,强化技能,优质高效地完成学习任务,达成高水平的学习目标。在个性化辅导方面,该系统将在线学习活动指数模型OLAI加入系统设计中[25][26],进一步提高其自适应程度,增强应用效果。基本设计理念包括如下三点:
1.个别自适应学习。自定步调:不规定统一的进度,学生根据自身情况确定学习内容和进度,教师基于强大的后台教学分析系统,针对不同学生给予全天候个别化指导。
2.渐进掌握式学习。小步闯关:将学科知识体系加以精细切分,成为学习时长15分钟左右的单元,并按照知识点间逻辑顺序、考试考查的能力以及学生认知规律编排。学生一个一个单元进行闯关学习,前一个单元达到规定的过关分数后,才能进入下一个单元,依此类推,直到完成所有单元通关。每题答完系统自动判断对错,答对之后才能进入下一题,既保护孩子自信心,又能系统扎实学习。
3.互动发现式学习。持续互动:把知识点转化成一个个层次递进的“问题”,向学生提问,刺激学生不断思考,由浅入深,由易到难,循序渐进。学生在逐一回答问题的过程中获得系统给予的“即时反馈”,正确的则继续前进,错误的可以查看系统提示或者在线请教老师后改正。学生逐一完成这些题目后,在课程的引导下自然而然地建构起彼此联系的知识体系。
在上述设计理念的指导下,“乐学一百”开发团
队研制并推出了基于云端的教学平台,该系统可以帮助教师方便快捷且有效地实施翻转课堂,帮助学生在课外以自己的进度学习,是一套较为成熟且面向用户实际需求的在线教学系统。从功能模块来看,“乐学一百”系统包括6个子系统(学生、教师、家长、课程、激励和分析)、3个核心数据库(学生、学材和行为)、1个互动学习引擎和1个智能推荐引擎。这些子系统、数据库和引擎相互依存和相互作用。
在内容方面,“乐学一百”覆盖了小学和初中数学所有单元,这些单元按照教学目标又针对每章知识系
统设计了引导、练习、强化、综合、测试、复习、挑战等12种单元类型。单元之间环环相扣,难度螺旋上升。这些学习单元由精细切割的知识点组成,从零基础到高难度层层递进、全部覆盖;将一个个互相关联的知识点问题化,这些问题互相关联,在合适的时机持续启发学生的思维。
“乐学一百”系统的智能性还表现在这几个方面。(1)答案智能判断:及时且正确的反馈是学生持续学习的关键,“乐学一百”的自适应引擎中已经实现了对初中阶段知识点的答案智能判断,使得学生学习过程一气呵成,思维连贯,成就感更强。(2)作图智能判断:通过 “做中学”的方法,智能判断引擎能够自动判断学生几何作图是否符合题目要求,学生不仅能够学习常规作图方法,更能创造性解决现有几何问题。(3)错题智能训练:系统自动收集学生所有错误的题目,并且全程记录每个题目曾经的错误答案,针对性加以强化练习。错题痕迹
全保留,自动生成错题单元。题目动态变化,可反复练习。
在激发学生学习动机方面,“乐学一百”设计了经验值、学分、乐币、礼品店、排行榜、通关勋章等激励手段。学生每做对一题都可获得经验值鼓励,过关加学分,乐币换礼品,从而体验成功的喜悦,逐步树立自信。家长还可加分表扬,鼓励孩子。
“乐学一百”系统自2013年上线以来,经过近10
hunny万用户的使用,其效果得到了验证。借鉴前面提到的客观成绩与主观性问卷相结合的评价方法,并辅之以学生访谈等定性研究方法,贾积有和张必兰等[27][28]对该系统的效果进行了较为严格的评估,考试成绩和调查问卷数据分析证明,运用该系统辅助教学的实验班成绩显著高于其他班级,学生和家长对“乐学一百”系统有较高的满意度。
(二)英语:“希赛可”智能英语教学系统
英语教学对于中小学生掌握英语这一世界上广泛应用的语言很重要。然而如何给学生提供个性化的语言环境,如何帮助学生从音、形、义三个方面掌握词汇,在我国中小学教学中是需要解决的重要问题。通过调研教师和学生在英语学习中的实际需求,我们研发了“希赛可”智能英语教学系统,包含词汇、对话、语法、
听力和阅读等基本内容,该系统(结构如图1所示)
图1 “希赛可”智能英语教学系统结构图
可以提供个性化、层次化、游戏化教学策略,具有课程、用户等数据统计分析的高级功能,充分体现以教师为主导、以学生为主体的指导思想,包含了从小学、中学到大学各个学段、多个教材版本的配套学习内容。
词汇是英语学习的基础,也是重点和难点。每个英文单词都有其拼写、发音和中文含义,这三者相互