Mar. 2021Vol. 34 No. 2
2021年3月 第34卷第2期
黑龙江生态工程职业学院学报
Journal of Heilongjiang Vocational Institute of Ecological Engineering
doi : 10.3969/j. issn. 1674-6341.2021.02.031
基于目标群体指数的大学生画像分析
任正东章骏腾任东晓
(浙江科技学院理学院/曙光大数据学院/大数据科学系,浙江杭州310023)
摘要:为了准确刻画不同成绩的学生群体画像以为高校管理提供决策支持,利用目标群体指数(TGI )对浙江
科技学院本科生、研究生、留学生的学生行为数据等教育大数据进行分析和研究,并从图书借阅情况、图书馆出入信 息、寝室出入情况、一卡通消费情况等方面针对不同成绩的学生群体进行详细画像。研究
结果显示:成绩优异的学
生群体倾向于借更多的书、早起、长期按时吃早餐和低频的超市消费;成绩较差的学生群体则倾向于借较少的书、长
期晚起、不吃早饭和高频的超市消费,且喜爱使用研修室,通常仅在考前冲刺。研究结果可为学生学业指导、学业及
时预警、个性化推荐等提供数据支撑。
关键词:教育大数据;学生群体画像;目标群体指数;学生行为
太空绘画中图分类号:G643 文献标识码:A 文章编号:1674-6341(2021)02-0113-04
Portrait Analysis of College Students bad on Target Group Index
REN Zheng-dong, ZHANG Jun-teng, REN Dong-xiao
(Zhejiang University of Science and Technology , Hangzhou 310023, China)
Abstract : In order to accurately portray the student groups with different grades to provide d
ecision support for universi
ty management , the target group index (TGI) is ud to analyze and study the education big data, such as the student be havior data of undergraduates , postgraduates and international students in Zhejiang University of Science and Technology U-
niversity , and from the aspects of book borrowing , library access information , dormitory access , card consumption , the
students of different grades are described in detail. The results show that the high achievers tend to borrow more books , get
up early, eat breakfast on time for a long time and low-frequency supermarket consumption ; the low achievers tend to bor row less books , get up late for a long time, skip breakfast and high-frequency supermarket consumption , and prefer to u a rearch room , usually only sprinting before exam. The results provide data support for students ' academic guidance , ear
ly warning and personalized recommendation.
Key words :Education big data ; Student portrait ; Target group index ; Student behavior
中国教育信息化进程的推进,多种学生学习生活数据源
的发展⑴幻和疫情期间大规模的网络在线教育活动的开展, 催生了更加丰富的教育数据,教育大数据的蓬勃发展随之 而来。
在教育大数据中,学生画像的绘制是学习分析过程中重
要的环节。学生画像是指相似的学生群体在进行相似的学习
活动过程中所展现出来的共同特征的集合。但现有的学生画
蚕丝被可以水洗吗像的研究多为利用聚类算法或神经网络的训练直接构建相关 系统,对于有关指标的分析和量化定性研究则是凤毛麟角。
收稿日期:2020-12-02
基金项目:国家级大学生创新创业计划项目 (201911057041);教育部2019年产学合作协同育人项目 (201901020031,201901108008,201901167001);浙江科技学莓茶的功效与作用
院研究生教学改革研究项目(2019YJSJG03)。
第一作者简介:任正东(1998—),男,浙江宁波人,本科
(在读)。研究方向:大数据分析和处理。
随着“慕课”“网易公开课”等网络课程的兴起色41, ”停课不停
教、停课不停学”的在线网络教育活动的开展,使大量学生学
习活动数据产生,也让高校、相关机构对探究不同学生学习生
活习惯的差异对成绩的影响产生了较大的兴趣。
本文从多个角度利用创新的方法剖析学生学习生活习
惯的差异,对学生画像进行绘制,采用定量的指标明确各类
学生群体之间的差异,并分析其产生原因,为有关学生学业 特征的分析提供新颖的方法,为量化学生的特征提供有效的
方式,为学生学习、高校管理和决策提供数据支撑和技术支 持,具有良好的应用价值和社会效益。1不同成绩学生群体的学生画像构建1.1 数据来源
学生画像的准确刻画需要多而广的学生数据,学生数据
种类越多、数量越大,学生画像也就越精确。本文数据主要来
源于浙江科技学院常用的5个与教务相关的业务系统(包括
学生成绩管理系统、图书借阅系统、图书馆门禁系统、寝室门
禁系统和一卡通管理系统),采集了来自本科生、研究生、留学
113
生的多种数据。其中图书借阅系统、图书馆门禁系统、寝室门禁系统和一卡通管理系统等4个主要业务系统中的数据涉及到了能够描述学生在校行为的主要信息,而学生成绩管理系统则主要用于区分不同成绩的学生群体,详情见表1。
表1学生画像构建数据
成绩管图书借图书馆门寝室门
一卡通管理系统
理系统阅系统禁系统禁系统
学生ID学生ID学生ID学生ID学生ID消费时间学院编号借阅日期具体时间具体时间消费类别消费金额成绩排名图书名称门禁编号进出方向消费地点剩余金额图书编号进出方向消费方式
1.2模型构建
本文所使用的数据包含了7139名学生一年的数据。由于本文所研究的学生群体已事先确定,因此无需使用各类聚类算法,但为区分不同成绩学生群体,根据帕累托法则⑸和各个学生在各自院校所处的排名,将7139名学生按“10%-80%-10%”的比例分别划分为成绩“优秀一普通一较差”三个层次。
1.2.1目标群体指数
为了能够体现某个群体在总体中对于某项特征的偏好度,我们引入目标群体指数(Target Group Index,TGI)对目标群体中的特征倾向程度进行计算。TGI是指某一子群中的某一特征所占比例与总群中同一特征所占比例之比再乘以标准数100后所得的值。设现有总体B(BwT)中具有特征a的群体的TGI时其表达式为:
card(A HB)
TCJ card(B)
card(A)
card(T)
其中表card(T)表示T集合中的元素个数。当TGI= 100时表示群体B对于特征«的倾向性恰好为平均水平,当TGI>100时表示倾向性高于平均水平,反之亦然同o且通常当TG1>120时可以认为某项特征具有正向显著性,当TGI <80时可以认为某项特征具有负向显著性。
1.2.2学生画像构建流程
学生画像的组成需要明确的学生行为特征。在大量的数据中提取特征需要比较大量不同学生同种行为的行为频次、行为时间等数据,通过计算概率分布、比例等中间数据或利用聚类分析、回归拟合等多种途径来判断或确定触发某种行为特征标签的阈值。与此同时,在提取行为数据的过程中可能存在需要多表联查的情况,通过合理的计算、筛选、合并、映射等方式,将多种后期需要反复使用的数据保存到相关的视图表中,避免过多的重复计算和查询等操作。学生画像分析的流程框架具体参见图lo
图1学生画像分析流程2不同成绩学生群体的学生画像分析
2.1图书馆数据分析
图书馆作为承担着高校人才培养与科学研究任务的主要学术性机构,有着不可或缺的重要作用。对图书馆借阅数据与图书馆门禁数据进行分析,能为高校的图书馆建设和学生管理提供有效帮助。
2.1.1图书借阅情况
图书借阅情况能有效反映出一个学生在学习方面的积极性,通常图书借阅量越多,学习积极性越高,同时也会促进学习的进步,形成良性循环。
通过查询图书借阅数据,比较学生信息表,筛选出所有在1年内从未前往图书馆借过书的学生群体。最终共筛选出1373人,占总学生人数的19.23%。再通过计算得出成绩分别为“优秀一普通一较差”三个层次的学生群体的TGI,分别为95.26JOO.23、103.07o从TGI上来看成绩较差的学生占从未借书群体中的主要部分,成绩优秀的学生群体相对较少,符合普遍的认知,但由于两者的值距离平均值100较近,因此很难明确图书借阅对于成绩的影响。
随后对图书借阅数据进行统计。分别统计每个学生在1年内的借书总量,并依据借书总量将其划分为总借书量“少于2本,2-15本、多于15本”3个层次的群体。TGI计算结果如表2所示,从表2中可以看出成绩优秀的学生群体更倾向于借更多的书,成绩较差的学生则更倾向于借较少的书甚至是不借书,而成
绩位于平均水平的学生群体则恰好代表了各类借书量的平均水平,符合预期,但TGI均未超过120或低于80,因此无法确定图书借阅量对成绩是否存在显著性影响。
通过查阅文献发现⑺81,或许是因为成绩较差的学生在学习积极性方面有所欠缺,因此导致其图书借阅量较少,而成绩较为优异的学生可能在学习方面较为积极或课程压力较大,使其需要借阅更多的书籍来完善知识框架,又或许是因为在阅读更多书籍后激发了学习的动力,使其成绩变得优异。由此得出,若高校需要制定针对成绩较差的学生的干预措施,可以从图书借阅入手,提高成绩;也可以将图书借阅的TGI作为指标,观察干预措施的实施效果,确保其行之有效。
表2不同借书量群体TGI
借书量优秀普通较差
少于2本90.44100.07109.51
2—15本98.8299.84102.64
多于15本108.43100.0490.75
2.1.2研修室使用情况
研修室作为图书馆中不同于大厅学习区的多优势区域,能够更好地为学生提供更多学习帮助和隐私保护,同时也能为小型学习团体提供优良的学习环境。充分利用好研修室,能够有效改善学生的学习环境,提高学习效率。
本文所使用的数据共包含了三种不同的研修室:单人研修室、三人研修室和六人研修室。通过对图书馆数据进行查询和筛选,共发现648位学生在一年内使用过图书馆研修室,共占学生总人数的&94%。研修室所使用过的人数相对较少,受众面不广。在查阅高校对研修室的管理条例后推测,可能是受到需要预约的限制,不少学生无法及时抢到研
114
修室的使用名额,多次往复后可能会丧失对研修室使用的积极性,不利于持续发展。
随后在计算不同成绩学生群体的研修室使用情况的TGI后发现,成绩较差的学生群体对研修室的使用达到了正向显著性水平,其中对三人研修室的倾向性更高,TGI达到182.08,远大于平均值100;成绩优异的学生群体在对研修室的使用情况方面相对较差,三人研修室的TGI值为51.64;成绩处于平均水平的学生在研修室的使用情况方面略低于平均水平。研修室使用情况的TGI具体情况如表3所示。
造成上述情况的可能原因是成绩较差的学生群体使用了大部分的名额,使其他学生无法有效地利用研修室。尽管分析结果有悖于直觉,但仍在情理之中。当部分学生处于成绩较差的状态,但又对自身所处的现状有所不满时,往往会引发一定的焦虑情绪。在处于一定的外部压力和自身焦虑的情况下,部分成绩较差的学生希望能够尽快地提高自身的成绩,因此会希望通过得到更好的学习环境来改善自己的学习效率,从而尽快提高自身的成绩,但具体原因仍需深层次的调查与研究。
表3研修室使用情况TGI
研修室类型优秀普通较差
单人研修室98.4195.26141.94
三人研修室51.6496.36182.08
六人研修室90.7795.97144.01
2.1.3考试月图书馆使用群体
考试月是指临近期末的最后一个月,本文数据中的考试月是指6月与12月。考试月图书馆的使用情况分析能够从一定程度上体现学生是否仅仅为了通过考试而使用图书馆资源。通过对其深入的分析与挖掘,能够帮助高校更合理地安排图书馆资源,并为高校提供管理学生的决策辅助。
首先,对图书馆借阅数据进行分析,筛选出所有仅在考试月中出现的学生群体。筛选结果为共有281名学生仅在考试月中借书,占学生总人数的3.94%。成绩分别为“优秀Y通一较差”三个层次的学生群体的TGI分别为90.77、94.09,160.01。从人数上可以发现仅存在小部分学生只在考试月时“临时抱佛脚”o通过TGI能够得出,仅在考试月借阅书籍的主要是成绩较差的学生群体;成绩优异的学生和成绩处于平均水平的学生TGI均低于平均值100,尽管未低于80,没有表现出负向显著性水平,但从一定程度上足以表明成绩优秀与普通的学生更偏向于通过平时的努力来提高成绩,而非寄希望于考前冲刺。
2.2寝室门禁数据分析
寝室作为大学生在校生活的主要区域,在影响学生学习氛围的角色中承担着重要的作用。一个拥有积极向上的学习氛围的寝室,能够在一定程度上影响学生的学习积极性,从而影响到学生的成绩"°〕o对寝室数据的分析能够辅助高校研究和确定管理寝室的决策。
从古至今,早起学习都是一个良好的习惯。从一个学生是否拥有早起的习惯,可以看出一个学生的毅力,从而反映出一定的学习能力。高校通过关注学生的早起情况,能在一定程度上评估学校的学习氛围等信息。
通过保留每人每日第一条寝室刷卡数据,筛选出所有学生的早起数据。在规定早起时间段为每日的5:00—7:30的情况下,分别计算三类学生在“整周、工作日、双休日”三种视角下的TGI,结果如表4所示。其中成绩较差的学生群体TGI均低于80,无论是在何种时段分类视角下,均达到了负向显著性水平,其中双休日的TGI仅有68.88,说明成绩较差的学生通常难以早起;成绩优秀的学生群体则与成绩较差群体则恰恰相反,尽管其TGI均未突破120,但在所有时段分类视角下,其均高于平均值100,说明成绩优秀的学生更倾向于每日早起;成绩普通的学生群体则恰好处于平均水平,符合预期。
从结果来看,尽管证明早起能够有效影响学生学习成绩仍需更多调查与研究,但早起TGI足以成为高校在管理学生时的一个指标。当高校各类学生群体的早起TGI整体上升至接近100甚至高于100时,可以在一定程度上反映出该群体的学习氛围、生活积极性有所改善,具体缘由则不再展开。
«4早起TGI
时间优秀普通较差
双休日113.97102.0568.88
工作日104.86102.0678.39
整体105.56101.879.73
2.3一卡通数据分析
一卡通作为承载着高校数字化、智慧化的载体之一,在学生的在校生活中扮演着重要的角色。一卡通作为联系高校各个系统的纽带,在为学生提供便利的同时,也极大地便捷了高校的管理工作。随着时间的推移,高校通过一卡通积累了大量的学生消费数据。利用好一卡通数据,有助于高校全面掌握学生在校消费情况、生活情况,为高校优化资源配置提供极大的帮助。
2.3.1早餐情况
Lien在研究中指出早餐消费情况会影响学生的学习成绩学生能否按时吃早餐和吃早餐频率的数据分析结果能有效反映学生学习情况。
为计算学生吃早餐的TGI,我们假定学生在校天数(减去寒暑假)共计275天(其中工作日约170天),随后我们规定:1年内在学校食堂6:00-8:00的时间段内吃早餐的天数“低于50次高于0次”为“低频”,“50-100次”为“中频”,高于100次为“高频”。通过筛选分析,发现“低频”“中频”“高频”分别有4825人、1493人820人,其中1人一年内从未在食堂中吃过早饭。各成绩学生群体的TGI如表5所示。
从结果中发现,“低频”学生人数占总人数的67.59%,远远大于其他两类学生的占比;成绩较差学生群体的“低频”TGI达到了11&83,接近正向显著性水平指标;"中频”“高频”TGI均低于80,呈现出负向显著性水平,说明成绩较差学生群体更倾向于不吃早餐或在更晚的时间吃早餐;成绩优异的学生群体则相对更倾向于在较早的时候吃早餐,其“高频”TGI达到了116.88O
表5早餐频次TGI
早餐频次优秀普通较差低频94.3598.49118.83
中频108.99102.9965.07
高频116.88103.4552.80
115
2.3.2超市消费情况
相比于早餐情况,超市消费情况能体现出一定的娱乐休闲性质。通过对超市消费情况的分析,能体现出一定的在校娱乐休闲情况。
与早餐情况类似,通过统计学生在校超市消费次数,将消费次数“低于100次高于0次”记为“低频”,“高于100次低于200次”记为“中频”,“高于200次”记为“高频”。统计分析结果为,“低频”“中频”“高频”分别有4518人、2126人、479人,共16人不存在消费记录,TGI如表6所示。TGI 结果表明,成绩优异的学生群体更少在学校超市内消费,其“低频”TGI达到了115.54,而“中频”“高频”则均达到了负向显著性水平;成绩较差的学生群体在“高频”消费中超过平均水平,但与正向显著性水平仍有一定的距离,其值为112.69,而“低频”“中频”则接近平均水平;成绩处于平均水平的学生在超市消费情况中出现了不均等的情况,尽管均接近平均值100,但仍可能存在一定的趋向,具体情况需要更多的研究,本文不再深入研究O
表6超市消费情况TGI
超市消费频次优秀普通较差低频115.5498.3697.45
中频7&25102.41102.55
高频49.92104.76112.69
3结语
不同成绩的大学生群体在学习生活方面存在着明显的差异:成绩较为优异的大学生群体在图书借阅量
方面多于其他群体,且早起频次与吃早餐频次高于其他群体;成绩较差的学生群体则在研修室使用情况上优于其他群体,仅在考试月努力学习的情况较为突出,在超市的高频消费也相较其他群体多,详情如表7所示。
表7不同成绩学生群体差异
古代简笔画优秀普通较差图书借阅高于平均平均低于平均
早起情况高于平均平均明显低于平均
早餐情况高于平均平均明显低于平均研修室使用低于平均略低于平均明显高于平均考试月图书馆使用低于平均低于平均明显高于平均超市消费情况明显低于平均平均高于平均
结果表明,高校在进行教育建设时,为体现以学生为主体,便于以学生行为变化为参照,优化教学方式、学生管理方式,可做好如下几点工作:(1)建立健全完善的数字化学生档案,充分以数字化方式记录高校日常工作、学生日常学习生活行为;(2)实现学生个人数据的动态追踪,构建基于学生个人数据的画像分析平台,实现学生日常学习生活行为实时追踪、实时分析,动态化教学安排;(3)加强高校管理部门与学生的沟通交流,动态调整学生学业评估模型、方式,达到学生学业指导、学业及时预警、个性化推荐等目标。
最后,利用TGI对学生画像进行分析为科学的定性研究提供了一个新的思路,但TGI仍然存在一定的不足。TGI在局部区域某特征的强弱表现方面具有较好的能力,但在绝对数值上存在不足,因此可能出现TGI很高,但是绝对数值较小的情况。对此,TGI仍有较大的研究提升空间。
参考文献:
[1]任东晓,王中华.教育大数据智能分析平台研究与实践
[J].浙江科技学院学报,2018,30(6):501-505.
[2]POULOVASSILIS A.Big data and education[J].BirBeck?
幼儿园种植活动
niversitesi of London:www.des.bbk.ac.uk/oldsite/rearch/t echreps/2016/bbkcs-16-01.pdf.(23.(M.2019),2016.
[3]杨晓宏,周效章.我国在线教育现状考察与发展趋向研
究:基于网易公开课等16个在线教育平台的分析[J].电化教育研究,2017,38(8):63-69.
[4]张鹫远."慕课”(MOOCs)发展对我国高等教育的影响及
其对策[J].河北师范大学学报(教育科学版),2014,16
(2):116-121,
3月5号[5]BOX G E P,MEYER R D.An Analysis for Unreplicated Frac
tional Factorials[J].Technometrics,1986,28(1):11-1& [6]王黎明,钟琦.基于搜索数据的网民科普需求结构和特征
研究[J].科普研究,2018,13(4):51-60.
[7]李倩.本科生图书馆利用与学业成绩的相关性实证研究:
以南京林业大学为例[J].农业图书情报,2019,31(11):72-79.
水污染防治行动计划
[8]潘颖.本科生学业绩效与借阅行为相关性研究[D].南
京:东南大学,2018.
[9]常欣,康廷虎,王沛.大学生英语学习过程中认知因素与
情感因素对学业成绩的影响[J].心理科学,2005(3):727-730.
[10]韩标,曹钮娟,方陈,等.寝室氛围与大学生成长相关性
的实证研究[J].思想教育研究,2010(11):64-6& [11]LIEN L.Is breakfast consumption related to mental distress
and academic performance in adolescents?[J].Public Health Nutrition,2007,10(4):422-42&
责任编辑:富春凯
116合作模式有哪几种