样本相关系数教学中的若干注解

更新时间:2023-06-10 17:39:57 阅读: 评论:0

高师理科学刊Journal  of  Science  of  Teachers' College  and  University 第41卷第1期
2021年 1月Vol. 41 No.1Jan. 2021
文章编号:1007-9831 (2021 ) 01-0059-05
样本相关系数教学中的若干注解
王启明,时正华,袁永生
(河海大学理学院,江苏南京210098)
摘要:在概率论和数理统计教学中,对总体相关系数做了较为详尽的描述和分析.样本相关系数 具有广泛的应用意义,但在教学研究中涉及样本相关系数内容较少.分析样本相关系数与总体相 关系数之间的关系,总结样本相关系数分布及相关统计性质,通过蒙特卡洛模拟方法直观展示样 本相关系数、欧式距离、总体相关系数之间联系.
关键词:总体相关系数;样本相关系数;无偏性;蒙特卡洛模拟
中图分类号:O211.1:G642.0 文献标识码:A  doi : 10.3969/j.issn.1007-9831.2021.01.015
我要翻译
Some  notes  on  sample  correlation  coefficient
WANG  Qiming , SHI  Zhenghua , YUAN  Yongsheng
(School  of  Science, Hohai  University, Nanjing  210098, China  )
Abstract : In  the  teaching  of  probability  and  statistics , the  population  correlation  coefficient  is  described  and  analyzed  in  detail. Sample  correlation  coefficient  has  wide  application  significance , but  there  is  little  discussion  about  sample  correlation  coefficient  in  rearch  and  teaching. The  relationship  between  sample  correlation  coefficient  and  population  correlation  coefficient  was  firstly  analyzed , and  then  the  distribution  and  statistical  properties  of  sample  correlation  coefficient  was  summarized. Finally, Monte  Carlo  simulation  method  is  ud  to  visually  demonstrate  the  relationship  between  sample  correlation  coefficient , Euclidean  distance  and  population  correlation  coefficient.Key  words : population  correlation  coefficient ; sample  correlation  coefficient ; unbiadness ; Monte  Carlo  simulation
2个变量之间是否存在一定的关系可以通过散点图等进行描述,这种方式直观、简单,可以观察2个 变量是否存在一定的关联性.但仅有散点图是不够的,需要在数量上描述2个变量相关关系.相关系数是 描述2个随机变量之间线性相关关系强弱的重要指标[1],最早由统计学家皮尔逊于19世纪80年代给出.
设 X , Y 是2个随机变量,若两者的方差D(X ),D(Y )存在,并记为并,S ,则两者相关系数定义为
r  E  [(X -m  )(『-冷)]
(1)
S 1S 2其中:m ,m 2为X , y 的数学期望.在理论方面,相关系数是回归分析、主成分分析、时间序列分析等统 计方法和理论的基础和前提[2].在概率论和数理统计教学过程中,对总体相关系数做了较为详尽的描述和 分析[3].在实际数据分析中,常用样本的相关系数刻画事件之间的关系,样本相关系数较总体相关系数更 具有应用意义,广泛应用于具有实际意义的观测数据之间的关联性分析中.任福栋内等选取齐齐哈尔市2019 年市区中考成绩进行评价分析,找出学科间存在的相互影响关系;黄华[5]等利用相关系数,分析了新疆农 业大学理工科专业大学生进校成绩与公共基础课成绩的相关性;孙景峰[6]等利用偏相关系数方法分析高考
收稿日期:2020-07-11
基金项目:2019年度江苏省高等教育教改研究重点课题(2019JSJG086)——基于工程教育专业认证的大学数学课程教学体系的探索与实践作者简介:王启明(1980-),男,江苏连云港人,讲师,硕士,从事非线性统计分析研究.E-mail : ***********
60高 师 理 科 学 刊第 41 卷多学科成绩之间的相关性,尝试评价不同高中的高考质量.
目前,本科甚至包括工科研究生数理统计教学中,样本相关系数的讨论和综述涉及较少,这对理解其 它统计学概念和方法造成了一定的障碍.本文分析样本相关系数与总体相关系数之间的关系,总结样本相 关系数相关性质,通过蒙特卡洛模拟方法直观展示样本相关系数、欧式距离、总体相关系数之间的联系.1总体相关系数与样本相关系数之间的关系
设X 1,x 2,…,x ”,E ,y 2,…,Y n 分别是总体X ,y 的一组简单随机样本,则m ,m 2,s 2,S 的矩 估计分别为[7]
1 n  1 n  1” c  1” c m  = X =1 工X i ,m =Y =丄工Y ,并=丄工(x ,-X )2,&=丄工(
Y 「Y )2 (2)n  ,=1 n  ,=1 n  ,; nJ
将矩估计代入式(1 ),得到被广泛使用的Pearson 样本相关系数r  =立X , - X )(y 「Y )
i =1
勺X ,
个性英文签名i =1加-Y  )2,=13)
在二元总体(x , Y )服从二元正态分布n (m , m 2, s , s  p )时,式(2)不仅是参数的矩估计,也是 期望及方差的极大似然估计[8].
推论[9]若二元总体(X , Y)服从二元正态分布N (m ,m ,s ,s 2, p ),则p 的极大似然估计为r ,即
立X , -X )(Y , -Y )
p MLE  = r  = I  日 ——| ---- ( 4 )
2样本相关系数性质
性质1样本相关系数r 2 < 1.
证明根据式(3),取a , = X , -X ,勺=Y , - Y 代入柯西不等式缶住乞
,=1 ,=1,即可得到样本相
关系数r 2 < 1.
证毕.性质2设X 1,X 2,…,X n ,乙,Y 2,…,Y n 分别是总体X ,Y 的一组简单随机样本.对总体做线性变换 W  = aX  + b  , V  = cY  + d  , ( ac  主 0 ).总体 W , V  样本分别为 aX 1 + b, aX 2 + b,…,aX n  + b  , cY 1 + d , cY ,+ d ,…,cY n  + d ,这时有 r W ,V  = sign(ac>X ,Y ,其中:sign(-)为符号函数.
hour证明 根据式(3),可得到
工(aX , + b  - aX  - b  )(cY , + d  - cY  - d  )
,=1.n
n  / n  I  n t ( a X ,
+ b  - aX  E ( c Y , + d  - cY  - d  ) |ac |》(X , - X  )\ (Y, - Y  )
,=1 ,=1 V ,=1 Y  ,=1因此 W ,v  = sign(ac )々』■
证毕.性质3[10]194当二元总体(X , Y )服从二元正态分布N (m , “2, S , S  p )时,r 密度函数为f  (r )=響 ^7^(1"广(1-r  )0'5(n -3)(1 -p r  r +0-5 F  仃 2, n  +1,严]
r w  ,V a  t ( X , - X  )(Y , - Y  ),=1
其中:F (a ,性质4V2n  r (n  + 0.5)b , c , x ) = 1+竺X  + a (a  + 1)b (b  + D  X 2 + …;r(x )訂+?T 「d 心 > 0).c  2!c (c  +1)
J  0当二元总体(X , Y )服从二元正态分布N (m , “2, S , 6, p )时,
第1期王启明,等:样本相关系数教学中的若干注解61
(1) 当总体相关系数p  = 0时,样本相关系数r 是r 的无偏估计;
(2) 当总体相关系数p 丰0时,样本相关系数r 不是p 的无偏估计;
(3) 样本相关系数r 为总体相关系数p 的渐近无偏估计.
证明 根据HoteUing 结论[10]231和性质3可知,r 的一阶矩为
qq空间英文留言E (r )= p  + (1 -p 2 )1- p  +P — 9p 3
8n 2p  + 42p 3 - 75p 516n ‘(6)
+…丿因此,当p  = 0时,E(r ) = 0,样本相关系数r 是p 的无偏估计;当p* 0时,E(r )丰p ,样本相关系数r 不是p 的无偏估计,其偏差近似为-(1 -p 2)
p  ; lim E(r ) = p ,即样本相关系数r 为总体相关系数p 的渐近 2n
绯闻女孩第一季下载
无偏估计. 证毕.性质5 (样本相关系数r 与欧式距离具有等价性)设X ], x 2,…,x n , y x , y 2,…,儿分别是总体 x ,y 的一组简单随机样本观测值,样本均值分别为X ,y ,样本方差分别为=丄£(X 厂X )2, n  -1 /=1=丄£ (y ; - y  )2 •称X * = □,y * =丛二工为标准化样本,则此时rj  与欧式距离 n  -17=1 Sx  S y  x  ,y t  (X * - y :)2 等价.
i =1
证明 将标准化形式X * =注兰,y * =基二兰代入式(3),得到r 2 =丄t X :y :.由于£(x :)
ivy是什么意思2 =
Sx  S y  x  n  -1 i =i  ,=1、)n  n  , 、2 n T  t (X i  - X  ) = n  - 1, t (y i  ) = S  t (y i
- y  ) = n  - 1,因此S X  i =1 i =1 S Y  i =1
t (X : - y :『=t ( X :『+ t ( y :) - 2t (X :y : ) = 2(n  -1) 一 2(n  一 咗尸=2(n  -1) (1-心)(7)i =1 i =1
i =1 i =1故r 2x .,Y .与欧式距离t (X : -y :)
2等价. 证毕.
i =1在一些应用环境中,可以用欧式距离代替样本相关系数.
3蒙特卡洛试验验证
采用随机模拟方法直观展示在正态总体情况下,样本相关系数与总体相关系数的诸多性质.随机模拟 方法方便在教师授课时展示样本相关系数与总体相关系数的不同以及关联性,让学生能更好地掌握知识点.
例1二元总体(X , Y )服从二元正态分布N (0, 0, 1, 1, 0.5),分别生成10, 1 000个样本,并重复生 成10 000次,统计相应样本相关系数,形成直方图(见图1).
样本相关系数
thankstoa 样本容量为10样本相关系数
b 样本容量为1 000
图1例1中样本容量为10及1 000时相关系数直方图
由图1a 可以看出,当p> 0时,小样本下样本相关系数出现较强的左偏性,这与性质(4)中偏差为-(1-p 2)
p  一致.由图山可以看出,随着样本数目的增加,偏态性减弱,样本相关系数具有渐近无偏性.
计算样本容量为10和样本容量为1 000这2种情况下相关系数与标准化之后的欧式距离(见图2).由 图2可
以看出,样本相关系数与标准化之后的欧式距离完全等价.样本相关系数 样本相关系数
a 样本容量为10
b 样本容量为1 000图2例1中样本容量为10及1 000时相关系数与欧式距离关系
例2二元总体(X , Y )服从二元正态分布N (0, 0, 1, 1, 0.9),分别生成10,1 000个样本,并重复生成10 000次,统计相应样本相关系数,形成直方图(见图3).由图3可以看出,当p  = 0.9,接近于1时,小样本的样本相关系数同样存在偏态,有一个非常短的正尾和一个长的负尾,大样本下是近似无偏的.
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9样本相关系数
a  样本容量为 100.87 0.88 0.89 0.9 0.91 0.92 0.93unproper
样本相关系数b  样本容量为 1 000
图3例2中样本容量为10及1 000时相关系数直方图五年级英语上册教案
例3二元总体(X , Y )服从二元正态分布N (0, 0, 1, 1, -0.5),分别生成10,1 000个样本,并重复 生成10 000次,统计相应样本相关系数,形成直方图(见图4 ).由图4可以看出,当p< 0时,小样本下 样本相关系数出现较强的右偏性,这与性质(4)中估计偏差为-(1 -p 2)
p 一致.2n 样本相关系数
样本相关系数a  样本容量为 10 b  样本容量为 1 000
图4例3中样本容量为10及1 000时相关系数直方图
(下转第70页
)
实践是检验真理的唯一的标准.在多年的电子线路CAD课程教学中,该教学手段和方法在教学实践中得到充分的检验.结果表明,取得了良好的教学效果,学生通过该门课的学习,在历年的计算机辅助设计绘图员(电子类)资格考试中,高级通过率均达98%以上.
参考文献:
[1]闵道辉.虚拟现实技术在计算机硬件维修与维护课程中的应用[J].科技风,2019(36):33-34
[2]安晓瑞.强化计算思维培养的课程教学改革研究一以计算机应用软件类课程为例[J].石家庄职业技术学院学报,2019,31(4):53-57
格伦
[3]郭荣春.微课在计算机应用软件类课程教学中的应用[J].科技视界,2016(11):139-140
[4]唐婧.计算机应用软件类课程教学的主要特点与发展策略[J].中国科教创新导刊,2013(22):161-162
[5]焦莉娟,李朝霞.“互联网+"计算机语言类课程教学模式[J].高师理科学刊,2020,40(8):85-88
[6]焦莉娟,赵青杉.基于人工神经网络的计算机语言类课程教学行为指导[J].高师理科学刊,2017,37(5):77-81[7]谷今杰,黄华军,屈喜龙.基于MOOC的高级程序语言设计教学改革探索[J].教育教学论坛,2020(12):167-169[8]刘东波,刘青萍,肖晓霞.计算机语言类课程自主学习教学模式探讨[J].教育现代化,2019,6(88):208-209
[9]谢武.我国高等职业院校综合实力评价指标体系构建研究[D].武汉:湖北工业大学,2020
[10]蒋霖谦.职业院校面向行业企业职工培训的对策研究[D].武汉:湖北工业大学,2020
(上接第62页)
4结语
本文从参数估计的角度介绍样本相关系数以及与总体相关系数之间的关系,总结样本相关系数常用的5条性质,强调样本相关系数并不是总体相关系数的无偏估计.为强化对于样本相关系数的理解,通过
蒙特卡洛模拟方法使用不同的实例直观展示样本相关系数的偏态性,以及样本相关系数与欧式距离之间联系.本文结合实例,多方面、多角度分析总结样本相关系数的概念和性质,方便教育工作者在开展概率统计教学中介绍相应的内容.
参考文献:
[1]崔艳丽.相关系数概念剖析[J].大学数学,2017,33(3):114-117
[2]吴喜之.统计学:从数据到结论[M].北京:中国统计出版社,2005:128-137
[3]章舜仲,王树梅.相关系数矩阵与多元线性相关分析[J].大学数学,2011,27(1):195-198
[4]任福栋,孙菲,任福捷,等.基于相关性与关联规则一致性的中考成绩分析方法研究[J].高师理科学刊,2020,40(4):20-25
[5]黄华,冯鹏飞,袁帅.理工科大学生进校成绩与公共基础课成绩的相关性研究[J].高师理科学刊,2014,34(1):30-33[6]孙景峰,李秀丽,王彦波,等.基于K-means聚类分析与偏相关分析的高考质量评价体系构建与实施[J].高师理科学刊,2016,36(9):32-37
[7]刘次华.概率论与数理统计[M].武汉:华中科技大学出版社,2017
[8]茆诗松,王静龙,濮晓龙.高等数理统计[M]北京:高等教育出版社,2006
[9]白志东,郑术蓉,姜丹丹.大维统计分析[M]北京:高等教育出版社,2012
[10]Hotelling H.New Light on the Correlation Coefficient and its Transforms"].Journal of the Royal Statistical Society:Series B (Methodological),1953,15(2):193-232

本文发布于:2023-06-10 17:39:57,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/140525.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:样本   教学   分析   课程   方法
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图