西安欧亚学院
数据挖掘技术与实验课程论文
学生姓名 | 王川 |
学生学号 | 131********317 |
所在分院 | 金融学院 |
专 业 | 经济统计学 |
班 级 | 统本统计13级管理统计方向 |
提交日期 | 二〇一六年6月25日 |
| |
摘 要
在“二胎政策”全面实施的背景下,我国人口增长形势将继续持续下去。而影响人口的增长的因素有人口出生率、婚姻登记数量、居民消费水平、参加生育保险人数和医疗发展程度有关。
对这些数据进行相关分析,结果显示这些因素和人口数量的增长可用多元线性回归方程表示,同时可用多因素方差分析,研究这些因素的不同水平是否对人口的增长产生显著影响。
R软件是一种开源的免费数据分析软件,功能强大,是数据分析工作者的首选软件之一。
关键词:R语言;多元线性回归分析;方差分析。
引言............................................................1
1.1 选题的背景和意义..................................1
1.2 研究方法与思路....................................1
正文...................................................2
2.1 前言..............................................2
2.2 数据分析..........................................2
2.2.1 数据预处理......................................2
2.2.2回归分析.........................................4
2.2.3方差分析.........................................8
结论...................................................13
参考文献...............................................13
引言
1.1 选题的背景和意义
二孩政策,是中国实行的一种计划生育政策,规定符合条件的夫妇允许生育“二胎”。因为是二孩政策,故第一胎为多孩时,不可生第二胎。
2011年11月,中国各地全面实施双独二孩政策;2013年12月,中国实施单独二孩政策;2015年10月,中国共产党第十八届中央委员会第五次全体会议公报指出:坚持计划生育基本国策,积极开展应对人口老龄化行动,实施全面二孩政策。
在经历了迅速从高生育率到低生育率的转变之后,我国人口的主要矛盾已经不再是增长过快,而是人口红利消失、临近超低生育率水平、人口老龄化、出生性别比失调等问题。国内20多位顶尖人口学者历经两年的研究指出,我国的人口政策亟待转向,尤其是生育政策应该调整。
1.2 研究方法与思路
人口增长的原因大体与人口出生率、婚姻登记数量、居民消费水平、参加生育保险人数和医疗发展程度有关。
回归分析的基本思想是,虽然自变量和因变量之间没有严格的、确定性的函数关系,但可以设法找出最能代表它们之间关系的数学表达形式。所以可以采用回归分析,找到人口增长背后的具体关系。
方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。所以可以采用方差分析,得到所有因素中影响程度最大的那一个。
正文
2.1 前言
本文原始数据来源于中华人民共和国国家统计局,截取了2015-2014年全国人口总数(万人),婚姻登记(万对),居民消费水平(万元),参加生育保险人数(万人),医院数(个)。分析软件为R软件。
2.2 数据处理
2.2.1 数据预处理
原始数据如下:
年份 | 人口总数 (万人) | 婚姻登记(万对) | 居民消费水平(元) | 参加生育保险人数(万人) | 医院数(个) |
1995年 | 121121 | 934.1 | 2330 | 1500.2 | 15663 |
1996年 | 122389 | 938.7 | 2765 | 2015.6 | 15833 |
1997年 | 123626 | 914.1 | 2978 | 2485.9 | 15944 |
1998年 | 124761 | 891.7 | 3126 | 2776.7 | 16001 |
1999年 | 125786 | 885.3 | 3346 | 2929.8 | 16678 |
2000年 | 126743 | 848.5 | 3721 | 3001.6 | 16318 |
2001年 | 127627 | 805 | 3987 | 3455.1 | 16197 |
2002年 | 128453 | 786 | 4301 | 3488.2 | 17844 |
2003年 | 129227 | 811.4 | 4606 | 3655.4 | 17764 |
2004年 | 129988 | 867.2 | 5138 | 4383.8 | 18393 |
2005年 | 130756 | 823.1 | 5771 | 5408.5 | 18703 |
2006年 | 131448 | 945 | 6416 | 6458.9 | 19246 |
2007年 | 132129 | 991.4 | 7572 | 7775.3 | 19852 |
2008年 | 132802 | 1098.3 | 8707 | 9254.1 | 19712 |
2009年 | 133450 | 1212.4 | 9514 | 10875.7 | 20291 |
2010年 | 134091 | 1241 | 10919 | 12335.9 | 20918 |
2011年 | 134735 | 1302.36 | 13134 | 13892 | 21979 |
2012年 | 135404 | 1323.59 | 14699 | 15428.7 | 23170 |
2013年 | 136072 | 1346.93 | 16190 | 16392 | 24709 |
| | | | | |