统计分析方法与Stata应用(2015年春季学期)
第一讲 Stata的学习背景与学习意义
一、Stata是什么?
“Stata”并非数个单词的缩写(因此其正确拼写为Stata而非STATA),而是由“statistics”和“data”合成的一个新词,Stata公司的员工都将其读做“Stay-ta”。从这
个小小的趣闻中,可以看出Stata在问世之初(1985年)的主要功能在于统计分析和数据处理。经历了三十余年的发展,Stata已经升级到第13.1版(表1),在不断强化上述功能的同时,Stata在矩阵运算、绘图、编程等方面的功能也在不断加强。
表1 Stata发展历程
版本 | 发布日期 | 版本 UWB | 发布日期 |
13.1 | Oct-13 | 7 | Dec-00 |
13 | Jun-13 | 6 | Jan-99 |
12.1 | Jan-12 | 5 | Sep-96 |
12 | Jul-11 | 4 | Jan-95 |
改姓申请书11.2 | Mar-11 | 3.1 | Aug-93 |
11.1 | Jun-10 | 3 | Mar-92 |
11 | Jul-09 | 2.1 | Aug-90 |
10.1 | Aug-08 | 2.05 | Apr-89 |
10 | Jun-07 | 2 | Jun-88 |
9.2 | Apr-06 | 1.5 | Feb-87 |
9.1 | Sep-05 | 1.4 | May-86 |
9 | Apr-05 | 1.3 | Aug-85 |
8.2 | Oct-03 | 1.2 | May-85 |
8.1 | Jul-03 | 1.1 | Feb-85 |
8 | Jan-03 | 1 | Jan-85 |
| | | |
资料来源:/support/faqs/res/history.html
Stata擅长数据处理、面板数据分析、时间序列分析、生存分析,以及调查数据分析,但其它方面的功能也并不逊色(表2)。
表2 Stata的功能一览
数据处理和绘图 | | | |
Data management | Graphics | | |
统计分析和检验 | | | |
Basic statistics | Nonparametric methods | Exact statistics | |
ANOVA/MANOVA | 其它检验方法和函数 | | |
回归分析 | | | |
Linear models | GLM | MLE | GMM |
Multilevel mixed models | Panel data | Probit/Logit/Count | Time ries |
冻疮是怎么形成的多变量模型(多元统计)名人故事100字 | | 抽样和模拟分析 | |
Multivariate methods | Cluster analysis | Resampling and simulation | |
调查分析和生存分析 | | | |
Survey methods | Survival analysis | Epidemiologists | |
编程 | | | |
Programming language | Mata | Ur-written commands | |
| | | |
二、为什么要学习Stata
1.时代发展的需要:大数据时代的兴起
(1)什么是大数据?
传统的统计分析常常希望数据多多益善。也就是说,数据越多,分析越深入,所得的结论就越全面。从字面含义上理解似乎指的是数量庞大信息量巨大的数据。大数据常常被描述成已经大到无法用传统的数据处理工具进行管理和分析的极大的数据集。超大的数据量只是大数据概念的一个部分。大数据涉及结构化数据、非结构化数据和半结构化数据这三类数据。
结构化数据通常指的是传统数据库中的数据,利用结构化查询语言(Structured Query Language,简称SQL) 来存取数据以及查询、更新和管理数据库系统。
非结构化数据一般无法直接进行商业智能分析,这是由于非结构化数据无法直接存储到数据库表中,也无法被程序直接使用。二进制图片文件就是非结构化数据的一个典型例子。
半结构化数据介于结构化数据和非结构化数据之间。半结构化数据不具有严格的结构因而不同于结构化数据。半结构化数据也不同于非结构化数据,它使用标签和各种标识区分不同的元素,并利用层级结构来定义数据。
(2)理解大数据的概念需要把握4个维度,统称为4V特征。
海量性(Volume)。大数据都是数量巨大的数据。很多企业都拥有海量数据,数据量很容易就积累到TB(1012字节)级,甚至跃升至PB(1015字节)级。
多样性(Variety)。大数据冲破结构化数据的局限,不仅包括结构化数据,还覆盖了如文本、音频、视频、点击流、日志文件等各种类型的非结构化数据。
精确性(Veracity)。数据量多不见得都是好事,庞杂的数据可能会导致对收集到的信息的误读或统计误差,因此信息的纯度对价值发掘至关重要。
时效性(Velocity)。大数据对时效性要求很高,企业必须能够在短时间内高速、流畅地处理源源不断产生或流入企业的海量实时数据,方能最大化地显现出大数据的商业价值。与此同时,大数据还应被归档存储,以备不时之需。
(3)在大数据的范畴下,包含如下方面。
传统商业智能(Traditional Business Intelligence, BI)。传统的商业智能对来自数据库、应用程序和其他可访问数据源提供的详细商业数据进行深度分析,通过运用基于事实的决策支持系统,给用户提供可操作性的建议,辅助企业用户做出更好的商业决策。
数据挖掘 (Data Mining, DM)。数据挖掘是人们对数据进行多角度的分析并从中提炼有价值的信息的过程。数据挖掘的对象通常是静态数据和归档数据。
统计应用 (Statistical Application)。统计应用通常是基于统计学原理利用算法来处理数据,一般用于民意调查、人口普查以及其他统计数据集。为了更好地估计、测试或预测分析,可以使用统计软件分析收集到的样本观测值来推断总体特征。调查问卷和实验报告这类经验数据都是用于数据分析的主要数据来源。
预测分析 (Predictive Analysis)。预测分析是统计应用的一个分支,人们基于从各个数据库得到的发展趋势及其他相关信息,分析数据集进行预测。预测分析在金融和科学领域显得尤为重要,因为加入对外部影响因素的分析,更容易形成高质量的预测结论。预测分析的一个主要目标是为业务流程、市场销售和生产制造等规避风险并寻求机遇。
(4)大数据的商业价值正在得到越来越多的实现和证明。
对大数据商业价值的渴求,促使组织机构利用企业内部和外部数据“仓库”中的数据来揭示发展规律、进行数据统计、获取竞争情报,协助他们部署下一步战略。
据IBM公司称,全球每天产生2.5亿亿(2.5×1018)字节的数据,当今世界90%的数据都是近两年产生的。这些数据来源广泛,有的来自收集气候信息的传感器,有的来自社交媒体网站,还有的是网络上传的数字照片和视频、电子商务交易记录,甚至是手机GPS信号等。
大数据的价值及其重要性已经在一些领域得到了证明。美国国家海洋和大气管理局(NOAA)、美国国家航空航天局(NASA)、部分制药公司和许多能源公司正在把大数据
技术运用于日常工作并从海量的数据中提取价值。美国国家海洋和大气管理局运用大数据的方法助力气候、生态系统、天气和商业研究,美国国家航空航天局则使用大数据从事航空航天等研究。在大数据的帮助下,制药公司和能源公司已经在药物测试和地理分析方面得到了实际的效益。《纽约时报》利用大数据工具进行文本分析和Web挖掘;迪士尼公司则分析了旗下所有店铺、主题公园和网站的数据,试图发现数据间的关联性,进而理解用户行为。
2.自身进步的需要
两个政策背景:一个是国家要加大职业技术教育,另一个是取消文理分科。
2017年日历表建筑石膏一个教育背景:人大、北大等名校都开设抬拳道Stata课。
结论:文科生要加强技术方法的学习。
3.为什么选择Stata
由图可知,SAS比Stata使用更广泛。好了,下面是一张预测图
三、如何学习Stata?
1. 三门基础课
微积分、线性代数、概率论与数理统计,缺一不可。基础有多重要?有一句广告词:It's only about Fundamentals.你只需做好基本功。基础打好了,学习统计、计量,真的势如破竹;如果基础不行,想要有多难,就有多难。
1.1 微积分。推荐教材:同济六版《高等数学》,国内相关的参考资料非常丰富,内容详略基本得当,也比较流行。想比较有深度的,可以看史济怀、常庚哲的《数学分析》(高等教育出版社,2012)。
1.2 线性代数。
1.3 概率论与数理统计。
1.4基础课程的系列教材,如果能找到视频,就更好了。比如吉林大学陈殿友的《线性代数》、《高等数学》,麻省理工的Gilbert Strang的线性代数,中科大的缪柏其《概率论与
数理统计》,中科大史济怀或复旦陈纪修的《数学分析》,都是极好的。不过要真看完你就研究生毕业了(如果你是两年制的研究生)。另外,我觉得有些考研的数学视频也是不错。
个人觉得Strang的线代超赞,但适合先经历一次国内教材和教授方式的“洗脑”,你就觉得老外讲得真心好!没有比较的话,你会发现线代永远是那么的抽象。
2 Stata图书
1.《应用STATA做统计分析 (更新至STATA10.0版)》(劳伦斯·汉密尔顿著,郭志刚等译,重庆大学出版社,2011)。
2.《社会统计分析与数据处理技术:STATA软件的应用》(杨菊华,中国人民大学出版社,2008)我个人觉得是最适合入门的教材。
梅园社区
3. 《数据管理与模型分析:STATA软件应用》(杨菊华,中国人民大学出版社,2012)。