统计图形和模拟视角下的模型理论解析
谢益辉∗
2010年4月25日
摘要
统计模型往往来自于抽象的数学理论,但我们可以通过统计模拟和统计图形的手段去分析、解读统计模型,降低它们的抽象程度,绕过对统计
使用者并不重要的数学细节,使之易于理解和学习;进一步,统计图形和
统计模拟也可以作为统计建模前的启发工具和建模后的探索工具。本文的
研究中心为统计模型,但研究角度并非传统的数学理论,而是分析了统计
图形和统计模拟对统计模型在学习和应用上的辅助作用,并给出了大量示
例。
第一节中,我们回顾了统计图形和统计模拟各自的发展和优势,并辅之以案例说明它们在建模中的不可替代的作用;第二节中,我们首先以t检
验为例,用图形和模拟分析了模型方法假设条件的稳健性,其次以多元回
归为例,用反例解除人们对模型的常见误解,然后以交互作用为例,提出
对经典图示方法的补充,再以最小中位数平方回归为例,用图形和模拟的
方法直观说明了模型的缺陷所在,最后以离群点检测为例,提出了一种模
拟的思路,可作为对传统离群点检测方法的补充;第三节中,我们继续研
尚德实验学校
究了图形和模拟在模型应用过程中的作用,以LOWESS方法、假设检验以
你见或不见我及Tukey首尾计数法则为例;第四节对本文作出了小结以及未来展望。本文
所有计算和作图都基于R语言。
关键词:统计模拟;统计图形;统计模型;统计理论;统计教学;R语言湖州康城国际
建筑管理Abstract
Statistical models are usually bad on abstract mathematical theories, but we can analyze and interpret models from the viewpoint of statistical
simulation and graphics,so that models can be less abstract and easier to ∗Email:xie@yihui.name;主页:yihui.name。版权声明:本文电子版采用Creative Com-mons许可证“署名—非商业性使用—相同方式共享2.5中国大陆”,该许可证的全文可以从http: //creativecommons/licens/by-nc-sa/2.5/cn/获得。
1
learn,since we have ignored the non-esntial mathematical details.Fur-thermore,we can also u statistical graphics and simulation to obtain in-tuition before modelling and explore models after they have been built. This paper is focud on statistical models,but the key point is not on the mathematical theories;instead,we mainly introduce the assistance of sta-tistical graphics and simulation to learning and using statistical models, and we give veral examples to illustrate our ideas.
Firstly,we give an overview to the development and advantages of statistical graphics and simulation,and argue that they cannot be replaced by modelling in some cas.Secondly,we explain
the role of graphics and simulation in interpreting model theories in four aspects:to verify the robustness of model assumptions(t test under heteroscedasticiy),to explain model concepts(the meaning of conditioning and interaction in linear models),to validate model properties(least median regression),and to gain new ideas by the intuition from graphics and simulation(outlier detection in regression).Thirdly,we explore the applications of graph-ics and simulation in data analysis andfind that they can help us know more about the relationship between variables,extract information beyond models and update the old rules-of-thumb which are no longer appropri-ate.Finally we conclude with a discussion on the current situation of statis-tical teaching and emphasize that we should make better u of the increas-ing computing power in statistical education and applications,besides,the powerful R language is also briefly introduced in the end.
Keywords:simulation,statistical graphics,statistical models,statistical theories,teaching,R language
目录
1研究背景1
1.1图形和模拟的发展及优势 (1)
1.2BinormCircle数据案例 (4)
2阐释模型理论6
2.1检验理论假设条件 (6)
2.2直观解释模型概念 (11)
2.3快速验证模型性质 (14)
2.4启发新型理论思路 (16)
3探索模型应用20
3.1深入探索变量间关系 (21)
3.2提供模型之外的信息 (24)
3.3更新陈旧的经验法则 (28)
会计咨询4小结与展望30
A MSG程序包33
A.1函数说明 (34)
A.2数据说明 (34)
参考文献34索引40
插图
1寻找二维大数据中隐藏的特征 (5)
2假设等方差和异方差对t检验结果的影响(样本量相同) (8)
3假设等方差和异方差对t检验结果的影响(样本量不同) (9)
4不同样本量组合下的t检验P值之差 (11)
5控制变量z之后y与x的关系 (13)
heiying6连续型自变量的交互作用气泡图 (15)estimated
7LMS回归的稳健性及其缺点 (17)desktop是什么意思
i
8用部分抽样方法诊断多个离群点 (19)
9中国政府网站中的百分比数据LOWESS图 (22)
10海拔高度与物种数目的LOWESS曲线 (23)
11Student的睡眠增量数据:箱线图 (25)
12Student的睡眠增量数据:小提琴图 (27)cryonmyshoulder
上海花艺培训
13两组受试者睡眠增量均值的分布 (29)
14Tukey首尾计数的经验法则与常规检验的P值 (31)
ii
1研究背景1
1研究背景
统计图形的历史源远流长,种类繁多,根据Friendly and Denis(2001)的记录,世界上最早的统计图形主要起源于地图,而史上有记载的最古老地图大约诞生于公元前6200年。众所周知,地图的作用在于提供地理位置的导航和探索。统计图形经过数千年的发展,虽然形式和工具发生了巨大的变革,但其目的始终没有改变,就是通过可视化的手段引导读者(或用户)去探索和发现信息。由于统计图形可以充分利用人的视觉系统,因此它相比起复杂的数学理论来说具有“使用简便直观、传达信息迅速”的优势。
统计模拟则通常是从计算的角度先构造一个满足数学理论假设的环境,然后按照数学理论的过程描述直接由计算得到结果。类似地,统计模拟也是一种便捷的手段,它可以用来辅助验证理论的正确性、解释理论的内在作用机理,而不需要繁琐的数学推演。
我们知道数学理论在统计学的发展中扮演了重要的角色,甚至可以说没有数学则没有统计学。历史上统计学的重大理论突破,几乎无一不是基于数学理论基础的;但从另一方面来说,在学科间合作日益加强的今天,我们却不可能要求统计学的使用者全都精通统计方法背后的数学理论,所以我们需要适当的工具来绕过数学的障碍,却又不能简单忽略数学理论的重要性。
在这样的背景下,本文提出统计图形和统计模拟这两种途径(如无特殊说明,下文的“图形”和“模拟”分别特指“统计图形”和“统计模拟”),用以分析和探索统计模型理论,并对统计建模和应用提供进一步指
导。如前文所述,这两种方法都具有简便快捷的特征,因此它们尤其能为统计模型初学者构造良好的沟通媒介和探索工具。同时,统计计算和统计图形在很多情况下都紧密结合在一起,而统计模拟是统计计算的重要组成部分,所以统计模拟和统计图形的结合可作为解读统计模型的自然载体。
1.1图形和模拟的发展及优势
学界对统计图形的研究主要限于数据的可视化:早期可追溯至历史上第一幅饼图(Playfair,1801),以及后来著名的“提灯女士”南丁格尔的玫瑰图(Nightingale,1858)等;近代统计图形以Tukey(1977)的探索性数据分析为里程碑式的起点,继而诞生了大批具有数理统计意义和计算机应用的图形著作和图形种类,如我们熟知的箱线图(McGill et al.,1978),