统计学中cv表⽰什么_深⼊浅出统计学之描述统计学
什么是统计?
统计是⼀些数字,它们通过某种有意义的⽅式对原始事实和数字进⾏提炼,使得仅仅通过观察原始数据⽆法⽴即⽔落⽯出的⼀些理念得以昭⽰。对统计的研究包括:统计数据的来源,计算⽅法及有效使⽤⽅法并得出结论。
为什么要学习统计学?
统计是以事实为基础,只要得到可靠的统计量,就能作出客观的决策,如有神助⼯进⾏精确的预测,还可以以有效的⽅式传达⽬标信息
什么是描述统计学?
描述统计学,我的理解是指通过图表形式对所搜集到的数据进⾏加⼯处理可视化后,分析得出规律。
描述统计常⽤的指标有哪些呢?
⼀ 平均值
年金现值公式
优点:信息量⼤
缺点:易受极端值的影响
⼆ 四分位数
四分位数也称四分位点,是指在统计学中把所有数值由⼩到⼤排列并分成四等份,处于三个分割点位置的数值
炒葫芦瓜
优点:不易受异常值影响
平方差和完全平方公式
分为上四分位数和下四分位数
可以使⽤Excel中的QUARTILE 函数 计算四分位数的数值;
四分位数可以识别出可能的异常值, 对异常值进⾏检查和处理
识别出可能的异常值:tukey‘s test⽅法
最⼩估计值:Q1-k(Q3-Q1)
最⼤估计值:Q3-k(Q3-Q1)
大便干燥吃什么药k=1.5 中度异常
k=3极度异常
三 标准差
标准差是描述典型值与均值距离的⼀种⽅法,描述数据的波动性。标准差越⼩,数值离均值越近。
ie浏览器升级变异系数(CV)=标准差/平均值
⽐较两组数据离散程度⼤⼩时,如两组数据的测量尺度相差太⼤或数据量纲不同,变异系数可以消除测量尺度和量纲的影响
四 标准分
燃气灶牌子排名
表⽰某个数值距离平均值多少个标准差,⽤标准分可以对不同数据集的数据进⾏⽐较。
1)表1购买商品字段
人才培养机制
ur_id:⽤户id
auction_id:物品编号(item_id)
cat_id: 商品种类ID(商品⼆级分类,表⽰商品属于哪个类别)
cat1: 商品种类ID(商品⼀级分类,表⽰商品属于哪个类别)
property:商品属性
buy_mount:购买数量
day:购买时间
2)表2
ur_id:⽤户id
birthday:出⽣⽇期
gender:性别(0⼥性;1男性;2未知的性别)
你想从该数据集中分析哪些业务问题?
1. 商品的购买量:对⼆级品类购买量进⾏四分位计算,可以观察购买商品的分布。字段选择:cat_id,buy_mount
· 分析男⼥婴⼉购买情况:对性别字段进⾏处理,观察是否存在性别购买的规律。字段选择:ur_id,gender,buy_mount,cat_id
· 购买时间分:对购买时间进⾏统计,观察是否存在季节规律,做针对性的季节性促销。字段选择:day,buy_mount
· 购买年龄:对婴⼉的出⽣⽇期进⾏统计,是否存在规律,是否可以针对性的对此年纪的婴⼉提出其他增加销量的⽅案。字段选择:ur_id,age,buy_mount,cat_id
· 你想从该数据集中得到哪些描述统计信息?
· 购买数量的平均值,四分位数,标准差;
· 宝宝年龄的平均值,四分位数,标准差;
没带驾驶证开车怎么处罚· 购买时间的标准差:研究购买时间是否波动;
数据来源