数据分析与挖掘
⼀、数据分析与挖掘
⼀、数据分析与挖掘概述
1、数据分析与挖掘定义及关系
数据分析:对已知的数据进⾏分析,然后提取出⼀些有价值的信息。⽐如统计出平均数、标准差等信息,数据分析的数据量有时有时不会太⼤。
数据挖掘:是指对⼤量的数据进⾏分析与挖掘,得到⼀些未知的、有价值的信息等。⽐如从⽹站的⽤户或者⽤户⾏为数据中挖掘出⽤户潜在需求信息,从⽽对⽹站进⾏改善等。
数据分析与挖掘密不可分,数据挖掘是数据分析的提升。
2、数据分析与挖掘的应⽤场景
绍兴特色美食 数据挖掘技术可以帮助我们更好的发现事物之间的规律。
我们可以利⽤数据挖掘技术实现数据规律的探索,⽐如发现窃电⽤户、挖掘⽤户潜在需求、实现信息的
个性化推送、发现疾病与症状、甚⾄疾病与药物之间的规律等等。
3、数据挖掘的过程
1. 确定⽬标
2. 获取数据(⾃有数据、外部数据——常⽤的⼿段有通过爬⾍采集或者下载⼀些统计⽹站发布的数据)
3. 数据探索
4. 数据预处理(数据清洗(去掉脏数据)、数据集成(集中)、数据变换(规范化)、数据规约(精简))
5. 挖掘建模(分类、聚类、关联、预测)
6. 模型评价与发布
城市展览馆 4、数据分析与挖掘的相关模块
1、相关模块的作⽤
1. numpy可以⾼效处理数据、提供数组⽀持、很多模块都依赖它。⽐如pandas、scipy、matplotlib都依赖它,所以这个模块时基础。
2. pandas⽤的最多的⼀个模块,主要⽤于进⾏数据探索和数据分析。
3. matplotlib作图模块,解决可视化问题
4. scipy主要进⾏数值计算,同时⽀持矩阵运算,并提供了很多⾼等数据处理功能,⽐如积分、傅⾥叶变换、微分⽅程求解等。
5. statsmodels模块主要⽤于统计分析
6. Gensim模块朱涛⽤于⽂本挖掘
7. sklearn模块⽤于机器学习,keras模块⽤于深度学习
2、相关模块的安装与技巧
模块安装的顺序与⽅式建议如下:
1. numpy、mkl(建议下载安装(包名规范:numpy-1.15.2+mkl-cp36-cp36m-win_amd64.whl))
2. pandas(建议⽹络安装:pip3 install pandas)
3. matplotlib(建议⽹络安装:pip3 install matplotlib)
4. scipy(建议下载安装(包名规范:scipy-1.1.0-cp36-cp36m-win_amd64.whl))
5. statsmodels(建议⽹络安装:pip3 install statsmodels)
6. Gensim(建议⽹络安装:pip3 install Gensim)
⼆、数据分析与挖掘相关模块使⽤
1、numpy的使⽤
import numpy
x = numpy.array(["a","33","4","12"])
print(x)
print(x[2])
print(x.sort())
print(x)
2、pandas的使⽤
import pandas as pda
import pymysql
conn = t(host="127.0.0.1", ur="test", passwd="test", db="chaxun") sql = "lect * from chaxun"
data = ad_sql(sql,conn)
des = data.describe()
print(des)
i = ad_csv("/data/test.csv")
i.describe()
excel = ad_excel("/data/abc.xls")
3、matplotlib的使⽤
直⽅图可以很⽅便知道数据的分部情况。
1、折线图/散点图plot
散点、颜⾊、线条是可以叠加使⽤的
import matplotlib.pylab as pyl
x = [1,2,3,4,8]
y = [5,7,1,9,2]
竖起大拇指# 绘制:plot(x轴数据,y轴数据,展现形式) 默认是最基本的折线图
pyl.plot(x,y,'o')
# 展现
pyl.show()
设置成不同的颜⾊
1 c-cyan--青⾊
2 r-red--红⾊
3 m-magente--品红
4 g-green--绿⾊
5 b-blue--蓝⾊
6 y-yellow--黄⾊
7 k-black--⿊⾊联系电话的英文
8 w-white--⽩⾊
设置线条的样式
1 - 直线
2 -- 虚线
3 -. -.形式
4 : 细⼩虚线
设置点的样式
1 s ⽅形
2 h 六⾓形
4 * 星形
5 + 加号
6 x x形
7 d 菱形
8 D 菱形
9 p 五⾓形
pyl.plot(x, y, '--*y')
pyl.show()
添加图表的标题,标题
pyl.plot(x, y, '--*r')
pyl.title('test')
pyl.xlabel("date")
pyl.ylabel('score')
pyl.show()
设定x与y轴的范围:在⼀个图中绘制多条
x1 = [4,15,9,17,20]
y1 = [2,3,7,19,21]
pyl.plot(x, y, '--*r')
pyl.plot(x1, y1, '-Hy')
pyl.title('test')
pyl.xlabel("date")
pyl.ylabel('score')
pyl.xlim(0,30)
pyl.ylim(0,25)
pyl.show()
2、直⽅图
import numpy as npy
data = npy.random.random_integers(1,20,1000) #在(最⼩值,最⼤值,个数)# print(data)
data2 = al(5.0, 2.0, 20) #(均数, 西格玛, 个数)
print(data2)
直⽅图
import numpy as npy
data3 = al(10.0, 1.0, 1000)
pyl.hist(data3)
pyl.show()
设置直⽅图的上下限、取消轮廓
import numpy as npy
业余爱好
data4 = npy.random.random_integers(10,30,1000)
pyl.hist(data4)
# 设置直⽅图的上下限
sty = npy.arange(2, 30, 1)
# 取消轮廓
pyl.hist(data4, sty, histtype='stepfilled')
pyl.show()
#
pyl.subplot(5, 3, 2) #(⾏, 列, 当前区域)
pyl.show()
import numpy as npy
pyl.subplot(2, 2, 1)
x1 = [1,2,3,4,5]
y1 = [5,3,5,23,5]
pyl.plot(x1, y1)
pyl.subplot(2, 2, 2)
x2 = [5,2,3,8,6]
y2 = [7,9,12,12,3]
pyl.plot(x2, y2)
pyl.subplot(2, 1, 2)
x3 = [5,6,7,10,19,20,29]
y3 = [6,2,4,21,5,1,5]
pyl.plot(x3, y3)
pyl.show()
excel表格处理
import pandas as pda
import numpy as npy
import matplotlib.pylab as py1
data = ad_excel(
"E:/Data/python_project/study/Linux_study/data_analysis_and_mining/hexun.xls"
)
# 查看excel表的⾏列数
# print(data.shape)
# 结果:(5697, 6)
# 查看指定单元格的数据:data.values[第⼏⾏][第⼏列]
# print(data.values) 显⽰所有的数据
# print(data.values[0][1])
# 数据转置
data1 = data.T
# print(data1)
y1 = data1.values[3]
x1 = data1.values[4]
# py1.plot(x1, y1)
# py1.show()
x2 = data1.values[0]
py1.plot(x2, y1)
py1.show()
三、导⼊数据并分析
1、导⼊csv数据
csv是⼀种常见的数据存储格式,基本上我们遇到的数据都可以转为这种存储格式。在Python数据分析中,使⽤pandas模块导⼊csv数据。
import pandas as pda
i = ad_csv("/data/test.csv")
i.describe()
2、导⼊excel数据
excel是⼀种表格⽂件,在Python数据分析,也可以使⽤pandas模块导⼊excel表格⾥⾯的数据。
import pandas as pda
excel = ad_excel("/data/abc.xls")
excel.describe()
银饰怎么保养 3、分析DB(MySQL)数据
import pandas as pda
import pymysql
conn = t(host="127.0.0.1", ur="test", passwd="test", db="chaxun")
sql = "lect * from chaxun"
data = ad_sql(sql,conn)
des = data.describe()
print(des)
4、导⼊html数据
使⽤pandas,可以直接从html⽹页中加载对应table表格中的数据,但是在使⽤read_html()之前,需要安装html5lib模块和beautifulsoup4模块。
import pandas as pda
# 只读取⽹页中的表格
web_table = ad_html("/")
print(web_table)
5、导⼊⽂本数据
可以直接导⼊⽂本数据
import pandas as pda
txt_table = ad_table("")
四、数据探索与数据清洗
1、数据探索与数据清洗的⽬的与关系
数据探索的⽬的:及早发现数据的⼀些简单规律或特征。
东莞石龙金沙湾
数据清洗的⽬的:留下可靠数据,避免脏数据的⼲扰。
这两者没有严格的先后顺序,经常在⼀个阶段进⾏。
2、数据探索的核⼼
1. 数据质量分析(跟数据清洗密切联系)
2. 数据特征分析(分布、对⽐、周期性、相关性、常见统计量等)
3、数据清洗实战
推广普通话的内容 数据清洗可以按如下步骤进⾏:
1. 缺失值处理(通过describe与len直接发现,通过0数据发现)
2. 异常值处理(通过散点图发现)