Python数据分析和采集
泰坦尼克号生存率预测
一、背景介绍
1912年4月15日,载着1316号乘客和891名船员的豪华巨轮“泰坦尼克号"与冰山相撞而沉没,这场海难被认为是20世纪人间十大灾难之一.1985年,“泰坦尼克号"的沉船遗骸在北大西洋两英里半的海底被发现。XXXX家洛维特(比尔·帕克斯顿 饰演)亲自潜入海底,在船舱的墙壁上看见了一幅画,洛维持的发现立刻引起了一位老妇人(格劳瑞亚·斯图尔特 饰演)的注意。已经是101岁高龄的露丝称她就是画中的XX。在潜水舱里,露丝开始叙述当年在船上发生的故事。年轻的贵族XX露丝(凯特·温丝莱特 饰演)与穷画家杰克(莱昂纳多·迪卡普里奥 饰演)不顾世俗的偏见坠入爱河,然而就在1912年4月14日,一个风平浪静的夜晚,泰坦尼克号撞上了冰山,“永不沉没的"泰坦尼克号面临沉船的XX,罗丝和杰克刚萌芽的爱情也将经历生死的考验,最终不得不永世相隔.老态龙钟的罗丝讲完这段哀恸天地的爱情之后,把那串价值XX的项链“海洋之心”沉入海底,让它陪着杰克和这段爱情长眠海底。
解决问题的思路:先处理训练数据,如处理缺失数据,对乘客分类,XX,发出港口等做LableEncoder(标准化标签,将标签值统一转换成range(标签值个数—1)范围内),然后选择合适的分类模型做训练,再根据训练的模型对测试数据做获救预测,然后提交预测结果获得预测结果。
二、寂静是什么意思CSV
逗号分隔值(XXma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。 用记事本打开,发现每一行数据中的数值用”,”隔开。
三、数据集的获取
泰坦尼克数据集是kaggle中一个好的可选数据集,数据的文件的下载
。
c:\iknow\docshare\data\cur_work\"
提供的训练数据主要有以下特征:
新生儿身高体重∙PassengerId =〉 乘客ID
清拌黄瓜
∙Survived =XX 是否生还
∙PcXXs =XX 乘客等级(1/2/3等舱位)
∙Name =〉 乘客姓名
∙XX =〉 XX
∙Age =〉 年龄
∙SibSp =XX 堂兄弟/妹个数
蚂蚁的本领∙Parch =XX 父母与小孩个数
∙Ticket =XX 船票信息
∙Fare =〉 票价
∙Cabin =XX 客舱
∙Embarked =〉 登船港口
根据这些训练数据训练模型,来XX测试数据中的乘客是否获救了,测试数据和训练数据相比就是只少了是否获救 ’Survived'这一列。
四、数据分析前的准备工作
除了常用的科学计算库Numpy和绘图库matplotlib之外,pandas也给python提供了XX助力
风景图画
1、安装pandas青少年xxx
2、安装matplotlib
大山深处唯美诗句
四、导入数据&查看基本信息
#encoding=utf-8XXimXXrt numpy as np
李小卫的复仇imXXrt pandas as pd
imXXrt matplotlib.pyplot as pltXXdata_src='titaXXc.csv'
df = pd。read_csv(data_src,header=0) # 导入数据
print df.info() # 查看数据集的基本信息,
print df.describe() # 查看数据的摘要信息XXprint df.head() # 查看前几行数据,方便了解数据具体情况
这里也有一个用于计算标准差的函数std,但在describe中已包括了计算标准差.标准差(Standard Deviation),在统计中最常使用作为c:\iknow\docshare\data\cur_work\"程度(statistical dispersion)上的c:\iknow\docshare\data\cur_work\"",它反映组内个体间的离散程度.
简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值.