Python数据分析和采集

更新时间:2023-05-28 17:54:14 阅读: 评论:0

              Python数据分析和采集
泰坦尼克号生存率预测
一、背景介绍
  1912年4月15日,载着1316号乘客和891名船员的豪华巨轮“泰坦尼克号"与冰山相撞而沉没,这场海难被认为是20世纪人间十大灾难之一.1985年,“泰坦尼克号"的沉船遗骸在北大西洋两英里半的海底被发现。XXXX家洛维特(比尔·帕克斯顿 饰演)亲自潜入海底,在船舱的墙壁上看见了一幅画,洛维持的发现立刻引起了一位老妇人(格劳瑞亚·斯图尔特 饰演)的注意。已经是101岁高龄的露丝称她就是画中的XX。在潜水舱里,露丝开始叙述当年在船上发生的故事。年轻的贵族XX露丝(凯特·温丝莱特 饰演)与穷画家杰克(莱昂纳多·迪卡普里奥 饰演)不顾世俗的偏见坠入爱河,然而就在1912年4月14日,一个风平浪静的夜晚,泰坦尼克号撞上了冰山,“永不沉没的"泰坦尼克号面临沉船的XX,罗丝和杰克刚萌芽的爱情也将经历生死的考验,最终不得不永世相隔.老态龙钟的罗丝讲完这段哀恸天地的爱情之后,把那串价值XX的项链“海洋之心”沉入海底,让它陪着杰克和这段爱情长眠海底。
解决问题的思路:先处理训练数据,如处理缺失数据,对乘客分类,XX,发出港口做LableEncoder标准化标签,将标签值统一转换成range(标签值个数—1)范围内,然后选择合适的分类模型做训练,再根据训练的模型对测试数据做获救预测,然后提交预测结果获得预测结果
二、寂静是什么意思CSV
逗号分隔值(XXma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。  用记事本打开,发现每一行数据中的数值用,隔开。
三、数据集的获取
  泰坦尼克数据集是kaggle中一个好的可选数据集数据的文件的下载
c:\iknow\docshare\data\cur_work\"
  提供的训练数据主要有以下特征
新生儿身高体重∙PassengerId =〉 乘客ID
清拌黄瓜
Survived =XX 是否生还
PcXXs =XX 乘客等级(1/2/3等舱位)
Name =〉 乘客姓名
XX =〉 XX
Age =〉 年龄
SibSp =XX 堂兄弟/妹个数
蚂蚁的本领Parch =XX 父母与小孩个数
Ticket =XX 船票信息
Fare =〉 票价
Cabin =XX 客舱
Embarked =〉 登船港口
根据这些训练数据训练模型,来XX测试数据中的乘客是否获救了,测试数据和训练数据相比就是只少了是否获救 ’Survived'这一列。
四、数据分析前的准备工作
除了常用的科学计算库Numpy和绘图库matplotlib之外,pandas也给python提供了XX助力
风景图画
1、安装pandas青少年xxx
2、安装matplotlib
大山深处唯美诗句
四、导入数据&查看基本信息
#encoding=utf-8XXimXXrt numpy as np
李小卫的复仇imXXrt pandas as pd
imXXrt matplotlib.pyplot as pltXXdata_src='titaXXc.csv'
df = pd。read_csv(data_src,header=# 导入数据
print df.info()  # 查看数据集的基本信息,
print df.describe() # 查看数据的摘要信息XXprint df.head()  # 查看前几行数据,方便了解数据具体情况
这里也有一个用于计算标准差的函数std,但在describe中已包括了计算标准差.标准差(Standard Deviation),在统计中最常使用作为c:\iknow\docshare\data\cur_work\"程度(statistical dispersion)上的c:\iknow\docshare\data\cur_work\"",它反映组内个体间的离散程度.
简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值.

本文发布于:2023-05-28 17:54:14,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/942795.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   训练   预测   露丝   饰演
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图