Python数据分析和采集

更新时间:2023-05-28 17:54:14 阅读：评论：0

Pythoｎ数据分析和采集

泰坦尼克号生存率预测

一、背景介绍

19１2年4月15日，载着1３1６号乘客和891名船员的豪华巨轮“泰坦尼克号"与冰山相撞而沉没，这场海难被认为是20世纪人间十大灾难之一.1９8５年，“泰坦尼克号"的沉船遗骸在北大西洋两英里半的海底被发现。XXXX家洛维特(比尔·帕克斯顿　饰演）亲自潜入海底，在船舱的墙壁上看见了一幅画,洛维持的发现立刻引起了一位老妇人（格劳瑞亚·斯图尔特饰演）的注意。已经是101岁高龄的露丝称她就是画中的XX。在潜水舱里，露丝开始叙述当年在船上发生的故事。年轻的贵族XX露丝（凯特·温丝莱特饰演）与穷画家杰克(莱昂纳多·迪卡普里奥　饰演）不顾世俗的偏见坠入爱河，然而就在19１2年4月14日,一个风平浪静的夜晚，泰坦尼克号撞上了冰山,“永不沉没的"泰坦尼克号面临沉船的XX,罗丝和杰克刚萌芽的爱情也将经历生死的考验，最终不得不永世相隔.老态龙钟的罗丝讲完这段哀恸天地的爱情之后,把那串价值XX的项链“海洋之心”沉入海底，让它陪着杰克和这段爱情长眠海底。

解决问题的思路：先处理训练数据,如处理缺失数据,对乘客分类，XX,发出港口等做LablｅEｎｃoｄer（标准化标签,将标签值统一转换成raｎge(标签值个数—1)范围内）,然后选择合适的分类模型做训练,再根据训练的模型对测试数据做获救预测,然后提交预测结果获得预测结果。

二、寂静是什么意思CSV

逗号分隔值（XXmａ－Sepaｒated Ｖaluｅs，CSV，有时也称为字符分隔值,因为分隔字符也可以不是逗号)，其文件以纯文本形式存储表格数据（数字和文本）。用记事本打开,发现每一行数据中的数值用”,”隔开。

三、数据集的获取

泰坦尼克数据集是kａggle中一个好的可选数据集，数据的文件的下载

。

c:\iknow\docshare\data\cur_work\＂

提供的训练数据主要有以下特征：

新生儿身高体重∙PassｅngerIｄ　＝〉　乘客IＤ

清拌黄瓜

∙Ｓurvｉved =XX 是否生还

∙PｃXXs =XX 乘客等级(1/2/3等舱位)

∙Name ＝〉　乘客姓名

∙XX =〉 XX

∙Ａge =〉　年龄

∙SibＳp =XX 堂兄弟/妹个数

蚂蚁的本领∙Paｒch　=XX 父母与小孩个数

∙Ticket ＝XX 船票信息

∙Farｅ =〉　票价

∙Caｂｉn =XX　客舱

∙Embａrkｅd =〉登船港口

根据这些训练数据训练模型，来XX测试数据中的乘客是否获救了，测试数据和训练数据相比就是只少了是否获救 ’Surｖived'这一列。

四、数据分析前的准备工作

除了常用的科学计算库Numpy和绘图库matｐloｔlib之外,pａnｄas也给pｙthｏn提供了XX助力

风景图画

1、安装panｄａs青少年xxx

2、安装ｍａtplotlib

大山深处唯美诗句

四、导入数据＆查看基本信息

#encｏｄiｎｇ＝ｕｔｆ－8XXimXXrt nuｍpｙａｓ np
李小卫的复仇ｉｍXXrt　pandａs ａs ｐd
imXXrt　mａtplotlib.pｙｐlot　ａs pltXXｄata_src='titａXXｃ．ｃsv＇
dｆ = pd。ｒead_csｖ（ｄatａ_ｓｒc，hｅadｅr=０） #　导入数据
ｐｒiｎｔ df.inｆo(）＃查看数据集的基本信息，
pｒint dｆ.dｅsｃribｅ（）＃　查看数据的摘要信息XXｐrｉｎt ｄf.ｈead() ＃查看前几行数据,方便了解数据具体情况

这里也有一个用于计算标准差的函数ｓtd,但在descriｂｅ中已包括了计算标准差.标准差（StａnｄａrｄＤｅviatioｎ），在统计中最常使用作为c:\iknow\docshare\data\cur_work\＂程度(ｓtatistical dｉｓｐｅrsiｏn）上的c:\iknow\docshare\data\cur_work\＂＂,它反映组内个体间的离散程度．

简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值.

本文发布于:2023-05-28 17:54:14，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/89/942795.html

上一篇：2023年选择坚持字优质

下一篇：私募基金购买流程是怎么样的

标签：数据训练预测露丝饰演

留言与评论（共有 0 条评论）