1.数据挖掘——房价预测项⽬(⼀)
(AnacondaJupyterNotebook)
前段时间,学校安排我们进⾏了线上的⽣产实习。实习的内容是通过数据分析实现房价的预测,感觉还是挺有意思的,记录下来后边想看的时候还能再看看。
⼤数据时代下,分类和预测作为数据挖掘核⼼应⽤,已经在各个领域得到⼴泛应⽤,未来预测分析必定会成为所有领域的关键技术。整个项⽬⼤致就分了下⾯的这⼏个流程:收集数据(海量数据积累)、数据分析(预处理数据)、数据建模(特征⼯程)、数据模拟(模型训练)、经验总结 (评估迭代)。
前期准备
先说说为了实现项⽬所做的前期的准备。
Anaconda
我们⽤到的环境是Anaconda。Anaconda指的是⼀个开源的Python发⾏版本,其包含了conda、Python等180多个科学包及其依赖项。
有很多⼈都会问:我已经安装了Python,那么为什么还需要Anaconda呢?
1.附带常⽤数据科学包,它附带了conda、Python和多个科学包及其依赖项。因此你可以⽤Anaconda⽴即开始处理数据。
2.管理包。Anaconda 是在 conda(⼀个包管理器和环境管理器)上发展出来的。在数据分析中,你会⽤到很多第三⽅的包,⽽
conda(包管理器)可以很好的帮助你在计算机上安装和管理这些包,包括安装、卸载和更新包。
3.管理环境。为什么需要管理环境呢?同时安装两个Python版本可能会造成许多混乱和错误,这时候conda就可以帮助你为不同的项⽬建⽴不同的运⾏环境。
在这⾥提供两个Anaconda的国内源:
安装完成后⼤家在Anaconda Prompt的命令窗⼝中输⼊
conda list
查看列表中各名称是否包含Numpy、Pandas、Matplotlib、Seaborn等
如果没有,可以在当前的窗⼝中⽤命令来完成相应的操作
conda install xx ##⽤来安装第三⽅库
conda update xx ##⽤来更新第三⽅库
Jupyter Notebook
再说说Jupyter Notebook。
此前被称为 IPython notebook)是⼀个交互式笔记本,⽀持运⾏ 40 多种编程语⾔。Jupyter Notebook 的本质是⼀个 Web 应⽤程序,便于创建和共享⽂学化程序⽂档,⽀持实时代码,数学⽅程,可视化和 Markdown。 ⽤途包括:数据清理和转换,数值模拟,统计建模,机器学习等等。
配置Jupyter为⾃定义的⽂件⽬录:
系统盘当前⽤户下找到.jupyter⽂件夹,⽤记事本打开
找到book_dir = ⼀⾏,⼤概在260⾏上下,填⼊⾃定义⽂件夹路径。(#必须删除,且前⾯不能留空格)
找到JupyterNotebook快捷⽅式位置
右键选择属性,删掉⽬标框⾥%USERPROFILE%
完成设置后,打开Jupyter notebook 进⾏测试:
此外给⼤家介绍⼀些 ipython中常⽤的快捷键:
命令模式(边框为蓝⾊) Enter : 转⼊编辑模式 、A : 在上⽅插⼊新单元、 B : 在下⽅插⼊新单元
编辑模式(边框为绿⾊) :Shift-Enter : 运⾏本单元,选中下个单元、 Ctrl-Enter : 运⾏本单元、 Alt-Enter : 运⾏本单元,在其下插⼊新单元、 Tab : 代码补全或缩进、 Shift-Tab : 提⽰、 Ctrl-] : 缩进、 Ctrl-[ : 解除缩进 、Ctrl-A : 全选、 Ctrl-Z : 复原