机器学习回归分析(regressionanalysis)

更新时间:2023-05-09 02:25:44 阅读: 评论:0

机器学习回归分析(regressionanalysis)
____tz_zs学习笔记
监督学习(Supervid Learning)
监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,⽀持向量机等),如果预测的变量是连续的,我们称其为回归。
回归(Regression):Y变量为连续数值型(continuous numerical variable)
如:房价,⼈数,降⾬量
分类(Classification): Y变量为类别型(categorical variable)
如:颜⾊类别,电脑品牌,有⽆信誉
回归分析(regression analysis)
建⽴⽅程模拟两个或者多个变量之间的关系的过程
被预测的变量叫做:因变量(dependent variable), y, 输出(output)
被⽤来进⾏预测的变量叫做:⾃变量(independent variable), x, 输⼊(input)
在统计学中,回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的⼀种统计分析⽅法。运⽤⼗分⼴泛,回归分析按照涉及的变量的多少,分为⼀元回归和多元回归分析;按照⾃变量(百度百科中这⾥写的是因变量,个⼈觉得应该是⾃变量)的多少,可分为简单回归分析和多重回归分析;按照⾃变量和因变量之间的关系类型,可分为线性回归分析和⾮线性回归分析。如果在回归分析中,只包括⼀个⾃变量和⼀个因变量,且⼆者的关系可⽤⼀条直线近似表⽰,这种回归分析称为⼀元线性回归分析。如果回归分析中包括两个或两个以上的⾃变量,且⾃变量之间存在线性相关,则称为多重线性回归分析。在⼤数据分析中,回归分析是⼀种预测性的建模技术,它研究的是因变量(⽬标)和⾃变量(预测器)之间的关系。这种技术通常⽤于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究⽅法就是回归。
提醒:发现很多中⽂资料⾥,多元回归、多重回归等的概念及英⽂单词的对应均有错漏,根据维基百科及⼀些英⽂论⽂,归纳如下:
⼀般线性模型(General linear model)/多元回归(multivariate regression)多个⾃变量,多个因变量,是多重线性回归(Multiple linear regression)的推⼴。
多重线性回归(Multiple linear regression)是线性回归(linear regression )的推⼴(多个⾃变量),是(general linear models)的特例(⼀个因变量)。
当多元回归模型(multivariate regression model)中有多个预测变量(predictor variable)时,模型为多元多重回归(multivariate multiple regression)。
回归⽅程(regression equation)
回归⽅程(regression equation)是根据样本资料通过回归分析所得到的反映⼀个变量(因变量)对另⼀个或⼀组变量(⾃变量)的回归关系的数学表达式。回归直线⽅程⽤得⽐较多,可以⽤最⼩⼆乘法求回归直线⽅程中的a,b,从⽽得到回归直线⽅程。【所属类型:数学】
简单线性回归(Simple Linear Regression)
简单线性回归包含⼀个⾃变量(x)和⼀个因变量(y),两个变量的关系⽤⼀条直线来模拟。
简单线性回归模型
被⽤来描述因变量(y)和⾃变量(X)以及偏差(error)之间关系的⽅程叫做回归模型简单线性回归的模型是:
其中:β0、β1为参数,ε为偏差
简单线性回归⽅程
E(y) = β0+β1x
这个⽅程对应的图像是⼀条直线,称作回归线
其中,β0是回归线的截距
β1是回归线的斜率
E(y)是在⼀个给定x值下y的期望值(均值)
估计的简单线性回归⽅程
y=b0+b1x
这个⽅程叫做估计线性⽅程(estimated regression line)
其中,b0是估计线性⽅程的纵截距
b1是估计线性⽅程的斜率
y是在⾃变量x等于⼀个给定值的时候,y的估计值
计算公式:
逻辑的代码实现
# -*- coding: utf-8 -*-
"""
@author: tz_zs
"""
import numpy as np
# 传⼊数据,返回b0,b1的估计值
def fitSLR(x, y):
n = len(x)
dinominator = 0 #分母
numerator = 0  # 分⼦
for i in range(0, n):
numerator += (x[i] - np.mean(x))*(y[i] - np.mean(y))
dinominator += (x[i] - np.mean(x))**2
print("numerator:"+str(numerator))
print("dinominator:"+str(dinominator))
b1 = numerator/float(dinominator)
b0 = np.mean(y)/an(x))
return b0, b1
def predict(x, b0, b1):
return b0 + x*b1
x = [1, 3, 2, 1, 3]
y = [14, 24, 18, 17, 27]
b0, b1 = fitSLR(x, y)
print "intercept:", b0, " slope:", b1
x_test = 6
y_test = predict(6, b0, b1)
print "y_test:", y_test
运⾏结果:
numerator:20.0
dinominator:4.0
intercept: 10.0  slope: 5.0
y_test: 40.0
多重线性回归(Multiple linear regression,MLR)
多重线性回归(multiple linear regression) 是简单直线回归的推⼴,研究⼀个因变量与多个⾃变量之间的数量依存关系。多重线性回归⽤回归⽅程描述⼀个因变量与多个⾃变量的依存关系,简称多重回归。
多重回归模型
y=β0+β1x1+β2x2+ ... +βpxp+ε
其中:β0,β1,β2... βp是参数
ε是误差值
多重回归⽅程
E(y)=β0+β1x1+β2x2+ ... +βpxp
估计多重回归⽅程:
y_hat=b0+b1x1+b2x2+ ... +bpxp
⼀个样本被⽤来计算β0,β1,β2... βp的点估计b0, b1, b2,..., bp
# -*- coding: utf-8 -*-
"""
@author: tz_zs
"""
from numpy import genfromtxt
import numpy as np
from sklearn import datats,linear_model
'''
要使print全部打印⽽不省略(/gzhermit/article/details/72716619)
np.t_printoptions(threshold = 1e6)#设置打印数量的阈值,1e6 = 1000000.0此⽅法为设置⼀较⼤值
np.t_printoptions(threshold='nan')  #全部输出
'''
np.t_printoptions(threshold='nan')  #全部输出
dataPath = r"Delivery.csv"
deliveryData = genfromtxt(dataPath,delimiter=',')  # csv⽂件的分隔符是","
print "deliveryData:"
print deliveryData
X = deliveryData[:,:-1]
Y = deliveryData[:,-1]
print ("X:")
print (X)
print ("Y:")
print (Y)
# 线性回归⽅程
regr = linear_model.LinearRegression()
regr.fit(X,Y)
print "coefficients"
f_
print "intercept: "
print regr.intercept_
xPred = [102, 6]
yPred = regr.predict(xPred)
print "predicted y: "
print yPred
Logistic 回归(Logistic Regression)
logistic回归(Logistic regression) 与多重线性回归实际上有很多相同之处,最⼤的区别就在于他们的因变量不同,其他的基本都差不多,正是因为如此,这两种回归可以归于同⼀个家族,即⼴义线性模型(generalized linear model)。按照因变量的不同,如果是连续的,就是多重线性回归,如果是⼆项分布,就是logistic回归。
logistic回归的因变量可以是⼆分⾮线性差分⽅程类的,也可以是多分类的,但是⼆分类的更为常⽤,也更加容易解释。所以实际中最为常⽤的就是⼆分类的logistic回归。
|
.

本文发布于:2023-05-09 02:25:44,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/872372.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:回归   变量   分析
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图