首页 > 美文鉴赏

pythonsklearn逻辑回归sgd和lr_python之sklearn-分类算法-3。。。

更新时间:2023-06-11 21:19:45 阅读：评论：0

pythonsklearn逻辑回归sgd和lr_python之sklearn-分类算法-

3。。。

⼀，逻辑回归的应⽤场景

⼴告点击率

是否为垃圾邮件

是否患病

⾦融诈骗

虚假账号

⼆，逻辑回归的原理

1，输⼊

逻辑回归的输⼊是线性回归的结果：

2，激活函数

1)sigmoid函数

回归的结果输⼊到sigmod函数当中

输出结果：[0，1]区间中的⼀个概率值，默认为0.5的门限值

2)注意：

大悲山

逻辑回归的最终分类是通过某个类别的概率来判断是否属于某个类别，并且这个类别默认标记为1(正例)，另⼀个标记为0(反例)。默认⽬标值少的为正例。

3，损失函数

1)对数似然损失公式

逻辑回归的损失，称之为对数似然损失，公式如下：

2)综合完整损失函数如下：

3)理解对数似然损失⽰例如下：

如上可知，降低损失需要(正例减少sigmoid返回结果，反例增加sigmod返回结果)

4，优化⽅法

同样使⽤梯度下降优化算法，去减少损失函数的值，这样去更新逻辑回归前⾯对应算法的权重参数，提升原本属于1类别的概率，降低原本为0类别的概率。

三，逻辑回归API恋母性话

sklearn.linear_model.LogisticRegression(solver=‘liblinear’,penalty=‘i2’,c=1.0)

solver：优化求解⽅式(默认开源的liblinear库实现，内部使⽤了坐标轴下降法来迭代优化损失函数)

sag：根据数据集⾃动选择，随机平局梯度下降

penalty：正则化种类

c：正则化⼒度

默认将类别数量少的当正例

四，案例：癌症分类预测

数据源：archive.ics.uci.edu/ml/machine-learning-databas/breast-cancer-wisconsin/

import pandas as pd

import numpy as np

del_lection import train_test_split

from sklearn.preprocessing import StandardScaler

from sklearn.linear_model import LogisticRegression

def logisticregression():咪咪影场

'''逻辑回归癌症预测'''

# 确定数据columns数值

columns = ["Sample code number","Clump Thickness","Uniformity of Cell Size","Uniformity of Cell Shape","Marginal Adhesion","Single Epithelial Cell Size","Bare Nuclei","Bland Chromatin","Normal Nucleoli","Mitos","Class"]

data = pd.read_csv("breast-cancer-wisconsin.data",names=columns)

# 去掉缺失值

data.dropna(axis=0,inplace=True,how="any")

# 提取⽬标值

target = data["Class"]

# 提取特征值

data = data.drop(["Sample code number"],axis=1).iloc[:,:-1]

# 切割训练集和测试集

x_train,x_test,y_train,y_test = train_test_split(data,target,test_size=0.3)

# 进⾏标准化

std = StandardScaler()

x_train = std.fit_transform(x_train)

x_test = std.fit_transform(x_test)

# 逻辑回归进⾏训练和预测

lr = LogisticRegression()

lr.fit(x_train,y_train)

print("逻辑回归权重：",lr.coef_)

print("逻辑回归偏置：",lr.intercept_)

# 逻辑回归测试集预测结果

pre_result = lr.predict(x_test)

print(pre_result)

# 逻辑回归预测准确率

sore = lr.score(x_test,y_test)

print(sore)

if __name__ == '__main__':

logisticregression()

五，⼆分类的评估⽅法–(精确率(Precision)与召回率(Recall))

1，精确率：

预测结果为正例样本中真是为整理的⽐例(查的准)

2，召回率：

真是为正例的样本中预测结果为正例的⽐例(查的全，对正样本的区分能⼒)

3，F1-score

反应了模型的稳健型

4，模型评估API

y_true: 真实⽬标值

y_pred: 估计器预测⽬标值

target_names: ⽬标类名称

return: 每个类别精准率与召回率

5，代码

import pandas as pd

党支部公开承诺书

import numpy as np

del_lection import train_test_split

from sklearn.preprocessing import StandardScaler

from sklearn.linear_model import LogisticRegression

ics import classification_report

def logisticregression():

'''逻辑回归癌症预测'''

# 确定数据columns数值

data = pd.read_csv("breast-cancer-wisconsin.data",names=columns)

# 去掉缺失值

data.dropna(axis=0,inplace=True,how="any")

# 提取⽬标值

target = data["Class"]

# 提取特征值

data = data.drop(["Sample code number"],axis=1).iloc[:,:-1]

# 切割训练集和测试集

x_train,x_test,y_train,y_test = train_test_split(data,target,test_size=0.3)

# 进⾏标准化

奥运会赛程std = StandardScaler()

x_train = std.fit_transform(x_train)

x_test = std.fit_transform(x_test)

# 逻辑回归进⾏训练和预测

lr = LogisticRegression()

lr.fit(x_train,y_train)

# 得到训练集返回数据

# print("逻辑回归权重：",lr.coef_)

# print("逻辑回归偏置：",lr.intercept_)

# 逻辑回归测试集预测结果

pre_result = lr.predict(x_test)

# print(pre_result)

提高图片分辨率# 逻辑回归预测准确率

sore = lr.score(x_test,y_test)

print(sore)

# 精确率(Precision)与召回率(Recall)

report = classification_report(y_test,pre_result,target_names=["良性","恶性"]) print(report)

if __name__ == '__main__':

logisticregression()

六，ROC曲线与AUC指标

问题：如何衡量样本不均衡下的评估？

1，ROC曲线与FPR

TPR = TP / (TP + FN)

所有真实类别为1的样本中，预测类别为1的⽐例

FPR = FP / (TP + FN)

所有真实类别为0的样本中，预测类别为1的⽐例

2，ROC曲线

ROC曲线的横轴就是FPRate，纵轴就是TPRate，当⼆者相等时，表⽰的意义则是：对于不论真实类别时1还是0的样本，分类器预测为1的概率是相等的，此时AUC为0.5 。

3，AUC指标

雨后小故事观看AUC的概率意义时随机取⼀对正负样本，正样本得分⼤于负样本的概率。

AUC的最⼩值为0.5，最⼤值为1，取值越⾼越好。

冒险小王子

AUC=1，完美分类器，采⽤这个预测模型时，不管设定什么门限值都能得出完美预测。绝⼤多数预测的场合，不存在完美分类器。

0.5

AUC=0.5，跟随机猜测⼀样(例：丢铜板)，模型没有预测价值。

AUC<0.5，⽐随机猜测还差；但只要总是反预测⽽⾏，就优于随机猜测，因此不存在AIC<0.5的情况

最终AUC的范围在[0.5，1]，并且越接近1越好。

4，AUC计算API

ics import roc_auc_score

<_auc_score(y_true,y_score)

计算ROC曲线⾯积，即AUC值

y_true：每个样本的真是类别，必须为0(反例)，1(正例)标记

y_score：每个样本预测的概率值

import pandas as pd

import numpy as np

del_lection import train_test_split

from sklearn.preprocessing import StandardScaler

from sklearn.linear_model import LogisticRegression

ics import classification_report,roc_auc_score

def logisticregression():

'''逻辑回归癌症预测'''

# 确定数据columns数值

data = pd.read_csv("breast-cancer-wisconsin.data",names=columns)

# 去掉缺失值

本文发布于:2023-06-11 21:19:45，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/89/1034237.html

上一篇：FDA指南混合均匀性接受标准

下一篇：基于鼠标移动轨迹的真随机数产生方法

标签：预测回归逻辑样本类别

留言与评论（共有 0 条评论）