Pyspark 线性回归梯度下降交叉验证知识点详解

更新时间:2023-04-05 21:21:17 阅读：评论：0

我正在尝试在 pyspark 中的世界名车标志图片 sgd 模型上执行交叉验证，我正在使用pyspark.mllib.regression，paramgridbuilder和crossvalidator都来自pyspark.ml.tuning库的linearregressionwithsgd。

在 spark 网站上跟踪文件资料之后，我希望运行此方法可以正常工作

资料参考：https://spark.apache.org/docs/2.1.0/ml-tuning.html

lr = linearregressionwithsgd()pipeline=pipeline(stages=十句话穿透人心的句子[lr])paramgrid = paramgridbuilder()\    .addgrid(lr.stepsize, array(0.1, 0.01))\    .build()crossval = crossvalidator(estimator=pipeline,estimatorparamm法考客观题分数线aps= paramgrid,                         evaluator=regressionevaluator(),                         numfolds=10)

但是linearregressionwithsgd()没哄堂大笑有属性stepsize(也没有运气尝试过其他人)。

我可以将 lr 设置为linearregression，但是我无法在模型中使用 sgd 并进行交叉验证。

斯卡拉中有kfold方法，但我不确定如何从 pyspark 访问该方法

解决方案

您可以使用linearregressionwithsgd中的step参数来定义步长，但由于您正在混合不兼容的库，因此这将使代码无法正常工作。不幸的是，我不知道如何使用sgd优化对ml库进行交叉验证，我想知道自己，但是您正在混合使用pyspark.ml和pyspark.mllib库。具体来说，您不能将linearregressionwithsgd与pyspar工作展望k.ml库一起使用。您必须使用pyspark.ml.regression.linearregression。

好消息是您可以将pyspark.ml.regression.linearregression的tsolver属性设置为使用’gd’。因此，您可能可以将’gd’优化器的参数设置为以sgd运行，但是我不确定求解器文档在哪里或如何设置求解器属性（例如批大小）。该api显示了调用param（）的linearregression对象，但是我不确定它是否使用pyspark.mllib优化器。如果有人知道如何设置求解器属性，则可以通过允许您将pipeline，paramgridbuilder和crossvalidation ml软件包用于linearregression进行模型选择，并利用sgd优化进行参数调整来回答您的问题。

到此这篇关于pyspark 线性回归梯度下降交叉验证知识点详解的文章就介绍到这了,更多相关pyspark 线性回归梯度下降交叉验证内容请搜索www.887551.com以前的文章或继续浏览下面的相关文章希望大家以后多多支持www.887551.com！

本文发布于:2023-04-05 21:21:15，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/zuowen/ada66a54f47009740d55a6c9eadf2f13.html

本文word下载地址：Pyspark 线性回归梯度下降交叉验证知识点详解.doc

本文 PDF 下载地址：Pyspark 线性回归梯度下降交叉验证知识点详解.pdf

上一篇：Node.js的模块化机制和Buffer对象详解

下一篇：返回列表