Apache Spark 中的线性回归给出错误的截距和权重

2024-04-25

对 y = (2*x1) + (3*x2) + 4 的虚拟数据集 (y, x1, x2) 使用 MLLib LinearRegressionWithSGD 会产生错误的截距和权重。实际使用的数据是，

x1  x2  y
1   0.1 6.3
2   0.2 8.6
3   0.3 10.9
4   0.6 13.8
5   0.8 16.4
6   1.2 19.6
7   1.6 22.8
8   1.9 25.7
9   2.1 28.3
10  2.4 31.2
11  2.7 34.1

我设置了以下输入参数并得到了以下模型输出 [numIterations、step、miniBatchFraction、regParam] [截距、[权重]]

[5,9,0.6,5] = [2.36667135839938E13，权重：[1.708772545209758E14，3.849548062850367E13] ]
[2，默认，默认，默认] = [-2495.5635231554793，权重：[-19122.41357929275，-4308.224496146531]]
[5，默认，默认，默认] = [2.875191315671051E8，权重：[2.2013802074495964E9，4.9593017130199933E8]]
[20，默认，默认，默认] = [-8.896967235537095E29，权重：[-6.811932001659158E30，-1.5346020624812824E30]]

需要知道，

我如何获得上述虚拟数据的正确截距和权重 [4, [2, 3]]。
调整步长有助于收敛吗？我需要以自动化的方式运行数百个变量，所以不热衷于这样做。
我应该缩放数据吗？会有什么帮助？

以下是用于生成这些结果的代码。

object SciBenchTest {

  def main(args: Array[String]): Unit = run

  def run: Unit = {

    val sparkConf = new SparkConf().setAppName("SparkBench")
    val sc = new SparkContext(sparkConf)

    // Load and parse the dummy data (y, x1, x2) for y = (2*x1) + (3*x2) + 4
    // i.e. intercept should be 4, weights (2, 3)?
    val data = sc.textFile("data/dummy.csv")

    // LabeledPoint is (label, [features])
    val parsedData = data.map { line =>
      val parts = line.split(',')
      val label = parts(2).toDouble
      val features = Array(parts(0), parts(1)) map (_.toDouble)
      LabeledPoint(label, Vectors.dense(features))
    }
    //parsedData.collect().foreach(x => println(x));

    // Scale the features
    /*val scaler = new StandardScaler(withMean = true, withStd = true)
      .fit(parsedData.map(x => x.features))
    val scaledData = parsedData
      .map(x =>
      LabeledPoint(x.label,
        scaler.transform(Vectors.dense(x.features.toArray))))

    scaledData.collect().foreach(x => println(x));*/

    // Building the model: SGD = stochastic gradient descent
    val numIterations = 20 //5
    val step = 9.0 //9.0 //0.7
    val miniBatchFraction = 0.6 //0.7 //0.65 //0.7
    val regParam = 5.0 //3.0 //10.0
    //val model = LinearRegressionWithSGD.train(parsedData, numIterations, step) //scaledData

    val algorithm = new LinearRegressionWithSGD()       //train(parsedData, numIterations)
    algorithm.setIntercept(true)
    algorithm.optimizer
      //.setMiniBatchFraction(miniBatchFraction)
      .setNumIterations(numIterations)
      //.setStepSize(step)
      //.setGradient(new LeastSquaresGradient())
      //.setUpdater(new SquaredL2Updater()) //L1Updater //SimpleUpdater //SquaredL2Updater
      //.setRegParam(regParam)

    val model = algorithm.run(parsedData)

    println(s">>>> Model intercept: ${model.intercept}, weights: ${model.weights}")

    // Evaluate model on training examples
    val valuesAndPreds = parsedData.map { point =>
      val prediction = model.predict(point.features)
      (point.label, point.features, prediction)
    }
    // Print out features, actual and predicted values...
    valuesAndPreds.take(10).foreach({ case (v, f, p) =>
      println(s"Features: ${f}, Predicted: ${p}, Actual: ${v}")
    })
  }
}

如文档中所述https://spark.apache.org/docs/1.0.2/mllib-optimization.html https://spark.apache.org/docs/1.0.2/mllib-optimization.html选择 SGD 方法的最佳步长通常很微妙。

例如，我会尝试用爱人的价值观

// Build linear regression model
var regression = new LinearRegressionWithSGD().setIntercept(true)
regression.optimizer.setStepSize(0.001)
val model = regression.run(parsedData)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

linearregression

Apache Spark 中的线性回归给出错误的截距和权重的相关文章

如何解决错误“AttributeError：‘SparkSession’对象没有属性‘序列化器’？

我正在使用 pyspark 数据框我有一些代码试图在其中转换dataframe to an rdd 但我收到以下错误 AttributeError SparkSession 对象没有属性序列化器可能是什么问题 training tes
实现一个java UDF并从pyspark调用它

我需要创建一个在 pyspark python 中使用的 UDF 它使用 java 对象进行内部计算如果它是一个简单的 python 我会做类似的事情 def f x return 7 fudf pyspark sql functions
了解 mesos 上 Spark 作业的资源分配

我正在 Spark 中开发一个项目最近从使用 Spark Standalone 切换到使用 Mesos 进行集群管理我现在发现自己对新系统下提交作业时如何分配资源感到困惑在独立模式下我使用了类似的东西遵循一些建议这篇 Cloude
使用 Spark collectionAccumulator 时出现 ConcurrentModificationException

我尝试在 Azure HDInsight 按需群集上运行基于 Spark 的应用程序并且看到记录了大量 SparkException 由 ConcurrentModificationException 引起当我启动本地 Spark 实例
Scala 和 Spark：如何浏览图像？

我有一些图像的二进制文件我想遍历它们分配像素集群的每个节点必须获取与另一个节点的像素不同的一组像素的 RGB 并将这些 RGB 存储到斯卡拉集合我在用SparkContext binaryFiles但我不知道如何让 Apache S
在 pyspark 中实现递归算法以查找数据帧中的配对

我有一个火花数据框 prof student df 列出了时间戳的学生教授对每个时间戳有 4 位教授和 4 位学生每个教授学生对都有一个分数因此每个时间范围有 16 行对于每个时间范围我需要找到教授学生之间的一对一配对以
如何从 Spark UI 检索输出大小和写入记录等指标？

如何在任务或作业完成后立即在控制台 Spark Shell 或 Spark 提交作业上收集这些指标我们使用 Spark 将数据从 Mysql 加载到 Cassandra 数据非常庞大例如 200 GB 和 600M 行当任务完成后
Spark DataFrame 删除重复项并保留第一个

问题在 pandas 中当删除重复项时您可以指定要保留哪些列 Spark Dataframes 中有等效的吗 Pandas df sort values actual datetime ascending False drop dup
如何在spark Scala中读取s3中的多个目录？

我在 s3 中有以下格式的目录
TaskSchedulerImpl：初始作业尚未接受任何资源；

这就是我正在尝试做的事情我创建了DataStax企业集群的两个节点在其上创建了一个java程序来获取一张表 Cassandra数据库表的计数该程序是在 eclipse 中构建的实际上是来自 windows 盒子从 Windows
将数据作为 RDD 保存回 Cassandra

我试图从 Kafka 读取消息处理数据然后将数据添加到 cassandra 中就像它是 RDD 一样我的麻烦是将数据保存回 cassandra 中 from future import print function from pys
Spark 数据框添加带有随机数据的新列

我想向数据框中添加一个新列其值由 0 或 1 组成我使用了 randint 函数 from random import randint df1 df withColumn isVal randint 0 1 但我收到以下错误 spark
如何使用 Spark 执行插入覆盖？

我正在尝试将我们的 ETL Hive 脚本之一转换为 Spark 其中 Hive ETL 脚本维护一个表其中需要在每晚新同步之前删除部分数据 Hive ETL 使用插入覆盖的方式将主表删除超过 3 天的数据基本上创建一个临时表其中的数
R：使用“lm”拟合线性模型时的对比错误

我发现了在 R 中定义线性模型时对比错误 https stackoverflow com questions 18171246 error in contrasts when defining a linear model in r并遵循了
如何使用列的平均值将列添加到 DataFrame

有没有更好的办法 val mean df select avg date first getDouble 0 df withColumn mean lit mean 我认为避免采取行动是值得的可以使用以下方法避免额外的操作broadcas
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
Spark 执行器 STDOUT 到 Kubernetes STDOUT

我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从

随机推荐

动态添加的 Facebook 发送按钮未呈现

我想在页面加载后动态添加一个 Facebook 发送按钮 iframe 尚不支持由于网站的构建方式它将成为通过 AJAX 在用户上加载的 HTML 模板的一部分行动虽然我正在导入 FB JavaScript SDK 但当我通过 AJ
Protractor/Jasmine 条件测试用例

与此问题相关如何使用 Protractor 创建条件测试用例 https stackoverflow com questions 36701985 how can i create conditional test cases using
我可以使用什么方法从 VBA 调用 Web 服务？

从 Excel 调用 Web 服务的最简单方法是什么我使用的是 2002 版请不要使用第三方工具或库这必须很容易使用一些 VBA 我可以将其粘贴到那里使用它并随时触摸我不认为有任何特别简单的方法可以直接从 VBA 与 SOAP 对
如何使用 Web3.js 或 Ethers.js 强制传输 NFT

我正在尝试构建一个应用程序其中一部分涉及将 NFT 从我的帐户转移到用户的帐户以前我使用 Moralis 来完成此任务但这段代码抛出了一个错误 Error Contract with a Signer cannot override
如何在 Javascript 中从 Firefox 剪贴板获取内容

我非常沮丧地在我的 React 应用程序上从剪贴板进行粘贴 I used navigator clipboard readText 在 Chrome 浏览器上完美运行但它在我最新的 Firefox 浏览器上不起作用我尝试搜索SO 但与之
Spring Data Redis - Lettuce连接池设置

尝试在 spring data redis 环境中设置 Lettuce 连接池下面是代码 Bean LettuceConnectionFactory redisConnectionFactory GenericObjectPoolConf
Gulp - 术语“gulp”未被识别为 cmdlet 的名称

当我开始一个新项目并创建一个新的 gulpfile 时开始出现这个随机错误每当我跑步时我都会得到它这不仅发生在这个项目上而且已经开始发生在所有其他项目上我读到环境变量可能存在问题所以我更新了这些变量我最近还运行了 ruby 安
在 javascript 中格式化日期直至毫秒

我们正在使用来自 Microsoft 的以下 js 库https ajax aspnetcdn com ajax 4 0 1 MicrosoftAjax js https ajax aspnetcdn com ajax 4 0 1 Micr
Angular 2 --aot 导致 AnimationEntryMetadata 失败

我的代码可以正常工作ng build and ng build prod但是当我将 oat 添加到命令中时它会失败并出现以下错误 Uncaught Error Module build failed Error C Users drem
Google 气泡图自定义工具提示列不呈现

我正在尝试将自定义工具提示添加到气泡图中以替换默认的工具提示我已按照文档网站的说明进行操作 here https developers google com chart interactive docs customizing tool
MultipartFile 文件名中的特殊字符转换为？在春季启动

我想知道为什么 spring boot 将 MultiPartFile 文件名特殊字符转换为例如 pdf 转换为 pdf 我需要配置 Spring 来禁用此行为吗我已经检查了我的 jvm 配置中的 file encoding 它已经设置
DRY：如何在 Symfony2 项目的多个实体中使用此代码？特质？

我有一段重复的代码将在我的 Symfony2 项目中的多个实体中使用因此应用某种 DRY 就可以了当然如果可能的话我正在考虑PHP 特性 http php net manual en language oop5 traits php
如何在M1 arm64架构上安装PyQt5？

我有一台 M1 mac 但我注意到每当本机 python 运行任何自动化脚本如 PyAutoGui 时它都会逐渐变得越来越慢几乎就像受到了限制一样我用 Miniforge3 创建了一个能够利用 Apple 芯片的环境使脚本运行得
如何制作进度条

如何在 html css javascript 中制作进度条我真的不想使用Flash 可以在这里找到类似的内容 http dustincurtis com about html http dustincurtis com about ht
缩放 ImageView 的图像，同时将中心点保持在同一位置

我已将预缩放位图设置为 ImageView 的源然后我读了矩阵ImageView并通过以下方式移动 ImageView 的位图matrix postTranslate shiftX shiftY 现在我想放大缩小图像同时保持中心Ima
Android Volley POST Json 到服务器

我正在使用 Volley 在 Android 设备和网络服务器之间传输数据我发现有关将数据列表发送到服务器的问题例如我的类将生成如下数据集 1 1 aID 5 2 aID 5 3 aID 5 4 aID 5 2 1 bID 3 2 b
ArrayLists 比数组慢 2 倍

我正在测试一种分子动力学算法该算法除其他外还有一个 Particle 类由9 双精度数组存储粒子分量 3D 环境中的速度力和位置我使用 5 个输入大小测试算法 Size MB Time s 0 06 0 36 fits in ca
将浏览器配置文件传递给 docker 容器内的 selenium 的正确方法是什么？

我需要启动selenium inside docker容器将浏览器配置文件传递给很重要webdriver Here s docker compose version 2 services worker main build app vol
facebook-android-sdk 错误：发布共享对话框需要publish_actions

我需要对我的应用程序进行publish actions才能在用户墙中发布但它被拒绝了因为据说 Facebook不需要publish actions 但我尝试使用共享对话框通过以下代码共享图片 SharePhoto photo new
Apache Spark 中的线性回归给出错误的截距和权重

对 y 2 x1 3 x2 4 的虚拟数据集 y x1 x2 使用 MLLib LinearRegressionWithSGD 会产生错误的截距和权重实际使用的数据是 x1 x2 y 1 0 1 6 3 2 0 2 8 6 3 0 3 1

Apache Spark 中的线性回归给出错误的截距和权重

Apache Spark 中的线性回归给出错误的截距和权重 的相关文章

随机推荐

热门标签

Apache Spark 中的线性回归给出错误的截距和权重的相关文章