Spark MLlib：为每个数据组构建分类器

2024-03-26

我已经标记了向量（LabeledPoint-staged 由一些组号组成。对于每个组，我需要创建独立逻辑回归分类器：

import org.apache.log4j.{Level, Logger}
import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS
import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.{Vector, Vectors}

object Scratch {

  val train = Seq(
    (1, LabeledPoint(0, Vectors.sparse(3, Seq((0, 1.0), (2, 3.0))))),
    (1, LabeledPoint(0, Vectors.sparse(3, Seq((1, 1.5), (2, 4.0))))),
    (1, LabeledPoint(0, Vectors.sparse(3, Seq((0, 2.0), (1, 1.0), (2, 3.5))))),
    (8, LabeledPoint(0, Vectors.sparse(3, Seq((0, 3.0), (2, 7.0))))),
    (8, LabeledPoint(0, Vectors.sparse(3, Seq((0, 1.0), (1, 3.0))))),
    (8, LabeledPoint(0, Vectors.sparse(3, Seq((0, 1.5), (2, 4.0)))))
  )

  def main(args: Array[String]) {
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
    // set up environment
    val conf = new SparkConf()
      .setMaster("local[5]")
      .setAppName("Scratch")
      .set("spark.executor.memory", "2g")
    val sc = new SparkContext(conf)

    val trainRDD = sc.parallelize(train)
    val modelByGroup = trainRDD.groupByKey().map({case (group, iter) => 
                           (group, new LogisticRegressionWithLBFGS().run(iter))})
  }

}

LogisticRegressionWithLBFGS().run(iter)无法编译，因为run与RDD而不是迭代器groupBy返回。请告知如何构建与输入数据中的组（标签）一样多的分类器。

Update- 演示嵌套 RDD 迭代不起作用：

import org.apache.log4j.{Level, Logger}
import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.{Vector, Vectors}

object Scratch {

  val train = Seq(
    (1, LabeledPoint(0, Vectors.sparse(3, Seq((0, 1.0), (2, 3.0))))),
    (1, LabeledPoint(0, Vectors.sparse(3, Seq((1, 1.5), (2, 4.0))))),
    (1, LabeledPoint(0, Vectors.sparse(3, Seq((0, 2.0), (1, 1.0), (2, 3.5))))),
    (8, LabeledPoint(0, Vectors.sparse(3, Seq((0, 3.0), (2, 7.0))))),
    (8, LabeledPoint(0, Vectors.sparse(3, Seq((0, 1.0), (1, 3.0))))),
    (8, LabeledPoint(0, Vectors.sparse(3, Seq((0, 1.5), (2, 4.0)))))
  )

  def main(args: Array[String]) {
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
    // set up environment
    val conf = new SparkConf()
      .setMaster("local[5]")
      .setAppName("Scratch")
      .set("spark.executor.memory", "2g")
    val sc = new SparkContext(conf)

    val trainRDD = sc.parallelize(train)
    val keys : RDD[Int] = trainRDD.map({case (key,_) => key}).distinct
    for (key <- keys) {
    // key is Int here!
      // Get train data for the current group (key):
      val groupTrain = trainRDD.filter({case (x, _) => x == key }).cache()

      /**
       * Which results in org.apache.spark.SparkException:
       * RDD transformations and actions can only be invoked by the driver,
       * not inside of other transformations; for example, rdd1.map(x => rdd2.values.count() * x) is invalid
       * because the values transformation and count action cannot be performed inside of the rdd1.map transformation.
       * For more information, see SPARK-5063. at org.apache.spark.rdd.RDD.sc(RDD.scala:87)
       */
    }
  }
}

看起来无法在其他转换中使用转换，对吗？

如果您在每个组上使用分类器，则不需要 mllib。 Mllib 旨在与分布式集一起使用（您的集不是每个工作人员上都有大量本地集）。您可以使用一些本地机器学习库，例如weka https://weka在地图功能的每个组上。

EDIT:

val keys = wholeRDD.map(_._1).distinct.collect

var models = List()
for (key <- keys) {
  val valuesForKey = wholeRDD.filter(_._1 == key)
  // train model
  ...
  models = model::models
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparkmllib

Spark MLlib：为每个数据组构建分类器的相关文章

从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

我有一个简单的单元测试使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试没有任何问题但是当尝试从 SBT shell 运行相同的测试时我收到以下错误 java lang NoClassDefFoun
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练

随机推荐

Grails 全局约束

在 1 2 版本中 Grails 引入了全局约束我尝试将以下内容添加到 Config groovy grails gorm default constraints notBlank nullable false blank false 然
NHibernate ThenFetchMany 正在检索重复的子项

我有一个父对象其子集合包含一个元素子集合包含一个包含 3 个元素的孙子集合我使用 NHibernate 从数据库加载父对象如下所示 Parent parentObject session Query
Start-Process 与 Start-Sleep 不能很好地配合

我的目标是运行多个进程并保存它们ProcessName and Id供以后使用这是我的代码 System Collections ArrayList startedProcesses processStatus Start Process
简单/基本的隐写算法和方法

最基本和最简单的是什么隐写算法和方法我的意思是应用于图像的隐写术将数据隐藏到图像的简单程序如何工作主要使用了哪些技术程序如何在没有源图像的情况下识别图像中的加密消息基本且最简单的隐写算法和方法是什么我的意思是应用于图像的隐写术
Three.js ShaderMaterial 灯光问题

你好这是我的代码的一部分地球仪 function createGlobe var normalMap THREE ImageUtils loadTexture images earth normal 2048 jpg var surfa
在 django admin 过滤器 list_filter 中选择多个选项？

目前我通过 django 管理界面中的某些选项进行过滤例如假设我按按状态过滤是否可以选择多个状态来过滤结果这是过滤器的屏幕截图我可以从此列表中选择多个项目吗不在管理 UI 中但如果修改 URL 则可以使过滤条件更加复杂例
EF 4.3（代码优先）- 确定何时将项目添加到虚拟 ICollection 属性

当从查询加载 ICollection 虚拟成员时有什么方法可以确定实际项目何时添加到 ICollection 虚拟成员中希望下面的代码能够证明我的观点 public class DbAppointment public DbAppoin
F# 类型和循环

我正在编写一个创建一副纸牌的 F 教程列出了类型但我无法理解如何循环遍历类型来创建完整套牌的地图我期望做类似的事情 Foreach rank in ranks Foreach suit in suits somehow combine
通过 Azure KeyVault 禁止控制台日志记录

我正在 Net Core 2 控制台应用程序中使用 C 访问 Azure 密钥保管库每当应用程序运行时当我从保管库检索机密时控制台窗口都会收到如下消息 2017 12 26T18 03 49 8610049Z 29c98a86 9e1
如何为 iOS 和 macOS 编译 libffi？

我正在尝试使用libffi https github com atgreen libffi在我的一个项目中但我似乎无法为 iOS 或 macOS 就此而言进行编译以下是我在构建 iOS 模拟器时遇到的各种错误之一 bash src a
Python 3 async for 循环中的类型错误

我正在学习 Python 相对较新的异步功能我发现这个在PEP 492 https www python org dev peps pep 0492 example 2 以下是一个实用程序类它将常规迭代转换为异步的虽然这不是一件非常
尝试运行不和谐机器人时出错（python）

File dban py line 1 in
更改消息名称

这是我的 WSDL 的一部分我正在使用代码优先的方法
检查产品变体是否在 Woocommerce 的购物车中

我正在尝试显示产品的变体是否已在购物车中在单个产品页面中产品 ID 与购物车对象中的产品的简单比较不适用于可变产品因为变体 ID 是使用 ajax 加载的这是我的代码适用于产品类型不是变量的情况
Python“decimal”包给出错误的结果

我尝试通过设置来计算以下内容getcontext prec 800 gt gt gt from decimal import gt gt gt getcontext prec 800 gt gt gt Decimal 22 0 Decima
使用jquery和参数调用WCF服务

好吧这是这些基本问题之一但我现在已经用谷歌搜索和调试了两个小时但错误没有消失简单场景 WCF 服务其方法带有我想通过 jquery 调用的参数我可以调用不带参数的方法但是使用参数时调用永远不会到达 NET 中的断点服务器代
执行 .bat 文件时启用按钮

我有一个带有打开按钮和后退按钮的表单我通过打开按钮打开批处理文件在执行批处理文件时其他按钮被禁用我想启用这些按钮请帮我运行批处理文件代码 private void openActionPerformed java awt eve
NotificationCompat.Builder 缺少 build() 方法

我想做的正是他所做的 Android 时间通知 https stackoverflow com questions 17053996 android notification at time但在我的 AlarmReceiver 类中出现错
HttpInterceptor 根据其他可观察值的值更改响应主体

有些我似乎无法根据另一个可观察值的值来更改响应主体而我只能在检索响应后才能获得该值更改请求非常简单我不知道如何处理响应 Injectable export class MyHttpInterceptor implements Http
Spark MLlib：为每个数据组构建分类器

我已经标记了向量 LabeledPoint staged 由一些组号组成对于每个组我需要创建独立逻辑回归分类器 import org apache log4j Level Logger import org apache spark m

Spark MLlib：为每个数据组构建分类器

Spark MLlib：为每个数据组构建分类器 的相关文章

随机推荐

热门标签

Spark MLlib：为每个数据组构建分类器的相关文章