如何使用 foreachPartition 在 Spark 中为每个分区高效构建一个 ML 模型？

2024-01-08

我正在尝试为数据集的每个分区拟合一个 ML 模型，但我不知道如何在 Spark 中执行此操作。

我的数据集基本上是这样的按公司划分:

Company | Features | Target

A         xxx        0.9
A         xxx        0.8
A         xxx        1.0
B         xxx        1.2
B         xxx        1.0
B         xxx        0.9
C         xxx        0.7
C         xxx        0.9
C         xxx        0.9

我的目标是以并行方式为每家公司训练一个回归器（我有几亿条记录，有 10 万家公司）。我的直觉是我需要使用foreachPartition并行处理分区（即我的公司）并训练和保存每个公司模型。我的主要问题是如何处理iterator将在调用的函数中使用的类型foreachPartition.

它看起来像这样：

dd.foreachPartition(

    iterator => {var company_df = operator.toDF()
                 var rg = RandomForestRegressor()
                                 .setLabelCol("target")
                                 .setFeaturesCol("features")
                                 .setNumTrees(10)
                 var model = rg.fit(company_df)
                 model.write.save(company_path)
                 }
)

据我了解，试图将iterator into a dataframe不可能，因为 RDD 的概念本身不能存在于foreachPartition陈述。

我知道这个问题很开放，但我真的很困惑。

在 pyspark 中你可以执行如下操作

import statsmodels.api as sm
# df has four columns: id, y, x1, x2

group_column = 'id'
y_column = 'y'
x_columns = ['x1', 'x2']
schema = df.select(group_column, *x_columns).schema

@pandas_udf(schema, PandasUDFType.GROUPED_MAP)
# Input/output are both a pandas.DataFrame
def ols(pdf):
    group_key = pdf[group_column].iloc[0]
    y = pdf[y_column]
    X = pdf[x_columns]
      X = sm.add_constant(X)
    model = sm.OLS(y, X).fit()

    return pd.DataFrame([[group_key] + [model.params[i] for i in   x_columns]], columns=[group_column] + x_columns)

beta = df.groupby(group_column).apply(ols)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparkml

如何使用 foreachPartition 在 Spark 中为每个分区高效构建一个 ML 模型？的相关文章

Scala 警告、IntelliJ 和编译器标志

我目前正在试用 IntelliJ Scala 插件有件事让我有点烦恼编译时我收到 3 个警告 Warning scala Recompiling 4 files Warning scala Warning scala there wer
Scala REPL / SBT Console 是否有配置文件？

我一直在尝试找到某种点文件来放入 Scala REPL 设置和自定义函数我特别有兴趣传递它的标志例如 Dscala color 启用语法突出显示以及覆盖设置如结果字符串截断 scala gt power scala gt vals
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
Scala 功能设计模式目录

一周以来我一直在阅读 Scala 编程作者一步一步地介绍了该语言的元素但我仍然很困惑何时使用演员闭包柯里化等功能性的东西我正在寻找功能结构的典型用例或最佳实践的目录我并不是说在 Scala 中重新实现像 GoF 这样的众所周知的
如何设置 jacoco4sbt 来处理 Play 中主模块和子模块中的类？

我有一些问题要解决雅可可4sbt https github com sbt jacoco4sbt正在使用我的 Play 2 3 4 项目我的项目由 3 个子模块组成 common api and frontend并且没有代码app根文件夹
如何从java程序的main方法调用Scala程序的main方法？

假设我在 Java 项目中有一个 Scala 类和一个 Java 类 scala 类如下所示 class Sam def main args Array String Unit println Hello 如何从同一项目中存在的 java
如何使用 FS2 中的分类器函数对对象进行分组？

我有一个无序的流measurements 我想将其分组为固定大小的批次以便以后可以有效地保留它们 val measurements for id lt Seq foo bar baz value lt 1 to 5 yield id va
Build.scala中%和%%符号含义

我是新来玩的 Framework 2 1 java版本并且没有scala经验我不明白什么是以及什么是 and 在 Build scala 中表示我用谷歌搜索了它们但找不到它们的含义在我的 Build scala 文件中我有 org
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
对 Spark 数据集中的数字字符串进行排序

假设我有以下内容Dataset productCode amount XX 13 300 XX 1 250 XX 2 410 XX 9 50 XX 10 35 XX 100 870 Where productCode is of Strin
相当于 scala 中的 python repr()

有没有相当于Python的东西reprscala 中的函数即您可以给任何 scala 对象提供一个函数它将生成该对象的字符串表示形式该对象是有效的 scala 代码 eg val l List Map 1 gt a print re
Scala：“递归值...需要类型”，但我只使用 Java 类型

object Rec extends App val outStream new java io ByteArrayOutputStream val out new java io PrintStream new java io Buffe
承诺的反面是什么？

承诺代表将来可能可用或无法实现的值我正在寻找的是一种数据类型它表示将来可能变得不可用的可用值可能是由于错误 Promise a b TransitionFromTo
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
SBT插件——编译前执行自定义任务

我刚刚编写了我的第一个 SBT 自动插件它有一个生成设置文件的自定义任务如果该文件尚不存在当显式调用任务时一切都会按预期工作但我希望在使用插件编译项目之前自动调用它无需项目修改其 build sbt 文件有没有办法实现这一点
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
导入 sbt 项目时出错，服务器访问错误，未解决的依赖项

我正在尝试从 IntelliJ IDE 15 0 2 的 build sbt 中导入我的项目中的库我不断收到未解决的依赖项错误我尝试更新不同论坛的设置来解决该问题但没有任何效果我尝试过的几件事使用代理设置更新 sbtconfig
如果需要，Akka actor 可以从邮箱中删除消息吗？

例如如果我想从队列中删除冗余消息这样当演员收到Connect消息它应该检查它的邮箱并删除其他Connect消息以便只进行一个连接而不是多个连接这样的事情可能吗是的您可以将参与者调度程序配置为具有您选择的任何邮箱因此如果您实现
Slick 中的 Scala 枚举（案例对象），良好实践

假设我有一个代表一组几个有效状态的特征将对象存储在数据库中是一个好习惯吗存储 Int 并使用隐式函数 MappedColumnType base Int DoorState 将它们映射到 DoorState 会更好吗 trait Doo

随机推荐

如何仅切换 *next* .class 或 div（而不是其余的）

我想知道如何仅切换子 div 单击在 html 上重复的按钮如下所示 div class button div class hide toggle Blah1 div div div class button div class hid
asp.net mvc 3 中 DataAnnotations 的行为是否发生了变化？

我有一个带有属性的模型 ReadOnly true public decimal BodyMassIndex get private set 当我打电话时在我看来 Html EditorForModel 我仍然得到该属性的标准可编辑文本框
从 HttpResponseMessage 获取内容/消息

我正在尝试获取 HttpResponseMessage 的内容它应该是 message Action does not exist success false 但我不知道如何从 HttpResponseMessage 中获取它 HttpC
使用 log4net 或 NLog 的 WCF 日志记录/跟踪和活动 ID 传播

我见过很多关于日志记录的其他问题最佳实践什么日志平台最好等等这里有一些关于 SO 的链接其中对这个主题进行了很好的讨论记录最佳实践 https stackoverflow com questions 576185 logging
文件中的 Python 3 unicode 到 utf-8

我试图解析日志文件但文件格式始终为 unicode 我想要自动化的通常流程我在记事本中提取文件另存为更改编码unicode to UTF 8 然后在上面运行python程序这就是我想在 Python 3 4 中自动化的过程几乎只
谷歌地图 V2“不幸的是应用程序已停止”

I just begin to learn Android take 4 days to try work maps view but not work that error Unfortunately the app has stoppe
如何使用X509证书和C#进行非对称加密？

我希望使用公钥和私钥使用 X509 证书加密文件并将它们发送到远程服务器我该怎么做这可能吗如何生成证书以及公钥和私钥对 See 这个问题 https stackoverflow com questions 1623189 rsacr
在 Python 中使用列表理解查找最小/最大日期

所以我有这个清单 snapshots 2014 04 05 2014 04 06 2014 04 07 2014 04 08 2014 04 09 我想使用列表理解找到最早的日期这就是我现在所拥有的 earliest date snaps
Apache - 限制 IP 不起作用

我有一个子域我只想在内部访问我试图通过编辑该域的 VirtualHost 块来在 Apache 中实现此目的有人能看出我哪里出错了吗注意我这里的内部IP地址是192 168 10 xxx 我的代码如下
在 PyQt 应用程序上使用 cx_freeze 时出现语法错误

当尝试使用 PyQt4 从 Python 3 脚本构建 exe 文件时这是一个非常烦人的问题我认为这与使用有关uic动态加载模块 ui files cx freeze返回 File E Python32 32 lib site pack
使用 array_multisort() 对多维 PHP 数组进行不区分大小写的排序

经过大量搜索后我无法找到有关如何使用 array multisort 按一个字段不区分大小写地对多维数组进行排序的良好解释我发现在处理数据库查询信息时这是一个非常有用的功能因此我想分享一下我应该注意这仅适用于 php 5 4 Exa
ANDROID：不同尺寸的ImageView

我是 android studio 的新手因此如果问题很琐碎请原谅我的问题是理解布局我的布局和相应的值文件夹如下所示我的问题是没有选择正确的布局例如对于 Nexus 4 4 7 英寸 768x1280 xhdpi 在横向模式
R Shiny：删除 ggplot2 背景以使其透明

我想让 R Shiny Server 上的 ggplots 透明我的绘图 ui R 如下 plotOutput malPie width 95 在 server R 中我的绘图函数如下 c lt ggplot dataFrame aes
在pentaho中休息客户端

我对 pentaho 数据集成工具非常陌生我想从我的 pentaho 中使用一个安静的服务 post web 服务为此我发现我应该使用休息客户端但是当我给出网址和正文因为我想使用后期服务时它并没有在数据库中进行必要的更改谁能
Moment.js 包含日期格式中间的文本

我的格式为 2015 年 1 月 27 日上午 8 17 我需要使用 moment js 显示它我正在使用格式 moment format MMM D YYYY at h mm A z 除了 at 这个词之外一切都很好我怎样才能让这个
在oracle中创建密码字段

安全外部密码存储有什么用我可以使用安全外部密码存储在 Oracle 表中创建密码字段吗或者如何在不使用安全外部密码存储的情况下在 Oracle 表中创建密码字段一种不使用安全外部密码存储无论是什么的方法是将 RAW 1
休眠级联持续

我有一个关于 Hibernate 的一般性问题正在解决我有 A 类和 B 类其中 B 依赖于 A 在我的代码中当我调用 em persist objOfTypeA 时我希望插入并插入到表 AAA 和 BBB 中如果我手动保留 A
Powershell：递归移动文件

我正在尝试将所有构建输出文件和文件夹复制到Bin文件夹输出目录 Bin 除了一些保留在输出目录 The Bin文件夹永远不会被删除初始条件 Output config log4net file1 txt file2 txt file3
删除 R 图形设备中的所有边距

所以我在摆脱图形设备的整个边距时遇到了一些麻烦我已将 mar 设置为 0 但边缘周围仍然存在一些持久空间例如 plot new par mar c 0 0 0 0 plot window c 0 1 c 0 1 points c 1 1
如何使用 foreachPartition 在 Spark 中为每个分区高效构建一个 ML 模型？

我正在尝试为数据集的每个分区拟合一个 ML 模型但我不知道如何在 Spark 中执行此操作我的数据集基本上是这样的按公司划分 Company Features Target A xxx 0 9 A xxx 0 8 A xxx 1 0 B

如何使用 foreachPartition 在 Spark 中为每个分区高效构建一个 ML 模型？

如何使用 foreachPartition 在 Spark 中为每个分区高效构建一个 ML 模型？ 的相关文章

随机推荐

热门标签

如何使用 foreachPartition 在 Spark 中为每个分区高效构建一个 ML 模型？的相关文章