如何映射 Spark 中的 DataFrame 以提取行数据并使用 h2o mojo 模型进行预测

2024-01-18

我有一个 mojo 格式的保存的 h2o 模型，现在我尝试加载它并使用它对新数据集进行预测（df）作为用 scala 编写的 Spark 应用程序的一部分。理想情况下，我希望将一个新行附加到包含基于此模型的类概率的现有 DataFrame 中。

我可以看到如何将 mojo 应用于已经采用 RowData 格式的单个行（根据答案here https://stackoverflow.com/questions/46849368/create-a-map-to-call-the-pojo-for-each-row-of-spark-dataframe），但我不确定如何映射现有的 DataFrame，以便它采用正确的格式来使用 mojo 模型进行预测。我曾经使用过相当多的 DataFrame，但从未使用过底层的 RDD。

另外，这个模型是否应该被序列化/广播，以便可以在集群上并行完成预测，或者它是否可以作为地图的一部分提供给所有执行者？

我已经走到这一步了：

# load mojo model and create easy predict model wrapper
val mojo = MojoModel.load("loca/path/to/mojo/mojo.zip")
val easyModel = new EasyPredictModelWrapper(mojo)

# map over spark DataFrame, converty to rdd, and make predictions on each row:
df.rdd.map { row =>
   val prediction = easyModel.predictBinomial(row).classProbabilities
   println(prediction)
   }

But my row变量的格式不正确，无法正常工作。关于下一步尝试什么有什么建议吗？

编辑：我的 DataFrame 由 70 个预测特征列组成，它们是整数和类别/因子列的混合。一个非常简单的示例 DataFrame：

val df = Seq(
  (0, 3, "cat1"),
  (1, 2, "cat2"),
  (2, 6, "cat1")
).toDF("id", "age", "category")

使用此函数准备 H2O 所需的 RowData 对象：

def rowToRowData(df: DataFrame, row: Row): RowData = {
  val rowAsMap = row.getValuesMap[Any](df.schema.fieldNames)
  val rowData = rowAsMap.foldLeft(new RowData()) { case (rd, (k,v)) => 
    if (v != null) { rd.put(k, v.toString) }
    rd
  }
  rowData
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何映射 Spark 中的 DataFrame 以提取行数据并使用 h2o mojo 模型进行预测的相关文章

如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
Scala 2.9 无法在 Windows XP 上运行“hello world”示例

我正在尝试在 Windows XP 上使用 scala 2 9 1 Final 运行 HelloWorld 示例 object HelloWorld extends App println Hello World 文件另存为Hello sc
Scala：如何将可变参数指定为类型？

代替 def foo configuration String String 我希望能够写 type Configuration String String def foo configuration Configuration 主要用例是
Akka Stream Graph 恢复问题

我创建了一个图表来并行化具有相同输入的两个流这些流产生 Future Option Entity 如果 flowA 失败我想返回 Future None 但恢复似乎没有被调用 val graph Flow Input Future Op
模拟 BlazeClientBuilder[IO] 以返回模拟客户端[IO]

我正在使用BlazeClientBuilder IO resource方法得到Client IO 现在我想模拟客户端进行单元测试但不知道该怎么做有没有一个好的方法来嘲笑这个我会怎么做 class ExternalCall val r
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
Play框架：单属性案例类的JSON读取

我正在尝试为包含单个属性的案例类创建隐式 JSON Reads 但收到错误 Reads Nothing 不符合预期类型这是代码 import play api libs functional syntax import play api
andThen 类型不匹配的 Scala 链接函数

我有一堆函数可以清理文本并将它们分成单词最小的例子 val txt Mary had a little nlamb val stopwords Seq a def clean text String String text replace
在 Scala 中将元素追加到列表末尾

我无法添加 type 元素T到一个列表中List T 我尝试过myList myElement但它似乎创建了一个奇怪的对象并访问myList last始终返回放入列表中的第一个元素我怎么解决这个问题 List 1 2 3 4 Result
scala中的反引号有什么用[重复]

这个问题在这里已经有答案了我在一本书上找到了以下代码 val list List 5 4 3 2 1 val result 0 list running total next element running total next elem
如何在超时的情况下在单独的调度程序上运行 Akka Streams 图？

这个问题是基于我做过的一个宠物项目这个SO https stackoverflow com questions 34641861 akka http blocking in a future blocks the server 34645
具有继承类型的 Aux 模式推理失败

我有一个复杂的玩具算法我希望纯粹在类型级别上表示根据饮食要求选择当天菜肴的修改对卷积表示歉意但我认为我们需要每一层才能达到我想要使用的最终界面我的代码有一个问题如果我们表达一个类型约束Aux 模式生成的类型基于另一个泛型类型它
scala 提供类似 C++ 模板的东西吗？

我来自 C 并试图了解 scala 的类型系统考虑以下 C 模板类 template
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
如何在 scala repl 和 sbt 控制台中关闭/打开 typer 阶段

是否可以在不退出当前会话的情况下切换阶段我尝试进入 power 模式但它仍然不打印类型在SBT中只需添加以下设置 set scalacOptions in Compile console Xprint typer 在 REPL 中你可
如何在 sbt 控制台中加载 scala 文件？ [复制]

这个问题在这里已经有答案了可能的重复将 Scala 文件加载到解释器中以使用函数 https stackoverflow com questions 7383436 load scala file into interpreter to
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
如何将 Java 地图转换为在 Scala 中使用？

我正在开发一个 Scala 程序该程序调用 Java 库中的函数处理结果并生成 CSV 有问题的 Java 函数如下所示 Map
python 中的 h2o 框架子集

如何在 python 中对 h2o 框架进行子集化如果 x 是一个 df 并且 Origin 是一个变量那么在 pandas 中我们通常可以通过以下方式进行子集化 x x Origin AAF 但使用 h2o 框架会出现以下错误 H2O
Akka-Http 2.4.9 抛出 java.lang.NoClassDefFoundError: akka/actor/ActorRefFactory 异常

我正在尝试使用 Akka http 构建一个简单的 Web 服务我遵循了这个指南 http doc akka io docs akka 2 4 9 scala http low level server side api html htt

随机推荐

ASP.Net MVC：将 JSON 发送到控制器

在 ASP Net MVC 中向我的控制器发布帖子时我希望能够发送 JSON 而不是标准查询字符串我的前端工作正常构建然后提交我的 JSON 对象问题出在控制器端 MVC 框架附带的默认 ModelBinder 不支持此功能我已经
如何在页面的 Javascript 执行后加载内容脚本？

我的扩展应该仅在其注入的页面已完全加载之后加载内容脚本 searchTopic js 是的我已在扩展清单中将 run at 设置为 document end 但实际上它是在之前加载的所有 DOM 对象都已创建关键的对象是通过页面中的一些
房间数据库迁移fallbackToDestructiveMigration（）不起作用

我正在使用 Room 并在资产文件夹中预填充数据库对于应用程序更新我想通过添加新列并用新数据预填充此列来更改此数据库数据库从版本 1 自动迁移到版本 2 添加了一个表从版本 2 到版本 3 我现在想通过在资产文件夹中提供不同的 da
如何在 Python 中生成可重现（带有种子）的随机 UUID

The uuid4 https docs python org 2 library uuid html uuid uuid4Python模块的功能uuid生成一个随机的 UUID 并且似乎每次都会生成不同的 UUID In 1 import
如何对 CI 管道中使用不属于 git 远程的模型文件的函数进行单元测试？

我正在开发机器学习存储库需要相当大的经过训练的模型文件才能运行这些文件不是 git Remote 的一部分但由 DVC 跟踪并保存在单独的远程存储中当我尝试在 CI 管道中为需要这些模型文件进行预测的函数运行单元测试时我遇到了问题
SCons配置文件和默认值

我有一个使用 SCons 构建的项目以及 MinGW gcc 具体取决于平台这个项目依赖于其他几个库我们称它们为libfoo and libbar 可以为不同的用户安装在不同的地方目前我的SConstruct文件嵌入了这些库的硬编
如何生成包含所有问题的报告？

我有一个在 AWB 中打开的 Fortify FPR 扫描文件我想生成一份报告其中包含发现问题的所有实例当我生成报告时它会生成按类型及其计数列出问题的报告并且在类型下方我还会获得以下名称和代码片段some发现问题的文件我想生成一
在 iOS 9 上使用 NavigationController 自定义推送动画的过渡

我在嵌入的视图控制器之间有一个自定义的推送转换UINavigationController当使用 iOS 7 8 构建时工作正常但当针对 iOS 9 SDK 构建时会出现错误的布局 void animateTransition id
从情节提要中的模态视图推送视图控制器

我正在使用故事板并有一个以模态方式呈现的屏幕然后我需要从中推送其他视图控制器以便我可以为模态视图选择项目类似于在 iPhone 日历应用程序上添加条目所以我将从导航控制器 gt VC gt 模态视图控制器 gt 这里我想推送一个V
如何在 Material UI 中对齐水平图标和文本

我是 Material UI 的新手现在我的图标和文本未对齐我想要的结果我的代码是 div div
河内塔 - 如何在每次递归时不跳过钉子

我的任务是使用递归求解任意数字的河内塔我用 C 编写了代码 Rules 无法将较大的磁盘堆叠在较小的磁盘之上一次无法移动多个磁盘 3 一次只移动一个圆盘不要回到起点或离开终点如下开始 gt peg1 peg2 peg3 gt EN
定义 Laravel 表单字段的默认值

要预填充表单字段我们可以将值添加到 create blade php 中的表单字段 Form text title Some default title 有没有办法在其他地方也许在模型或控制器中完成该任务我希望在创建和编辑视图中
使用反射和列表的 C# 动态转换

从昨天开始我就在解决一个问题但我还没明白我有一个包含许多方法的类并在运行时决定必须调用哪个方法每个方法都会返回一个列表其中包含来自我的业务对象的元素我的班级是这样的 public class ReflectiveClass pu
使用 FBSDKCoreKit.framework 在 Xcode10 中发现意外的 Mach-O 标头代码：0x72613c21

我有一个使用最新版本的 FacebookSDK 和 Xcode 10 的项目该项目在设备中运行正常但是在提交到 App Store 时在验证过程中出现以下错误发现意外的 Mach O 标头代码 0x72613c21 日志显示 201
Win32API 结构中 cbSize 成员的用途是什么

我经常遇到一些 Win32API 结构但不限于此的定义它们具有cbSize成员如下例所示 typedef struct TEST int cbSize other members follow TEST PTEST 然后我们像这样使
通过 Html.BeginForm 提交激活加载动画

我想在用户单击提交按钮时显示加载动画简单的 gif 就可以完成工作这是我的代码 using Html BeginForm SData Crawl p Enter Starting URL p
如何从 glm 对象获取 Z 统计值？

如何获取 Z 统计值作为向量glm目的例如我有 fit lt glm y 0 x binomial 如何访问该专栏Pr gt z 同样的方式我得到系数的估计fit coef 我相信 coef summary fit Pr gt z 会给
将 MapVirtualKeyA 与 Shift 和 Ctrl Alt 结合使用

我已经发现这一页 https learn microsoft com en us windows win32 api winuser nf winuser mapvirtualkeya用于将给定的键码转换为相应的字符的函数具体取决于系统语
使用 Hilt 注入 viewModel 时不会调用 init

我想在 ViewModel 初始化时发出 API 请求这就是为什么我在里面发出 API 请求init方法期待init当我在 Activity 中注入 viewModel 时被触发我究竟做错了什么 MainViewModel kt Hi
如何映射 Spark 中的 DataFrame 以提取行数据并使用 h2o mojo 模型进行预测

我有一个 mojo 格式的保存的 h2o 模型现在我尝试加载它并使用它对新数据集进行预测 df 作为用 scala 编写的 Spark 应用程序的一部分理想情况下我希望将一个新行附加到包含基于此模型的类概率的现有 DataFrame

如何映射 Spark 中的 DataFrame 以提取行数据并使用 h2o mojo 模型进行预测

如何映射 Spark 中的 DataFrame 以提取行数据并使用 h2o mojo 模型进行预测 的相关文章

随机推荐

热门标签

如何映射 Spark 中的 DataFrame 以提取行数据并使用 h2o mojo 模型进行预测的相关文章