如何在 PySpark Pipeline 中使用 XGboost

2024-04-09

我想更新我的 pyspark 代码。在pyspark中,它必须将基础模型放入管道中,即办公室演示 http://spark.apache.org/docs/latest/ml-pipeline.html管道使用逻辑回归作为基本模型。但是,似乎无法在管道 API 中使用 XGboost 模型。我怎样才能像这样使用pyspark

from xgboost import XGBClassifier
...
model = XGBClassifier()
model.fit(X_train, y_train)
pipeline = Pipeline(stages=[..., model, ...])
...

使用 pipeline api 很方便,有人可以给一些建议吗?谢谢。


Apache Spark ML 中没有 XGBoost 分类器(截至版本 2.3)。此处列出了可用型号:https://spark.apache.org/docs/2.3.0/ml-classification-regression.html https://spark.apache.org/docs/2.3.0/ml-classification-regression.html

如果你想使用 XGBoost,你应该在没有 pyspark 的情况下使用(将你的 Spark 数据帧转换为 pandas 数据帧).toPandas())或使用另一种算法(https://spark.apache.org/docs/2.3.0/api/python/pyspark.ml.html#module-pyspark.ml.classification https://spark.apache.org/docs/2.3.0/api/python/pyspark.ml.html#module-pyspark.ml.classification).

但如果您确实想将 XGBoost 与 pyspark 一起使用,则必须深入研究 pyspark 自己实现分布式 XGBoost。这是他们这样做的一篇文章:http://dmlc.ml/2016/10/26/a-full-integration-of-xgboost-and-spark.html http://dmlc.ml/2016/10/26/a-full-integration-of-xgboost-and-spark.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 PySpark Pipeline 中使用 XGboost 的相关文章

随机推荐

  • 将视图作为子视图添加到多个视图时遇到问题 - iphone dev

    我需要将一个视图添加到应用程序中的多个视图 我正在运行一个循环遍历所有 UIView 并将该视图添加为子视图的函数 我做过这样的事情 void setViewForEachSegment UIView view int i for i 0
  • 如何在Python中读取多行输入?

    我想在Python中输入多行 但是当我尝试然后打印结果时 它打印的只是第一行 有没有办法从输入中读取第一行下方的行 例如 lista input Insert the data here print print lista 假设我想输入 你
  • 使用 cx_Freeze 创建可执行文件后不断收到“filedialog”错误

    我正在尝试使用 python 脚本中的 cx Freeze 创建可执行文件 但 tkinter 模块的某些部分似乎未加载到可执行文件中 脚本文件包含导入语句 from tkinter import from tkinter filedial
  • 手动重建PyCharm索引[重复]

    这个问题在这里已经有答案了 有时 PyCharm 变得非常慢 经过 20 30 分钟的缓慢运行后 它会重建索引 有没有办法手动触发重建 PyCharm 索引 File gt Invalidate Caches Restart
  • 当客户更改地址时发送通知电子邮件 WooCommerce

    跟进此线程 Woocommerce 退款电子邮件 https stackoverflow com questions 25544762 woocommerce refund email 26413223我有一个似乎无法解决的问题 我阅读了有
  • 我可以向 YAML Swagger 对象添加版本吗?

    我正在创建一个 API 定义 并且我想将规范模型拆分为不同的文档并使用 JSON 指针 ref 来重用它们 我需要找到一种在 YAML 文件中添加版本的方法 例如 pj yaml pJType verison 1 0 type object
  • 哪个 Java html DOM 解析器库最好?

    我正在研究爬虫 它将在电子商店中搜索商品 这是我的论文 所以没有任何商业意义 我使用 Java SE 我将需要某种高级库 以进行一些诊断测试 如果该网页是我正在寻找的内容 并从正确的网页中提取相关数据 您是否有使用解析器库的个人经验可以向我
  • 使用 javascript 关闭窗口时注销

    我在我的 javascript 代码上使用了 window onbeforeunload 但显然它只适用于 FireFox 我需要这个来关闭至少 5 个知名浏览器 firefox IE opera safari 和 chrome 谁能帮我吗
  • 将 input=file 转换为字节数组

    我尝试将通过输入文件获得的文件转换为字节 我尝试使用 FileReader 但我一定错过了一些东西 var bytes var reader new FileReader reader onload function bytes reade
  • 如何在 SQLite for Android rawQuery 中获取最接近当前时间的行#

    专家们 我想从 MyColumn 列中获取值 其中 Judge 列为 true 并且 DateTime 列最接近当前时间 如何处理这个问题 谢谢 我开发如下代码似乎可行 然而 当表仅包含行 Judge false 由于我的其中条件之一是 J
  • 如何通过 SSL 使用 Play WS?

    我的 Java 客户端应用程序需要执行 REST 调用 我被指示使用 Play 的 WS 实现 目前 我有这个 AsyncHttpClientConfig Builder builder new com ning http client A
  • 如何在 apache.poi 中为数据栏制作纯色

    我正在尝试创建一个带有进度条的工作表 它将代表一些进度 我正在使用这些库 org apache poi poi 4 1 0 org apache poi poi ooxml 4 1 0 org apache poi poi ooxml sc
  • 如何更改 selectize.js 下拉列表的占位符?

    当父下拉列表更改其选择以加载要更改占位符的下拉列表的选项时 我想更改由 selectize js 创建的下拉列表的占位符 文档中没有提供执行此操作的方法 您可以指定一个placeholder初始化时将 key 作为选项对象的一部分 我在文档
  • C: main 未找到,但它在那里 |编译错误

    当我编译两个 c 文件 如下所示 时 我收到一个非常奇怪的错误 终端编译代码 gcc I o main c matrix c lblas lgfortran Error usr bin ld usr lib debug usr lib i3
  • 使用活动管理配置设置活动管理命名空间

    我正在使用带有设计的活动管理 并且尝试为所有活动管理路由设置命名空间 在 active admin rb 中 我将 default namespace 设置为 config default namespace abc 123 在我的路线中
  • 设置 ~/.conda/pkgs 目录的路径

    在主目录空间非常有限的集群上工作 因此我想将 conda pkgs 文件夹的主目录默认设置为另一个目录 但我似乎不知道如何执行此操作 我尝试过将 condarc 文件与 pkg dirs 一起使用 channels conda forge
  • 停止服务后如何从传感器取消注册侦听器?

    我正在创建一个应用程序 该应用程序在按下 开始 按钮时启动服务 并在按下 停止 按钮时停止服务 在服务中 我为传感器 ACCELEROMETER 注册了一个侦听器 以便获得 x y z 轴的加速计值 但是当我停止应用程序并从传感器取消注册侦
  • 如何使用 boost::log::BOOST_TRIVIAL_LOG 更改默认格式?

    boost log 看起来真的很强大 它提供了一个用于简单日志记录的 BOOST LOG TRIVIAL 宏 但如何更改默认格式呢 它默认打印时间戳 但我不想要它 你有什么主意吗 似乎唯一的方法是重新定义一个新的接收器并将其添加到核心 然后
  • 使用 if 语句时,当前上下文中不存在该名称[重复]

    这个问题在这里已经有答案了 我想用用户给出的小数位数来计算 Pi 当输入为 0 时 变量 piNumber 应设置为 3 而不是 3 以便输出没有无用的逗号 这有效 static string PiNumberFinder int amou
  • 如何在 PySpark Pipeline 中使用 XGboost

    我想更新我的 pyspark 代码 在pyspark中 它必须将基础模型放入管道中 即办公室演示 http spark apache org docs latest ml pipeline html管道使用逻辑回归作为基本模型 但是 似乎无