将新的拟合阶段添加到现有 PipelineModel 中，无需再次拟合

2023-12-04

我想将几个经过训练的管道连接到一个，这类似于 ”Spark 将新的拟合阶段添加到现有 PipelineModel 中，无需再次拟合“但是下面的解决方案适用于 PySpark。

> pipe_model_new = PipelineModel(stages = [pipe_model , pipe_model2])
> final_df = pipe_model_new.transform(df1)

在 Apache Spark 2.0 中，“PipelineModel”的构造函数被标记为私有，因此无法在外部调用。而在“Pipeline”类中，只有“fit”方法创建“PipelineModel”

val pipelineModel =  new PipelineModel("randomUID", trainedStages)
val df_final_full = pipelineModel.transform(df)

Error:(266, 26) constructor PipelineModel in class PipelineModel cannot be accessed in class Preprocessor
    val pipelineModel =  new PipelineModel("randomUID", trainedStages)

没有任何错误与使用Pipeline并调用fit方法。如果一个阶段是一个Transfomer, and PipelineModel is**, fit就像身份一样工作。

你可以检查相关Python:

if isinstance(stage, Transformer):
    transformers.append(stage)
    dataset = stage.transform(dataset)

and 斯卡拉代码:

这意味着拟合过程只会验证模式并创建新的PipelineModel object.

case t: Transformer =>
  t

* 唯一可能担心的是非懒惰的存在Transformers，但是，除了已弃用的情况外OneHotEncoder，Spark核心API不提供这样的。

** 在Python中：

from pyspark.ml import Transformer, PipelineModel

issubclass(PipelineModel, Transformer)

True

在斯卡拉中

import scala.reflect.runtime.universe.typeOf
import org.apache.spark.ml._

typeOf[PipelineModel] <:< typeOf[Transformer]

Boolean = true

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

pipeline

apachesparkml

apachespark20

将新的拟合阶段添加到现有 PipelineModel 中，无需再次拟合的相关文章

将案例类传递给函数参数

抱歉问了一个简单的问题我想将案例类传递给函数参数并且想在函数内部进一步使用它到目前为止我已经尝试过这个TypeTag and ClassTag但由于某种原因我无法正确使用它或者可能是我没有看到正确的位置用例与此类似 case c
如何使用 Apache Livy 设置 Spark 配置属性？

我不知道在向 Apache Livy 提交 Spark 作业时如何以编程方式传递 SparkSession 参数这是测试 Spark 作业 class Test extends Job Int override def call jc J
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
Spark 按列重新分区，每列动态分区数

如何根据列中的项目数对 DataFrame 进行分区假设我们有一个包含 100 人的 DataFrame 列是first name and country 我们希望为一个国家地区的每 10 个人创建一个分区如果我们的数据集包含 80
以有效的方式从 BigQuery 读取到 Spark 中？

使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据我发现它首先将所有数据复制到 G
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
如何从字符串列中提取数字？

我的要求是从列中的评论列中检索订单号comment并且总是开始于R 订单号应作为新列添加到表中输入数据 code id mode location status comment AS SD 101 Airways hyderabad D
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes

随机推荐

Spark异常：worker中的Python版本3.4与驱动程序3.5中的版本不同

我正在使用 Amazon EC2 并且我将主服务器和开发服务器合二为一我还有另一个针对单个工人的实例我对此很陌生但我已经设法使 Spark 在独立模式下工作现在我正在尝试集群 master 和worker 处于活动状态我可以看到它
fpdf“UnicodeEncodeError：'latin-1'编解码器无法对位置 88 中的字符 '\u2013' 进行编码：序数不在范围内（256）”

我正在尝试在 Python 中将文本文件转换为 pdf 但出现错误为什么会发生这种情况以及如何解决这是我的代码 import fpdf from fpdf import FPDF pdf FPDF pdf add page pdf se
PHP：将本地时间转换为 UTC

假设我得到一个像这样的字符串08 22 2015 10 56 PM并且该日期时间字符串始终仅指一个特定时区我需要能够将其转换为这种格式 Ymd THis Z 这是 iCal 格式如何将该字符串转换为祖鲁时间并转换为 Ymd THis
如何在 Xamarin iOS 上执行简单的后台任务

在我们的应用程序中用户可以跟踪并提交他们记录的旅程我需要一种在 iOS 中创建任务的简单方法我已经在 Android 上创建并测试了它它的工作原理是用户选择他们想要提交的旅程点击同步并创建一个前台服务将旅程同步到我们的 API
用于仅插入/仅查询应用程序的 ORM 框架

我已经使用 Hibernate 多年了从来没有遇到过任何问题但我刚刚意识到我的大部分工作都涉及 CRUD 方法其中我需要数据保持持久化并随意修改这样做的问题是有人想要制作 2 个独立的应用程序一个用于批量插入另一个对插入的数据
格式化斯坦福 Corenlp 的 NER 输出

我正在与斯坦福 CoreNLP 合作并将其用于 NER 但是当我提取组织名称时我看到每个单词都标有注释因此如果实体是 NEW YORK TIMES 那么它会被记录为三个不同的实体 NEW YORK 和 TIMES 我们是否可以在斯坦福
重用PreparedStatement

我在我们的代码库上运行了 findbugs 它指出还有两个语句仍然需要关闭在这部分代码中我们运行 preparedStatement connection prepareStatement query 对于3个不同的查询重用prepa
如何使用 Greasemonkey 脚本通过 XSLT 转换 XML 文件？

我有一个搜索服务器它提供一个测试页面我可以在其中输入查询并以 XML 形式返回结果我希望能够以更加用户友好的方式浏览结果因此我开始使用 XSLT 现在我有了一个简单的样式表可以将不知何故臃肿的 XML 转换为仅显示部分数据的简单表
仅获取白色屏幕截图

我可以读取条形码但无法获取屏幕快照 getScreenImage 函数获取白屏如何获取屏幕截图包括我看到的相机视图的屏幕谢谢 interface igViewController
处理器如何读取内存？

我正在尝试重新实现 malloc 我需要了解对齐的目的据我了解如果内存对齐代码将执行得更快因为处理器不必采取额外的步骤来恢复被剪切的内存位我想我明白 64 位处理器读取 64 位乘 64 位内存现在让我们想象一下我有一个按顺序
使用 BitBlt 进行的屏幕截图会在 Windows 10 上显示黑色图像

我正在使用下面的代码来捕获当前活动窗口的屏幕截图这段代码来自捕获屏幕截图包括 NET 中的半透明窗口有一些小的添加即它使用 GetForegroundWindow 和一个计时器以便我可以选择所需的窗口在 Windows 10 x
在 Java 8 流中捕获 UncheckedIOException

编辑这似乎不可能请参阅https bugs openjdk java net browse JDK 8039910 我有一个帮助类它提供了Stream
类型错误：“datetime.date”对象没有属性“__getitem__”

我在我的 models py 中使用 class Pedido models Model data pedido models DateField Data do pedido cliente models ForeignKey Clien
谷歌地理编码不适用于数据库中带有特殊字符的地址

我的谷歌地理编码数据库中的地址特殊字符有问题但如果我对它们进行硬编码则不会简单的地理编码代码 url http maps googleapis com maps api geocode json address address sens
TabControl 处理非活动选项卡上的控件

我正在为我的应用程序使用 MVVM 模式主窗口包括一个TabControl与DataContext映射到 ViewModel
如何将 Lua 模块作为字符串而不是文件加载？

我正在使用 LuaJava 和 Lua 的 C 代码我想做的是读取在Android应用程序中存储为资源字符串的Lua源代码以便可以执行读入的Lua源代码我需要知道如何使用 LuaJava 或 C 语言来做到这一点我想知道如何使用字符
Compact Framework 中的 MAC 地址

如何仅使用紧凑框架获取 MAC 地址 1 4 的 OpenNETCF 代码从以下 P Invoke 调用中获取信息 DllImport iphlpapi dll SetLastError true public static extern
NgAnimate 页面加载 hack

在更新 1 4 1 中 AngularJs Animate 不再像以前那样在页面加载时触发我的旧解决方案类似对此笨蛋 found here并一直工作到 v1 3 9
CSS 字体 Unicode 范围

font face font family Nanum Barun Gothic src url NanumBarunGothic ttf unicode range U AC00 D7A3 U 1100 11FF U 3130 318F
将新的拟合阶段添加到现有 PipelineModel 中，无需再次拟合

我想将几个经过训练的管道连接到一个这类似于 Spark 将新的拟合阶段添加到现有 PipelineModel 中无需再次拟合但是下面的解决方案适用于 PySpark gt pipe model new PipelineModel st

将新的拟合阶段添加到现有 PipelineModel 中，无需再次拟合

将新的拟合阶段添加到现有 PipelineModel 中，无需再次拟合 的相关文章

随机推荐

热门标签

将新的拟合阶段添加到现有 PipelineModel 中，无需再次拟合的相关文章