Spark Streaming 中的 ML 模型更新

2024-04-26

我通过 Spark 批处理作业在 HDFS 中保留了机器学习模型，并且我在 Spark 流中使用它。基本上，ML 模型从 Spark Driver 广播到所有执行器。有人可以建议我如何在不停止 Spark Streaming 作业的情况下实时更新模型吗？基本上，当有更多数据点可用时，就会创建一个新的 ML 模型，但不知道如何将新模型发送到 Spark 执行器。还请求发布一些示例代码。

问候，迪帕克.

最好的方法可能是每批次更新模型 https://stackoverflow.com/a/43392118/790075。由于您可能不想更新得太频繁，因此您可能想要检查您是否确实需要加载模型并在可能的情况下跳过它 https://stackoverflow.com/questions/45031215/how-to-update-rdd-periodically-in-spark-streaming.

对于存储在 hdfs 上的模型，您只需在更新保存已加载模型的变量的值之前检查模型文件上的新时间戳（或目录中存在的新模型）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

SparkStreaming

apachesparkml

Spark Streaming 中的 ML 模型更新的相关文章

Spark Streaming：长排队/活动批次

谁能指出这些活跃批次挂在那里数周且从未得到处理的原因是什么多谢我的猜测是执行者不够更多的工人执行者会解决问题吗或者 Spark 在其任务调度程序中为不同批次分配优先级但这里的情况是最近的批次 6 月底已成功处理但 5 月份
Spark Standalone：TransportRequestHandler：调用 RpcHandler 时出错 - 在不同机器/虚拟机上启动工作程序时

我对此完全陌生所以如果有明显的错误请原谅确切的错误在从站 INFO TransportClientFactory 69 毫秒后成功创建到 10 2 10 128 7077 的连接引导程序中花费了 0 毫秒警告工作器无法连接到主
SPARK、ML、Tuning、CrossValidator：访问指标

为了构建 NaiveBayes 多类分类器我使用 CrossValidator 在管道中选择最佳参数 val cv new CrossValidator setEstimator pipeline setEstimatorParamMap
为什么我只能看到一个 Spark Streaming kafkaReceiver

我很困惑为什么我只能在 Spark Web UI 页面 8080 中看到一个 KafkaReceiver 但我在Kafka中有10个分区并且在spark集群中使用了10个核心我的Python代码如下 kvs KafkaUtils cre
无法将类型转换为 Vector

给定我的 pyspark Row 对象 gt gt gt row Row clicked 0 features SparseVector 7 0 1 0 3 1 0 6 0 752 gt gt gt row clicked 0 gt gt
Spark 流自定义指标

我正在开发一个 Spark Streaming 程序它检索 Kafka 流对流进行非常基本的转换然后将数据插入到数据库如果相关则为 voltdb 我正在尝试测量向数据库插入行的速率我认为metrics http metrics
基于时间戳值流式传输和处理数据（使用 Kafka 和 Spark Streaming）

我将尝试简化我要解决的问题我有一个员工数据流该数据流正在从 JSON 文件中读取并具有以下架构 StructType StructField timeStamp TimestampType StructField emp id Lon
根据 Spark 结构化流中的多个条件更新其他列的列值

我想根据多个条件使用另外两列更新一列中的值例如流就像 A B C D a T 10 0 a T 100 0 a L 0 0 a L 1 0 我所拥有的是多个条件例如 B T C gt 20 或 B L C 0 价值 T 20 L an
Spark Scala UDP 在侦听端口上接收

中提到的例子http spark apache org docs latest streaming programming guide html http spark apache org docs latest streaming pro
关于访问 Tuple2 内的字段时发生错误

我正在尝试访问 Tuple2 中的字段但编译器返回错误该软件尝试在 kafka 主题中推送一个案例类然后我想使用 Spark Streaming 恢复它这样我就可以提供机器学习算法并将结果保存在 mongo 实例中 Solved 我
Spark Streaming数据放入HBase的问题

我是这个领域的初学者所以我无法理解它 HBase 版本 0 98 24 hadoop2 火花版本 2 1 0 以下代码尝试将从 Spark Streming Kafka 生产者接收的数据放入 HBase 中 Kafka输入数据格式是这样的
可以触发流选择特定文件

我的程序连续读取流hadoop文件夹比如 hadoopPath 它从上面的文件夹中选取所有文件我可以只显示该文件夹的特定文件类型吗例如 hadoopPath log 我还有一个与 Spark 和流媒体相关的问题 Spark Strea
地图功能中的条件

Scala 有没有类似的东西 condition first expression second expression 我可以在scala中的map函数中使用它吗我希望能够写出这样的东西 val statuses tweets map s
如何在 PySpark 中创建自定义估算器

我正在尝试构建一个简单的自定义Estimator在 PySpark MLlib 中我有here https stackoverflow com questions 32331848 create a custom transformer
如何在 Spark Pipeline 中使用随机森林

我想通过网格搜索和 Spark 交叉验证来调整我的模型在 Spark 中它必须将基础模型放入管道中即管道办公室演示 http spark apache org docs latest ml guide html example mod
Spark Streaming：如何在 Python 中获取已处理文件的文件名

我对 Spark 老实说也是 Python 有点菜鸟所以如果我错过了一些明显的东西请原谅我我正在使用 Spark 和 Python 进行文件流处理在我做的第一个示例中 Spark 正确地侦听给定目录并计算文件中单词的出现次数因此我
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
使用 scalapb 在 Spark Streaming 中解码 Proto Buf 消息时出错

这是一个 Spark Streaming 应用程序它使用编码的 Kafka 消息Proto Buf Using scalapb图书馆我收到以下错误请帮忙 gt com google protobuf InvalidProtocolBu
使用 mapWithState Spark Streaming 过滤部分重复项

我们有一个DStream 比如 val ssc new StreamingContext sc Seconds 1 val kS KafkaUtils createDirectStream String TMapRecord ssc Pre
嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎

随机推荐

C# 使用 Linq Expression 进行动态数据库过滤

我尝试创建通用方法来过滤数据库中的不同实体以避免为每个实体创建庞大的方法并使用非常相似的 if 语句组合过滤规则现在我正在尝试创建表示相等比较的表达式作为描述要比较的属性和某个值的参数表达式我的概念如何解决问题以及我根据以下代码片
互动倒计时增加？

我有一个表单如果没有完成任何鼠标交互我想在 5 秒后关闭它但如果完成任何鼠标交互我希望它关闭countdown 5 seconds每次交互都会增加 5 秒这是我到目前为止想到的 int countdown 5 System Tim
将多个 Excel 工作表范围转换为 PDF VBA

下面的代码是获取 Col E 的状态如果它是 Include 那么其相应的工作表范围将被转换为 PDF 我已经尝试过了但它无法正常工作并收到错误invalid procedure call or argument在线上 rng Expo
如何让网络工作者跨域、多浏览器工作？ IE SCRIPT5022：安全错误

我创建了从单独的文件和内联工作人员 blob 调用的网络工作人员这两种方法在大多数浏览器中都无法一致工作我按照下面的教程使用 COR http www html5rocks com en tutorials workers basics
使用 pROC 绘制 ROC 曲线失败

我有一个数据集其组织方式如下 gt head crypto data time btc price btc change btc change label eth price block size difficulty estimated
如何在具有受保护功能的 React Router 中映射路由？

我尝试使用映射和受保护函数中的 React Route 处理我的代码 This 组件数组 import LoginContainers from Containers LoginContainers LoginContainers impo
为什么 Java 和 C# 没有隐式转换为布尔值？

自从我开始使用 Java 以来它不支持从数字类型到布尔值的隐式转换这对我来说非常恼火所以你不能做这样的事情 if flags 0x80 相反你必须经历这种疯狂 if flags 0x80 0 null 和对象也是如此我所知道的所有
JAVA - 如何将一个对象的属性复制到另一个具有相同属性的对象？

假设我们有一个对象 A 定义如下 public class ObjectA private Attribute a1 private Attribute a2 private Attribute a3 由于某种原因我需要创建第二个对象 B
类型“Request”上不存在属性“”

当试图延长Request包中的接口express要添加一些自定义属性我收到以下打字稿错误 TS2339 Property does not exist on type Request
如何在pyplot中自动标注最大值

我试图弄清楚如何自动注释图形窗口中的最大值我知道您可以通过手动输入 x y 坐标来注释您想要使用的任何点来完成此操作 annotate 方法但我希望注释是自动的或者自己找到最大值点到目前为止这是我的代码 import matplo
JMX 的使用以及如何用于现有应用程序

几年前我们就在 JDK 5 上开发了分布式 Web 应用程序 JMX 将如何帮助这个应用程序 1 它能帮助我监控性能内存 CPU 以及网络和磁盘 IO 吗 2 如果是这样那么应用程序部署在多个服务器中我如何在一个仪表板中进行监控 3
为什么所有的 Active Record 都讨厌？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何在 Ruby 中将…（省略号）更改为…（三个句点）？

我正在解析这个文件 http msdn microsoft com en us library ms189782 aspx using nokogiri 我发现有一些省略号该页面中的字符且无法删除我想知道如何用Ruby来替换所有省略
JavaScript 正则表达式异常（无效组）

我有以下正则表达式 lt index d g 我正在尝试在像这样的字符串中查找索引整数 some text index 1 id 2 value 3 该表达式在 php 中工作正常但在 javascript 中不起作用我收到以下错误未
以正常形式打印浮点数，而不是指数形式/科学记数法[重复]

这个问题在这里已经有答案了我有一个以指数形式打印的数字 gt gt gt gt gt gt a 1 1221759 gt gt gt print a 8 184920266599223e 07 gt gt gt 我怎样才能让它以正常形式打
如何在express和node中从html表单发送put请求

我有一个用于编辑对象的表单我想使用 Express 3 x 和 node js 正确处理它编辑物品路线 item edit显示用于编辑对象的表单我想我有三个选择 1 放置一个值为 edit 的隐藏字段这样我就可以在express中正
使用 MVCMailer 尝试发送到非本地电子邮件地址时，邮件服务器需要身份验证

我想向用户发送新闻通讯电子邮件我已经这样做了 public ActionResult SendNewsLetter userMailer NewsLetter Send return View 在 userMailer 类中 public
基于超简单静态文件（html）的php站点缓存

我有一个网站基本上只显示内容没有任何表格和后期处理该网站基于 PHP 并托管在共享主机上它很少改变我想为此网站启用缓存它是共享托管所以我需要一个解决方案不使用 Memcached 不需要将我的网站移至 VPS 不要使用APC
如何删除firestore自动生成的单字段索引？

update 太长了如果您到达这里您应该重新检查构建数据库的方式随着时间的推移您的文档可能会被消耗由于嵌套列表等原问题我有一个包含很多字段的文档集合我不查询文档甚至不查询简单的查询我只使用 db collection m
Spark Streaming 中的 ML 模型更新

我通过 Spark 批处理作业在 HDFS 中保留了机器学习模型并且我在 Spark 流中使用它基本上 ML 模型从 Spark Driver 广播到所有执行器有人可以建议我如何在不停止 Spark Streaming 作业的情况下实

Spark Streaming 中的 ML 模型更新

Spark Streaming 中的 ML 模型更新 的相关文章

随机推荐

热门标签

Spark Streaming 中的 ML 模型更新的相关文章