Spark 的 StreamingLinearRegressionWithSGD 是如何工作的？

2024-03-03

我正在研究StreamingLinearRegressionWithSGD https://spark.apache.org/docs/1.6.3/api/java/org/apache/spark/mllib/regression/StreamingLinearRegressionWithSGD.html它有两个方法trainOn https://spark.apache.org/docs/1.6.3/api/java/org/apache/spark/mllib/regression/StreamingLinearAlgorithm.html#trainOn(org.apache.spark.streaming.dstream.DStream) and predictOn https://spark.apache.org/docs/1.6.3/api/java/org/apache/spark/mllib/regression/StreamingLinearAlgorithm.html#predictOn(org.apache.spark.streaming.dstream.DStream)。这个类有一个model https://spark.apache.org/docs/1.6.3/api/java/org/apache/spark/mllib/regression/StreamingLinearAlgorithm.html#latestModel()当训练数据到达指定的流中时更新的对象trainOn争论。

同时它使用相同的模型给出预测。

我想知道模型权重如何在工作人员/执行人员之间更新和同步。

任何链接或参考都会有帮助。谢谢。

这里没有魔法。StreamingLinearAlgorithm 保留可变引用 https://github.com/apache/spark/blob/a1e40b1f5d651305bbd0ba05779263a44f607498/mllib/src/main/scala/org/apache/spark/mllib/regression/StreamingLinearAlgorithm.scala#L65到目前的GeneralizedLinearModel.

trainOn uses DStream.foreachRDD在每个批次上训练一个新模型，然后更新model https://github.com/apache/spark/blob/a1e40b1f5d651305bbd0ba05779263a44f607498/mllib/src/main/scala/org/apache/spark/mllib/regression/StreamingLinearAlgorithm.scala#L92-L94。相似地predictOn uses DStream.map预测 https://github.com/apache/spark/blob/a1e40b1f5d651305bbd0ba05779263a44f607498/mllib/src/main/scala/org/apache/spark/mllib/regression/StreamingLinearAlgorithm.scala#L123与当前版本的model.

由于 Spark 将为每个阶段序列化闭包，因此不需要任何额外的同步。 Spark 将使用当前值model每次计算闭包时。

实际上，它相当于在具有交错的驱动程序上运行循环run and predict.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 的 StreamingLinearRegressionWithSGD 是如何工作的？的相关文章

Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
使用已知模式保存空 DataFrame (Spark 2.2.1)

是否可以使用已知模式保存一个空的 DataFrame 以便将该模式写入文件即使它有 0 条记录 def example spark SparkSession path String schema StructType val datafr
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
Spark 对 RDD 中按值排序

我有一个火花对 RDD 键计数如下 Array String Int Array a 1 b 2 c 1 d 3 使用spark scala API如何获取按值排序的新RDD对所需结果 Array d 3 b 2 a 1 c 1 这应
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio
从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
通过spark-shell以静默模式执行scala脚本

需要通过spark shell以静默模式执行scala脚本当我使用时spark shell i file scala 执行后我进入scala交互模式我不想进入那里我尝试执行spark shell i file scala 但我不知道
在S3中捕获Kubernetes Spark驱动程序和执行程序日志并在历史服务器中查看

我正在 Kubernetes 上使用 Spark submit cli 运行 Spark 3 0 0 和 Hadoop 2 7 如下所示 spark submit master k8s https api k8s my domain com
Spark 输出：日志式与进度式

spark submit两个不同集群都运行 Spark 1 2 上的输出看起来不同一个是日志式即大量消息流例如 15 04 06 14 53 13 INFO TaskSetManager Starting task 262 0 i
嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎
使用 Spark SQL 时找不到 Spark Logging 类

我正在尝试用 Java 进行简单的 Spark SQL 编程在程序中我从 Cassandra 表获取数据将RDD into a Dataset并显示数据当我运行spark submit命令我收到错误 java lang Class
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
createOrReplaceTempView 在 Spark 中如何工作？

我是 Spark 和 Spark SQL 的新手如何createOrReplaceTempView在 Spark 工作如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
带可变参数的 Spark UDF

如文档中所示列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht

随机推荐

Excel：使用外部链接可以提高性能吗？

我想知道使用外部链接与打开电子表格和复制单元格使用 VBA 相比是否有性能提升我想 Excel 必须以同样的方式打开文件但是当我使用以下代码进行测试时外部链接速度更快 Dim t As Double Dim rng As Range
使用 Xcode 6 从命令行进行 UIAutomation 测试调用

在新的 Xcode 版本中从命令行运行 UIAutomation 测试似乎经常会中断根据过去的帖子判断由于从未使用过命令行脚本我发现了 2012 年的这篇文章来自命令行的自动化仪器 https stackoverflow com
setup.py：如何查找用户指定的括号内的附加内容

我有一个通过 PyPI 分发的包其中包含大量数据 PyPI 有 100MB 的限制我想分发比这更多的数据数据相当不变因此在每次代码发布时不断将大量数据推送到 PyPI 似乎也很浪费相反我更愿意分发最少的数据并将大数据选项作为可
d3：不规则/分散数据的等高线或曲面图

我可以采用一组三元组 X Y Z 并立即使用 Python 和 matplotlib 生成一个平滑等高线图单次通话 to 三角轮廓 https matplotlib org examples pylab examples tricont
实时调试堆栈溢出

我有一个托管代码 Windows 服务应用程序由于托管 StackOverFlowException 该应用程序在生产中偶尔会崩溃我知道这一点是因为我在崩溃模式下运行了 adplus 并使用 SoS 事后分析了崩溃转储我什至附加了 W
Firebase：从 UID 获取 DisplayName [重复]

这个问题在这里已经有答案了我将用户的显示名称存储在 Firebase Auth 中当同一用户登录时从 Firebase Auth 获取很简单但是当另一个用户登录时当我拥有帐户的唯一 UID 用户 ID 时如何获取帐户的显示名称
在 WebApplicationFactory 的配置源中关闭“ReloadOnChange”

这既是一个问题也是一个答案我已经解决了我的问题但似乎有点不对劲我最初的问题是在 bitbucket 管道中运行我的 ASP NET Core 集成测试原因是System IO IOException The configured
不允许 HTTPS 页面运行来自 safari-extension:// URI 的不安全内容

我在 Safari 9 1 11601 5 17 1 的 Safari 扩展中遇到了奇怪的行为我尝试使用 safari extension 插入一个新的 Iframe 其 src 指向扩展包中的 html 文件如果我单击控制台中显示的错
无法在 Google 操作中使用隐式/授权流程来授权用户

我正在尝试链接到该帐户这是我的谷歌云功能 var AuthHandler function this googleSignIn googleSignIn this googleSignInCallback googleSignInCall
C# - 如何使两个表单相互引用

我正在用 MS Visual C 编写一个 WindowsForms 应用程序我需要两个表单才能相互引用在测试时我在 Form1 上创建了两个按钮一个按钮显示 Form2 另一个按钮隐藏它代码如下我想对 Form2 做同样的事情
动态变量如何影响性能？

我对性能有疑问dynamic在 C 中我读了dynamic让编译器再次运行但它有什么作用呢是否必须使用以下命令重新编译整个方法dynamic变量用作参数还是仅那些具有动态行为上下文的行我注意到使用dynamic变量可以使简单的 f
Git：从一个分支的给定文件中删除所有更改的最佳方法

我有一个有点混乱的分支有 20 个左右的提交我正在准备合并回 master 我已经将其重新设置为脱离 master 仔细观察我意识到有些文件正在以与该分支完全无关的方式进行修改并且尚未准备好提交对这些文件的更改并不局限于特定的提交
使用curl和php自动填写表单

我正在尝试编写一个自动填写表单然后自动按下提交按钮的脚本我读过您可以使用curl来发布HTTP请求但是当表单使用JavaScript处理post请求时您会做什么就像下面的代码一样
使 DIV 覆盖 100% 的视口而不是 100% 的主体

我的帖子是关于http www thepostboard net http www thepostboard net 我需要让当前覆盖 100 视口的黑框覆盖整个页面只有当您的屏幕需要滚动条才能查看网站时您才会注意到这一点否则它看起来
您能否将具有更严格内存排序的原子加载存储拆分为单独的宽松加载存储以及内存屏障指令？

下面是用于跨线程数据同步的获取释放语义的简单示例 thread 1 thread 2 data 100 flag store true std memory order release while flag load std memory
查找调用可执行文件时命令行使用的路径

我遇到以下问题我想跑步ecd exe从命令行我已将其完整路径添加到路径环境变量中打电话时ecd exe从命令行我得到以下输出 Error ecd exe should be located under the Eclipse h
在Python中模拟“局部静态”变量

考虑以下代码 def CalcSomething a if CalcSomething cache has key a return CalcSomething cache a CalcSomething cache a ReallyCal
来自实体框架的 WCF 合同？

我在这个问题上遇到了很多死胡同据称 NET 3 5 SP1 支持 WCF 合约中的 ADO NET 实体框架实体但当我寻找有关它的可靠信息时我没有得到很多答案我在 MSDN 线程上找到了这个片段有人对这个有经验么 DataCont
MVC 中的 IoC Castle Windsor 路由问题

我已经在我的 mvc 应用程序中设置了温莎城堡一切都很好除了它还捕获链接或图像类型的路由问题是在退出控制器并生成视图之前 GetControllerInstance 是以 null 类型执行的只要页面上有如下链接就会发生这种情况
Spark 的 StreamingLinearRegressionWithSGD 是如何工作的？

我正在研究StreamingLinearRegressionWithSGD https spark apache org docs 1 6 3 api java org apache spark mllib regression Strea

Spark 的 StreamingLinearRegressionWithSGD 是如何工作的？

Spark 的 StreamingLinearRegressionWithSGD 是如何工作的？ 的相关文章

随机推荐

热门标签

Spark 的 StreamingLinearRegressionWithSGD 是如何工作的？的相关文章