Spark - 它如何在节点周围分发数据？

2024-03-12

Spark如何将数据分发给worker？

工作人员是从数据源读取数据，还是驱动程序读取数据并将其发送给工作人员？当一个工作人员需要另一个工作人员中的数据时，他们是否直接进行通信？

Thanks!

如果您使用分布式输入法，例如SparkContext.textFile https://spark.apache.org/docs/1.6.2/api/java/org/apache/spark/SparkContext.html#textFile(java.lang.String,%20int)然后工作人员直接从您的数据源读取（或者如果您从工作人员任务代码内部显式打开 HDFS 文件，那么当然这些也会发生在工作人员身上）。

如果您在主驱动程序上手动读取数据，然后使用SparkContext.parallelize，那么您的驱动程序确实会向您的工作人员发送数据。

工作人员之间的数据依赖关系通常称为shuffle https://cwiki.apache.org/confluence/display/SPARK/Shuffle+Internals;这种类型的工人之间的通信在很多方面都是大多数大数据处理系统的核心，正是因为它很难高效可靠地进行。从概念上讲，您或多或少可以将其视为“直接通信”，但根据数据依赖性的处理方式，幕后可能会发生更多事情。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Spark - 它如何在节点周围分发数据？的相关文章

Spark：shuffle操作导致GC长时间暂停

我在跑Spark 2我正在尝试洗牌大约 5 TB 的 json 我在洗牌期间遇到了很长的垃圾收集暂停Dataset val operations spark read json inPath as MyClass operations re
Spark：有没有办法打印出spark-shell和spark的类路径？

我可以在 Spark shell 中成功运行 Spark 作业但是当它打包并通过 Spark submit 运行时我收到 NoSuchMethodError 这向我表明类路径存在某种不匹配有没有办法可以比较两个类路径某种日志记录语句
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
pyspark：将 schemaRDD 保存为 json 文件

我正在寻找一种将数据从 Apache Spark 以 JSON 格式导出到各种其他工具的方法我认为一定有一种非常简单的方法来做到这一点示例我有以下 JSON 文件 jfile json key value a1 key2 value
如何使用 Apache Livy 设置 Spark 配置属性？

我不知道在向 Apache Livy 提交 Spark 作业时如何以编程方式传递 SparkSession 参数这是测试 Spark 作业 class Test extends Job Int override def call jc J
使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用

随机推荐

Pandas：在条件后创建指示列

import numpy as np import pandas as pd df pd DataFrame cond A A A A A A A A A B B B B B B B B B Array S S TT TT S S TT T
Crashlytics 在初始化期间超时

当我使用 Crashlytics 运行 Android 应用程序时它在启动时挂起并且我得到一个TimeoutException 然后当我尝试使应用程序崩溃时我收到另一个 TimeoutException 并显示消息Crashlyti
Django BooleanField 作为下拉菜单

有没有办法让 Django BooleanField 成为表单中的下拉菜单现在它呈现为单选按钮是否可以有一个带有选项的下拉菜单是否目前我对该字段的表单定义是 attending forms BooleanField require
为什么将 Spring Cloud 应用程序与 AWS Parameter Store 集成不会从参数存储中返回任何属性？

Intent 我正在开发一个 POC 打算使用 AWS 参数存储作为属性存储这会将机密应用程序属性存储在 AWS SSM 的参数存储中我正在使用 Java 8 和 spring boot cloud 版本 2 Resource 我跟着本
打印顶部没有 XML 标题行的 XML 文档

我只是想找出如何to xml with a Nokogiri XML Document or a Nokogiri XML DocumentFragment 或者我想在Nokogiri XML DocumentFragment 我无法确定
AsParallel() 如何分割它的“源”？

我试图确定 AsParallel 如何分割它的源以及源的含义例如 public class CSVItem public DateTime Date get set public string AccountNumber get
Google Cloud Dataflow：通过命令行参数指定 TempLocation

我尝试通过将其作为命令行中的选项传递来指定我的 GCS 临时位置如下所示 java jar pipeline 0 0 1 SNAPSHOT jar runner DataflowRunner project
Array.push.setAnyFormatting('红色')？

描述 Stack Overflow 用户 mhawksey 最近做了一些出色的优化 https stackoverflow com questions 35289183 long processing time likely due to
如何将vim（通过tmux）绑定到Cmd键

我通常使用 macvim 并且使用 macs 命令键有许多键绑定我正在尝试切换到 tmux 但这些绑定都不起作用有关如何修改我的 tmux config 或 vimrc 以恢复这些绑定的任何提示你是否有机会使用
如何在单击时切换选中/未选中状态时更改复选框标签的颜色

当我选中或取消选中时我试图更改复选框标签的字体颜色和背景颜色我在这个网站上找到了一个 javascript 解决方案但无法使代码正常工作这是我到目前为止所尝试过的现在它正在将突出显示类附加到父 div 我只想更改标签谢谢你的
如何在 ASP.NET 5 中将实体框架 6 与 MySQL 结合使用？

我有一个使用 ASP NET MVC 4 Entity Framework 6 和 MySQL 的现有网站我正在尝试将其升级到 ASP NET 5 但希望继续使用实体框架 6 因为实体框架缺少一些功能并且尚不支持 MySQL 如何在 AS
如何在条形图上方注释geom_bar？

我正在尝试使用 ggplot2 做一个简单的绘图 library ggplot2 ggplot diamonds aes x cut y depth geom bar stat identity color blue facet wrap
R - 如何将数据转换为块形式以进行弗里德曼测试？

在此输入图像描述 https i stack imgur com N0cvs png我有一些与治疗前后血液中化学物质水平有关的数据有 4 个治疗组 ABCD 有人告诉我可以运行弗里德曼测试来立即比较所有这些变量我尝试过的代码是 atta
如何限制极坐标的显示宽度，以便以清晰的方式打印宽数据帧？

考虑下面的例子 pd set option display width 50 pl DataFrame data np random randint 0 20 size 10 42 columns list abcdefghijklmnop
EF 中的 CurrentDateTime()

我使用这段代码来获取服务器日期但我真的不明白 CreateDateTime 不是一个 sql 函数那么它是什么 DateTime ServerDate Entities CreateQuery
Python matplotlib 减小颜色条标签的大小

我需要你的帮助我有一个绘图代码如下 fig plt figure ax1 fig add subplot 111 imax1 ax1 imshow data interpolation nearest origin lower cmap
Log4J - 类似 SiftingAppender 的功能

我在一个使用的项目中工作Log4J http logging apache org log4j 1 2 index html 要求之一是为每个线程创建一个单独的日志文件这本身就是一个奇怪的问题通过动态创建一个新的 FileAppende
在 Matlab 图中重叠两个轴

我正在寻找一种方法来覆盖 x y 时间序列比如用 plot 创建的在 contourf 生成的显示之上在 y 轴上具有不同的缩放比例似乎在两个 x y 图的情况下执行此操作的典型方法是使用内置函数 plotyy 它甚至可以由 plo
实体框架代码优先一对一必需-必需关系

使用 Entity Framework Code First 4 3 1 时可以创建具有多重性的 1 对 1 关系也就是说关系的每一端都有一个实体可以将一对一关系配置为需要需要 or 必需可选然而当我在两者之间切换时我没有
Spark - 它如何在节点周围分发数据？

Spark如何将数据分发给worker 工作人员是从数据源读取数据还是驱动程序读取数据并将其发送给工作人员当一个工作人员需要另一个工作人员中的数据时他们是否直接进行通信 Thanks 如果您使用分布式输入法例如SparkContex

Spark - 它如何在节点周围分发数据？

Spark - 它如何在节点周围分发数据？ 的相关文章

随机推荐

热门标签

Spark - 它如何在节点周围分发数据？的相关文章