Spark流吞吐量监控

2024-04-28

有没有办法监控 Spark 集群的输入和输出吞吐量，以确保集群不会被传入数据淹没和溢出？

就我而言，我在 AWS EC2 上设置了 Spark 集群，所以我正在考虑使用AWS 云观察来监控网络输入 and 网络输出对于集群中的每个节点。

但我的想法似乎不准确，网络并不意味着仅 Spark 的传入数据，也许还会计算一些其他数据。

有没有专门监控的工具或方法Spark集群流数据状态？或者 Spark 中已经有一个我错过的内置工具？

update: 火花1.4发布，4040端口监控显着增强，图形显示

斯帕克有一个可配置的度量子系统 https://spark.apache.org/docs/latest/monitoring.html#metrics。默认情况下，它会发布已注册指标的 JSON 版本<driver>:<port>/metrics/json。可以配置其他指标同步，例如 ganglia、csv 文件或 JMX。

您将需要一些外部监控系统来定期收集指标并帮助您理解它。（注：我们使用 Ganglia，但还有其他开源和商业选项）

Spark Streaming 发布了多个可用于监控作业性能的指标。要计算吞吐量，您需要结合：

(lastReceivedBatch_processingEndTime-lastReceivedBatch_processingStartTime)/lastReceivedBatch_records

对于所有支持的指标，请查看流媒体源 https://github.com/apache/spark/blob/master/streaming/src/main/scala/org/apache/spark/streaming/StreamingSource.scala

示例：使用 Spark 1.3.1 启动本地 REPL，并在执行一个简单的流应用程序后：

import org.apache.spark.streaming._
val ssc = new StreamingContext(sc, Seconds(10))
val queue = scala.collection.mutable.Queue(1,2,3,45,6,6,7,18,9,10,11)
val q = queue.map(elem => sc.parallelize(Seq(elem)))
val dstream = ssc.queueStream(q)
dstream.print
ssc.start

一个人可以得到localhost:4040/metrics/json返回：

{
version: "3.0.0",
gauges: {
local-1430558777965.<driver>.BlockManager.disk.diskSpaceUsed_MB: {
value: 0
},
local-1430558777965.<driver>.BlockManager.memory.maxMem_MB: {
value: 2120
},
local-1430558777965.<driver>.BlockManager.memory.memUsed_MB: {
value: 0
},
local-1430558777965.<driver>.BlockManager.memory.remainingMem_MB: {
value: 2120
},
local-1430558777965.<driver>.DAGScheduler.job.activeJobs: {
value: 0
},
local-1430558777965.<driver>.DAGScheduler.job.allJobs: {
value: 6
},
local-1430558777965.<driver>.DAGScheduler.stage.failedStages: {
value: 0
},
local-1430558777965.<driver>.DAGScheduler.stage.runningStages: {
value: 0
},
local-1430558777965.<driver>.DAGScheduler.stage.waitingStages: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_processingDelay: {
value: 44
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_processingEndTime: {
value: 1430559950044
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_processingStartTime: {
value: 1430559950000
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_schedulingDelay: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_submissionTime: {
value: 1430559950000
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_totalDelay: {
value: 44
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastReceivedBatch_processingEndTime: {
value: 1430559950044
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastReceivedBatch_processingStartTime: {
value: 1430559950000
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastReceivedBatch_records: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastReceivedBatch_submissionTime: {
value: 1430559950000
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.receivers: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.retainedCompletedBatches: {
value: 2
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.runningBatches: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.totalCompletedBatches: {
value: 2
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.totalProcessedRecords: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.totalReceivedRecords: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.unprocessedBatches: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.waitingBatches: {
value: 0
}
},
counters: { },
histograms: { },
meters: { },
timers: { }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark流吞吐量监控的相关文章

内容长度标头与分块编码

我正在尝试权衡设置的利弊Content LengthHTTP 标头与使用分块编码从我的服务器返回可能大文件的比较使用持久连接需要其中之一来符合 HTTP 1 1 规范我看到了的优点Content Length标头是下载对话框可以显
使用循环计算 Python 字典中元素的有效方法

我有一个值列表我希望在循环期间计算每个类的元素数量即 1 2 3 4 5 mylist 1 1 1 1 1 1 2 3 2 2 2 2 3 3 4 5 5 5 5 mydict dict for index in mylist mydi
获取 Prometheus 中两个自定义时间戳之间的增量

我有一个名为的普罗米修斯指标device number 我想要的是显示现在与一天一周一个月等之前的价值差异这意味着减去具有两个不同时间戳的两个值环顾四周我没有找到任何关于如何执行此操作的有用文档我想做但不起作用的是 sum de
如何编写更高效的代码

世纪问题我基本上想知道如果我将此代码编写为几个不同的变量或使用小数组哪个会更有效 int x 34 int y 28 int z 293 vs double coordinate 3 34 28 293 我有一个坐标结构我将按以下方式
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
如何提高QNX6下Eclipse IDE的性能

我们在 VMWare 环境中通过 QNX6 运行 Eclipse 速度非常慢 Eclipse 是这样启动的 usr qnx630 host qnx6 x86 usr qde eclipse eclipse data root workspa
glBlitFramebuffer 渲染缓冲区和渲染全屏纹理哪个更快？

哪个更快更高效使用 OpenGL 纹理作为 CUDA 表面并在四边形上渲染新样式使用渲染缓冲区作为 CUDA 表面并使用 glBlitFramebuffer 进行渲染 None
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
普罗米修斯警报中缺少标签

我对 Prometheus 警报规则有疑问我设置了各种 cAdvisor 特定警报例如 alert ContainerCpuUsage expr sum rate container cpu usage seconds total 3m
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
为什么 std::atomic 比 volatile bool 慢很多？

多年来我一直使用 volatile bool 来控制线程执行并且效果很好 in my class declaration volatile bool stop In the thread function while stop do th
php字符串是值类型吗？

为什么php的string是值类型每次将参数传递给函数时每次进行赋值时每次连接都会导致字符串被复制时它都会被复制到各处我的 NET 经验告诉我它似乎效率低下迫使我几乎在任何地方都使用引用考虑以下替代方案替代方案1 This
为什么 cross_val_predict 比 KNeighborsClassifier 的拟合慢得多？

在 Jupyter 笔记本上本地运行并使用 MNIST 数据集 28k 条目每个图像 28x28 像素以下内容为27秒 from sklearn neighbors import KNeighborsClassifier knn clf
无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

我有一个简单的单元测试使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试没有任何问题但是当尝试从 SBT shell 运行相同的测试时我收到以下错误 java lang NoClassDefFoun
为什么我的原生 C++ 代码在 Android 上运行速度比 Java 慢很多？

我将 Java 代码的某些部分移植到 C 以加快 Android 上的计算速度这是一个物理子例程我发现本机代码的运行速度比 Java 代码慢几倍我认为我的项目配置可能有问题或者可能是数组处理有问题所以我在 HelloAndroid
将嵌套循环计算转换为 Numpy 以加速

我的Python程序的一部分包含以下代码段其中一个新的网格是根据旧网格中找到的数据计算的网格是二维浮点数列表该代码使用了三个 for 循环 for t in xrange 0 t step for h in xrange 1 hei
超慢的表格布局性能

我遇到了糟糕的 TableLayout 性能我在这里读过一些帖子谈论同样的事情 Android 动态创建表性能不佳 https stackoverflow com questions 9813427 android dynamical
展开 std::reference_wrapper 的成本

Given include

随机推荐

Haskell - 无法将类型“PersistEntityBackend record0”与“SqlBackend”匹配

我正在尝试通过 Yesod 中的 id 获取记录我的代码是 getEditActorR Handler Html getEditActorR do actorId lt runInputGet ireq intField id actor
比较 Observable 的前一个值与 Angular 中的下一个值

我一直在开发一个应用程序它允许几个不同的组件更新BehaviorSubject在角度在每个组件中我存储前一个组件的本地副本BehaviorSubject价值为了知道组件是否生成了被推出的新值我计划使用 LoDash 来比较两个对象
计算撞击倾斜墙壁后的角度变化

我正在用 javascript 制作一个游戏其中一个物体应该从墙上反弹我真的尝试让它自己工作但它从来没有正常工作假设有一个球在笼子内弹跳蓝色 30 棕色 60 球的坐标是已知的运动角度是已知的碰撞点 P 坐标已知墙的角度是已
Ansible：即使成为 sudo 用户，也无法配置 sudo 命令

testuser 是 sudo 用户 sudo cat etc sudoers d 90 cloud init testuser testuser ALL ALL NOPASSWD ALL 我可以手动登录 testuser 并在没有密码的情
Java 中的对象与扩展

我可能是错的因为我没有太多的 Java 经验但这里有一个问题我有一个包含许多方法的类基本上它是一个简单的库我创建了这个类的一个对象MyLibrary obj new MyLibrary parameters 这些参数设置库正确运行
较新的三星设备无法在其内置短信应用程序中显示网页[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案当我打开一个 URL 时比如https www google com https www google com 在三星内置消息应用程序中
clrscr() 不工作，getch() 工作。为什么？

我正在做一个小C请求密钥并执行 switch 语句中的某些代码的程序 include
toastr.js 如何在 Aurelia 和 Typescript 中工作？

我似乎无法让这些一起工作我正在使用 Aurelia CLI 并以类似的方式成功地对其他库如 select2 spin moment 和 numeric 进行了操作但我似乎无法让 toastr 工作这是我到目前为止所拥有的首先我跑了
并发.futures问题：为什么只有1个worker？

我正在尝试使用concurrent futures ProcessPoolExecutor并行化串行任务串行任务涉及从数字范围中查找给定数字的出现次数我的代码如下所示在执行过程中我从任务管理器系统监视器顶部注意到尽管给定了 m
Apple Mach-O 链接器警告“未找到选项目录...”

我只是想摆脱像这样弹出的警告 ld warning directory not found for option F Users m Desktop FacebookSDK ld warning directory not found fo
System.Console 作为带有输入行的日志窗口

我正在编写一个控制台应用程序在文本滚动时需要用户在底行输入这个想法是让文本滚动并在底部留下输入行我想要文本编辑功能箭头键插入删除等我也希望能够拥有静态状态行不受滚动影响的行 A real world example wou
R：使用 dplyr 对列序列按行求和

本着类似问题的精神here https stackoverflow com questions 28873057 sum across multiple columns with dplyr and here https stackover
将文件拖放到 Microsoft Access 中

我在 Microsoft Access 中有一个表单允许用户将附件上传到每条记录我想通过让用户将文件拖放到附件字段中来使其更加用户友好执行此操作的最佳方法是什么我该如何执行此操作以下是拖放附加文件以便与 MS Access 一
删除并添加回元素后，JQuery 单击功能不起作用

这是我的点击功能 cal table tbody td on click function if this hasClass available alert asd 我遇到的问题是在切换到下个月或上个月后我在日历上的点击功能不起作用例
使用 FosUserBundle 分配角色

我对 Symfony 真的很陌生我正在尝试使用 FosUserBundle 向用户注册角色但我无法管理如何做到这一点实际上我还集成了 PUGXMultiUserBundle 以便为两个不同的角色提供两种不同的形式谁能帮我提前致谢
MATLAB 引擎函数的输入参数

我正在尝试使用 MATLAB 引擎在 Python 中调用 MATLAB 函数但遇到一些问题在设法将 NumPy 数组作为函数的输入处理后现在 MATLAB 出现一些错误 MatlabExecutionError 未定义输入函数 si
相机表面视图图像看起来被拉伸

在纵向模式下图像看起来垂直拉伸在横向模式下图像看起来水平拉伸虽然捕获图像后以适当的尺寸显示如何解决这个问题您需要选择与您的显示尺寸相匹配的预览尺寸我建议更改预览尺寸设置以匹配您的SurfaceView而不是相反虽然预览数据很
SQL Server：多行的 SUM() 包括 where 子句

我有一张如下所示的表 PropertyID Amount Type EndDate 1 100 RENT null 1 50 WATER null 1 60 ELEC null 1 10 OTHER null 2 70 RENT
Cakephp 验证后，所有表单字段都为空，并出现表单错误

我有问题我尝试填写表单然后单击提交按钮然后它显示表单错误但所有文本框字段都变为空白并且可以显示表单错误我希望它变得与验证之前相同的值就像我不想在验证后清除清空值一样我做了这样的事情在视图中 div class regfo
Spark流吞吐量监控

有没有办法监控 Spark 集群的输入和输出吞吐量以确保集群不会被传入数据淹没和溢出就我而言我在 AWS EC2 上设置了 Spark 集群所以我正在考虑使用AWS 云观察来监控网络输入 and 网络输出对于集群中的每个节点但我的

Spark流吞吐量监控

Spark流吞吐量监控 的相关文章

随机推荐

热门标签

Spark流吞吐量监控的相关文章