如何更改 apache Spark Worker 每个节点的内存

2024-04-23

我正在配置 Apache Spark 集群。

当我运行具有 1 个主服务器和 3 个从服务器的集群时，我在主监视器页面上看到以下内容：

Memory
2.0 GB (512.0 MB Used)
2.0 GB (512.0 MB Used)
6.0 GB (512.0 MB Used)

我想增加工作人员的已用内存，但我找不到合适的配置。我变了Spark-env.sh如下：

export SPARK_WORKER_MEMORY=6g
export SPARK_MEM=6g
export SPARK_DAEMON_MEMORY=6g
export SPARK_JAVA_OPTS="-Dspark.executor.memory=6g"
export JAVA_OPTS="-Xms6G -Xmx6G"

但使用的内存还是一样。我应该怎么做才能更改已用内存？

当使用 1.0.0+ 并使用 Spark-shell 或 Spark-Submit 时，请使用--executor-memory选项。例如。

spark-shell --executor-memory 8G ...

0.9.0 及以下：

当您启动作业或启动 shell 时，会更改内存。我们必须修改 Spark-shell 脚本，以便它能够携带命令行参数作为底层 Java 应用程序的参数。尤其：

OPTIONS="$@"
...
$FWDIR/bin/spark-class $OPTIONS org.apache.spark.repl.Main "$@"

然后我们可以运行 Spark shell，如下所示：

spark-shell -Dspark.executor.memory=6g

当为独立的 jar 配置它时，我在创建 Spark 上下文之前以编程方式设置系统属性，并将值作为命令行参数传递（然后我可以使其比冗长的系统属性更短）。

System.setProperty("spark.executor.memory", valueFromCommandLine)

至于更改默认集群范围，抱歉，不完全确定如何正确执行此操作。

最后一点 - 我有点担心你有 2 个 2GB 节点和一个 6GB 节点。您可以使用的内存将仅限于最小的节点 - 所以这里是 2GB。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

memory

clustercomputing

config

apachespark

如何更改 apache Spark Worker 每个节点的内存的相关文章

Spark 2.0：4 行。 IllegalArgumentException：界限必须为正

我正在 Amazon EMR 5 0 上的 Spark 2 0 上尝试一个超级简单的测试程序 from pyspark sql types import Row from pyspark sql types import import py
为什么 format("kafka") 失败并显示“无法找到数据源：kafka”。（即使使用 uber-jar）？

我使用 HDP 2 6 3 0 和 Spark2 包 2 2 0 我正在尝试使用结构化流 API 编写 Kafka 消费者但将作业提交到集群后出现以下错误 Exception in thread main java lang ClassN
Spark Mongo 连接器，MongoShardedPartitioner 不起作用

出于测试目的我配置了一个 4 节点集群每个节点都有一个 Spark Worker 和一个 MongoDB Shard 这些是详细信息四台 Debian 9 服务器名为 Visa0 Visa 1 Visa 2 Visa 4 个节点上的
Spark scala - 按数组列分组[重复]

这个问题在这里已经有答案了我对 Spark Scala 很陌生感谢你的帮助我有一个数据框 val df Seq a a1 Array x1 x2 a b1 Array x1 a c1 Array x2 c c3 Array x2 a
Spark JDBC 仅返回带有列名的数据帧

我正在尝试使用 Spark JDBC 连接到 HiveTable 代码如下 val df spark read format jdbc option driver org apache hive jdbc HiveDriver option
Git Grep 颜色选项解释和/或比较

我正在尝试自定义我的 Git 颜色读完后文档 https git scm com docs git config 我找到了我想要设置的选项除了 Grep 之外一切都工作正常我意识到我过去并没有真正使用过它我想用相同的调色板为其设
我的程序有内存泄漏

IBAction play2 CFBundleRef mainBundle CFBundleGetMainBundle CFURLRef soundFileURLRef soundFileURLRef CFBundleCopyResourc
AWS EMR PySpark 连接到 mysql

我正在尝试使用 jdbc 通过 pyspark 连接到 mysql 我可以在 EMR 之外完成此操作但是当我尝试使用 EMR 时 pyspark 无法正确启动我在我的机器上使用的命令 pyspark conf spark executo
Spark 数据框添加带有随机数据的新列

我想向数据框中添加一个新列其值由 0 或 1 组成我使用了 randint 函数 from random import randint df1 df withColumn isVal randint 0 1 但我收到以下错误 spark
Windows 上任何单个进程可以寻址的最大内存量

Windows 版本的内存限制 http msdn microsoft com en us library windows desktop aa366778 28v vs 85 29 aspx回答 Windows 上任何单个进程可以寻址的最
pyspark：计算窗口上的不同值

我刚刚尝试做一个countDistinct越过一个窗口并得到这个错误 AnalysisException 不支持不同的窗口函数计数不同颜色 1926 有没有办法在 pyspark 的窗口上进行不同的计数这是一些示例代码 from py
Spark：如何从spark shell运行spark文件

我正在使用CDH 5 2 我能够使用火花外壳运行命令如何运行包含 Spark 命令的文件 file spark 有没有办法在没有 sbt 的情况下在 CDH 5 2 中运行编译 scala 程序在命令行中您可以使用 spark sh
Linux 中如何获取内存修改通知

在Linux的用户空间程序中我通过从堆中分配来获取一块内存然后将指针分发给在其他线程中运行的许多其他组件来使用当上述内存被修改时我想收到通知我当然可以开发一个自定义用户空间解决方案供其他组件在尝试修改内存时使用我的情况的问题是这
如何在 Spark 中创建空数据帧

我有一组基于 Avro 的配置单元表我需要从中读取数据由于Spark SQL使用hive serdes从HDFS读取数据因此比直接读取HDFS慢很多因此我使用数据块 Spark Avro jar 从底层 HDFS 目录读取 Avr
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
在 Spark Dataframe 中提取数组索引

我有一个带有数组类型列的数据框例如 val df List a Array 1d 2d 3d b Array 4d 5d 6d toDF ID DATA df org apache spark sql DataFrame ID strin
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
以有效的方式从 BigQuery 读取到 Spark 中？

使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据我发现它首先将所有数据复制到 G
司机下令停车后 Spark 工作人员停下来

基本上主节点也充当从节点之一一旦主服务器上的从服务器完成它就会调用 SparkContext 来停止因此该命令传播到所有从服务器从而在处理过程中停止执行其中一名工作人员登录时出错信息 SparkHadoopMapRedUtil
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3

随机推荐

VueJS：@click.native.stop =“”可能吗？

我在页面上有几个嵌套组件其父组件具有 click native执行因此当我单击子组件位于父组件内部占用的区域时会执行两个单击操作父组件和所有嵌套子组件
Knit 无法编译 PDF：“工具中出现错误::file_path_as_absolute(output_file)”

我已经在 markdown 中创建了一个报告并使用该函数render 将代码编译成 PDF 一个月前它工作得很好但是当我现在运行代码时它给了我一个错误 Latexmk 这是 Latexmk 约翰柯林斯 2016 年 4 月 22 日
C# 泛型：简化类型签名 [重复]

这个问题在这里已经有答案了如果我有一个如下所示的通用 Item 类 abstract class Item
获取Json对象的长度

我有从 php 文件返回的 json 对象 json 值如下 0 id 35 name first name date 2014 03 03 age 25 1 id 36 name name date 0000 00 00 age 25 2
证明 Applicative 和 Monad 的序列定义的等价性

我怎样才能正确地证明这一点 sequenceA Traversable t Applicative f gt t f a gt f t a sequenceA pure sequenceA x xs pure lt gt x lt gt s
使用 vb.net 在文本框中以逗号分隔的字符串复选框选择值！

我有 3 个复选框和 1 个文本框复选框1 复选框2 复选框3 当我先检查 checkbox1 然后检查 checkbox3 然后在文本框中它将准确地显示为 1 3 仅使用 vb net Try Private Sub CheckBox
VueJS/浏览器缓存生产版本

我有一个 VueJS 应用程序每当我跑步时npm run build它创建了一组新的dist 文件但是当我将它们加载到服务器上删除旧版本后并在浏览器中打开页面时它会加载旧版本我假设从缓存当我刷新页面时它加载新代码没有问题
比较不同文件中的列并打印那些不匹配的列

我有两个文件 file1 和 file2 我想将 file1 的几列 1 2 3 和 4 与 file2 的几列 1 2 3 和 4 进行比较并打印 file2 中与 file1 中任何行都不匹配的那些行 E g file1 aaa bb
记录到 CSV 文件的正确方法是什么？

我想以格式化的形式记录发送到繁忙的 http 服务器的每个请求的一些信息使用logging模块会创建一些我不想要的东西 I 131104 15 31 29 Sys 34 我想到了CSV格式但不知道如何定制 Python 有csv模块但
获取指向字节对象上的python内存视图的指针

我有一条蟒蛇memoryview指向一个bytes我想在 cython 中执行一些处理的对象我的问题是因为bytes对象不可写 cython 不允许从中构造类型化 cython 内存视图我也无法使用指针因为我无法获取指向内存视图开始
如何使用四元数在 SceneKit 中使用平移手势旋转相机

我正在使用 iOS 构建 360 度视频查看器SceneKit https developer apple com library ios documentation SceneKit Reference SceneKit Framewor
使用javascript函数递归制作星形三角形

我对编程还很陌生我正在了解 JavaScript 并且刚刚学习了递归的概念现在我遇到了一个问题要创建一个函数例如const f function n 如果我们用以下方式调用该函数f 5 我们应该看到垂直星星的数量必须由输入确定我
dag.py 引发：“airflow.exceptions.AirflowException：任务缺少 start_date 参数”，但它在代码中给出

我今天尝试创建我的第一个气流 DAG from datetime import timedelta from airflow import DAG from airflow operators bash operator import Ba
R 中迄今为止的整数数据框[重复]

这个问题在这里已经有答案了我有一个包含 10 个日期的数据框我将其作为整数读入 R 这是数据框 19820509 19550503 20080505 19590505 19940517 19690504 20050420 2006050
Card.io 不扫描非凸起数字信用卡

我在使用 card io sdk 扫描非凸起数字信用卡时遇到问题我在card io的官方网站上没有看到关于这个问题的任何解释这个 SDK 只适用于高位信用卡吗来自card io 的杰夫简而言之是的该 SDK 仅适用于高位信用卡
从 IntelliJ Ultimate 外部运行时，Tomcat 的“服务器日志”在哪里？

当运行我的Vaadin https en wikipedia org wiki Vaadin app on Tomcat https en wikipedia org wiki Apache Tomcat8 5 外部来自IntelliJ h
python：将 Firefox 与 selenium 一起使用时禁用下载弹出窗口

我有一个使用 selenium 和 firefox 来自动执行下载操作的脚本问题是每当我运行脚本时即使我在 Firefox 首选项中设置了下载路径我总是会从 Firefox 中弹出不断询问我想要执行什么类型的操作我检查了文件和文件
用多态性替换条件式

我试图通过一个例子来理解这种干净的代码实践考虑具有折扣开关盒的类产品我正在尝试用多态性替换 switch 语句代码之前 class Product String priceCode int discount Product Strin
数据集是否应该在企业级 Web 应用程序中使用？

因此我之前的一个项目中有一位架构师反对数据集他讨厌它们并说它们在网络应用程序中没有地位特别是在拥有大量流量的网络应用程序中我注意到在我接管的许多代码实例中数据集的使用相当频繁他们真的那么糟糕性能杀手吗我是否应该考虑删除大量使
如何更改 apache Spark Worker 每个节点的内存

我正在配置 Apache Spark 集群当我运行具有 1 个主服务器和 3 个从服务器的集群时我在主监视器页面上看到以下内容 Memory 2 0 GB 512 0 MB Used 2 0 GB 512 0 MB Used 6 0 G

如何更改 apache Spark Worker 每个节点的内存

如何更改 apache Spark Worker 每个节点的内存 的相关文章

随机推荐

热门标签

如何更改 apache Spark Worker 每个节点的内存的相关文章