通过 Sparklyr 以本地模式运行 Spark 时，如何配置驱动程序内存？

2024-01-20

我正在使用 Sparklyr 在具有 244GB RAM 的虚拟机上以本地模式运行 Spark 应用程序。在我的代码中我使用spark_read_csv()从一个文件夹读取约 50MB 的 csv，然后从第二个文件夹读取约 1.5GB 的 csv。我的问题是应用程序在尝试读取第二个文件夹时抛出错误。

据我了解，问题在于驱动程序 JVM 可用的默认 RAM 为 512MB - 对于第二个文件夹来说太小（在本地模式下，所有操作都在驱动程序 JVM 中运行，如此处所述）如何设置 Apache Spark Executor 内存 https://stackoverflow.com/questions/26562033/how-to-set-apache-spark-executor-memory。所以我需要增加spark.driver.memory参数到更大的东西。

问题是我无法通过中描述的正常方法设置此参数Sparklyr 文档 http://spark.rstudio.com/deployment.html（即通过spark_config(), the config.yml文件，或spark-defaults.conf file):

在本地模式下，当您运行spark-submit时，JVM已经使用默认内存设置启动，因此在conf中设置“spark.driver.memory”实际上不会为您做任何事情。相反，您需要运行spark-submit，如下所示：

bin/spark-submit --driver-memory 2g --class your.class.here app.jar

(from 如何设置 Apache Spark Executor 内存 https://stackoverflow.com/questions/26562033/how-to-set-apache-spark-executor-memory).

我以为我可以复制bin/spark-submit上面的命令添加sparklyr.shell.driver-memory的选项config.yml;如 Sparklyr 文档中所述；sparklyr.shell*选项是传递给的命令行参数spark-submit，即添加sparklyr.shell.driver-memory: 5G to the config.yml文件应该相当于运行bin/spark-submit --driver-memory 5G.

我现在已经尝试了上述所有选项，但它们都没有更改 Spark 应用程序中的驱动程序内存（我通过查看 Spark UI 的“执行器”选项卡进行检查）。

那么，当通过 Sparklyr 以本地模式运行 Spark 时，如何更改驱动程序内存呢？

感谢 @Aydin K 的建议。最终，我能够通过首先将 java 更新到 64 位（允许在 JVM 中使用 >4G RAM）来配置驱动程序内存，然后使用sparklyr.shell*内的参数spark_config() object:

config <- spark_config()
config$`sparklyr.shell.driver-memory` <- '30G'
config$`sparklyr.shell.executor-memory` <- '30G'
sc <- spark_connect(master='local', version='2.0.1', config=config)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

通过 Sparklyr 以本地模式运行 Spark 时，如何配置驱动程序内存？的相关文章

无法将 INode 类型值分配给类型变量。为什么？

我想知道为什么以下代码无法工作 public static
为什么这个动作不抽象？ [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我很难理解为什么一个类中的一个操作是抽象的而另一个类中的操作不是源代码1 编译时出错 https gyazo com cd3c
限制 JPQL 中的结果数量

如何限制从数据库检索结果的数量 select e from Entity e I need only 10 results for instance 您可以尝试像这样给出 10 个要显式获取的结果 entityManager createQ
在 R 中显示变量的精确值

gt x lt 1 00042589212565 gt x 1 1 000426 如果我想打印的确切值x 我该怎么办呢抱歉如果这是一个愚蠢的问题我尝试在谷歌上搜索 R 和精确或圆形但我得到的只是有关如何舍入的文章先感谢您所
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
使用 Hibernate Criteria 过滤 Map 中的键和值

我有以下持久类 public class Code ElementCollection targetClass CodeValue class MapKeyClass CodeProperty class JoinTable name co
生产者程序中的 kafka 网络处理器错误（ArrayIndexOutOfBoundsException：18）

我有下面的 kafka Producer Api 程序我对 kafka 本身是新手下面的代码从 API 之一获取数据并将消息发送到 kafka 主题 package kafka Demo import java util Propert
使用java在网页中进行字符编码

如何使用java找出网页中的字符编码类型打开与 URL 的连接使用URL openConnection http download oracle com javase 6 docs api java net URL html openC
使用 equals 方法比较两个对象，Java

我有一个对象数组我想将它们与目标对象进行比较我想返回与目标对象完全匹配的对象的数量这是我的计数方法 public int countMatchingGhosts Ghost target int count 0 for int i 0
如何将测试类打包到jar中而不运行它们？

我正在努力将我的测试类包含到 jar 包中但不运行它们经过一番谷歌搜索后我尝试过mvn package DskipTests 但我的测试类根本没有添加到 jar 中有任何想法吗如果您遵循 Maven 约定那么您的测试类位于src
EJB 中 @Stateless 相对于 @Singleton 的真正用例是什么

如果我正确理解EJB Singleton实际上与普通Java中的Singleton相同也是spring中的单例 gt 一个实例每个调用同时通过同一个实例 Stateless 声明一个 bean 它可以但不得具有多个实例但限制是一个
聚合函数在数据框中创建不需要的向量

我在函数中创建数据帧时遇到了一个奇怪的问题但是在 data frame 之外使用相同的方法效果很好这是基本函数我用它来计算数据集的平均值标准差和标准误差 aggregateX lt function formula dataset
在片段之间切换时底部导航栏会向下推

在我的活动中我有一个底部导航栏和框架布局来显示片段一切正常但问题是当我开始按顺序从 1 4 移动时底部导航栏保持在其位置但当我突然从 4 跳到2 然后底部导航栏就会超出屏幕当再次单击同一项目时它就会回到正常位置该视频将清楚地
如何在启用嵌入时间戳和 LTV 的情况下签署 PDF？

我正在尝试签署启用了时间戳和 LTV 的 pdf 以便它在 Adob e Reader 中显示如下在英语中这意味着签名包含嵌入的时间戳和签名启用了 LTV 这是我正在使用的代码 PrivateKey pk get pk from
如何在 Java 中创建一个带有连字符的值的静态枚举？

如何创建如下所示的静态枚举 static enum Test employee id employeeCode 截至目前我遇到了错误这对于 Java 来说是不可能的因为每个项目都必须是有效的标识符并且有效的 Java 标识符可能不包
动态创建 JSON 对象

我正在尝试使用以下格式创建 JSON 对象 tableID 1 price 53 payment cash quantity 3 products ID 1 quantity 1 ID 3 quantity 2 我知道如何使用 JSONOb
设置 Firefox 配置文件以使用 Selenium 和 Java 自动下载文件

我想使用 Selenium WebDriver 和 Java 验证文件下载要下载的文件为 PDF 格式当 WebDriver 单击 AUT 中的下载链接时 Firefox 将打开以下下载确认窗口我希望 Firefox 自动下载文件
Linux 中的 R 有哪些可用的 IDE？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 Linux 中的 R 有哪些好的 IDE 我尝试过 Rcmdr 和 Eclipse 但似乎都不具有与 Windows 中的 Tinn R
AES 密钥是随机的吗？

AES 密钥可以通过此代码生成 KeyGenerator kgen KeyGenerator getInstance AES kgen init 128 but 如果我有一个非常可靠的生成随机数的方法我可以这样使用它吗 SecureR
根据列中的部分字符串匹配选择数据框行

我想根据列中字符串的部分匹配从数据框中选择行例如列 x 包含字符串 hsa 使用sqldf if它有一个like语法我会做类似的事情 select from lt gt where x like hsa 很遗憾 sqldf不支持该语法

随机推荐

双锚定正则表达式

我想接受用户的任意正则表达式并将其锚定在两侧以强制完全匹配
Maven2 Eclipse 集成

似乎有两个竞争对手的 Eclipse 插件可以与 Maven 集成 m2Eclipse http m2eclipse codehaus org and q4e http code google com p q4e 最近有人评估或使用过这些插
在 iOS4.1 上保存带有照片的地理标签信息

我在尝试在 iOS 4 1 上将带有地理标记信息的照片保存到相机胶卷时遇到重大问题我正在使用以下资产库 API void writeImageDataToSavedPhotosAlbum NSData imageData metadata
切换到内核转储中的用户堆栈

有没有办法在进行事后调试时切换到内核转储中特定进程的用户模式我记得在使用 process 命令进行实时调试时执行此操作 process也适用于内核转储首先您可以使用以下方式找到您的流程 process 0 0 myprocess ex
多语言 PSGI-web 部署

我计划使用 PSGI Plack 开发一个 Web 应用程序可能与舞者但尚未决定应用程序应该是 utf 8 多语言使用 Locale Maketext 并且 ofc 将包含一些给定语言的静态页面我的想法是将其部署在不同的语言域中
将 Pyspark 中的 Dataframe 中的不同值转换为列表

我试图获取 Pyspark 中数据帧中列的不同值将它们保存在列表中目前列表包含 Row no children 0 但我只需要该值因为我将把它用于代码的另一部分所以理想情况下只有 all values 0 1 2 3 4 all
如何包装 JUnit 5 测试

在 JUnit 4 中您可以使用规则来包装测试以便您可以在测试运行之前和之后执行代码在大多数情况下这可以通过 Before 和 After 方法或ExternalResource 规则来完成然而某些控制流构造例如 try wi
它是一种具有某种特征的好风格，并且有一个扩展该特征的同名对象吗？

当我浏览的时候保罗菲利普斯 GitHub 存储库 https github com paulp我注意到他经常使用某种结构 trait A object A extends A 例如这里 scala 改进字符串 https github
如何在react-VR中将某些元素固定在屏幕上

我想在 React VR 应用程序中保持分数或健康栏始终可见我可以使用 VrHeadModel 旋转 yawPitchRoll 和位置但必须计算它才能保持其固定似乎我错过了一些东西我该怎么做呢更新的要点由于订阅了 HM 延迟更小
如何在perl中正确使用全局变量

我是 perl 的新手我试图通过编写一些程序来理解它 Perl 的范围界定让我很困难我写了以下内容 use 5 16 3 use strict use Getopt Long Getopt Long Configure qw bundl
如何将 Touch ID 与登录凭据关联？

我能够成功验证用户 Touch ID 然而一旦 Touch ID 身份验证成功检索用户登录名和密码以执行登录的最安全方法是什么对于 iTunes connect 应用程序一旦 Touch ID 登录成功它似乎会在本地检索密码并将其
iTextSharp 在现有 PDF 中嵌入子集字体

我们使用旧的报告软件来创建 PDF 但它无法将使用的字体嵌入到文件中现在我尝试使用 iTextSharp 根据这些示例将所有非嵌入字体嵌入现有 PDF 中嵌入字体事后 https sourceforge net p itextshar
Google Cloud Storage 文件写入流失败

您好我正在尝试使用 node js 在谷歌云存储中写入文件当我尝试写入文件时出现以下错误 errors domain global reason badRequest message Invalid Upload Request co
在 AWS Glue 作业中写入 S3 时是否可以指定 SSE:KMS 密钥 ID？

如果您按照 AWS Glue 添加作业向导创建一个脚本来将 parquet 文件写入 S3 您最终会生成类似这样的代码 datasink4 glueContext write dynamic frame from options frame
如何在 serverless.yml 中使用 lambda 的条件配置？

我需要通过配置 lambdaserverless yml为不同的环境使用不同的配置并发下面是我的 lambda 配置 myLambda handler src lambdas name myLambda provisionedConcur
如何阻止 Windows 在重新启动之前执行安装？

我正在测试安装脚本并且必须将 Windows 置于等待从另一个安装重新启动的状态我已阅读如何测试是否需要重新启动设置需求的正确方法尚不清楚诚实的回答我不确定有许多不同的注册表位置表明需要重新启动我只是想在这里列出一个临时列表
php 切换到 mysqli：num_rows 问题

我最近开始更新 MySQL 改进扩展的一些代码到目前为止已经成功 old code works result mysql query sql if mysql num rows result 1 row mysql fetch array
React Hook useEffect 缺少依赖项

我在构建我的应用程序时遇到这个问题任何人都知道出了什么问题吗 React Hook useEffect 缺少依赖项 conectar 包含它或删除依赖项数组react hooks exhaustive deps const Grafico
加密 ASP.NET connetionStrings 的正确方法是什么？

我一直在研究 ASP NET MVC 应用程序 NET 4 0 中加密连接字符串 Web config 的几个示例似乎有两种通用方法可以实现它示例1 https web archive org web 20211020203213 ht
通过 Sparklyr 以本地模式运行 Spark 时，如何配置驱动程序内存？

我正在使用 Sparklyr 在具有 244GB RAM 的虚拟机上以本地模式运行 Spark 应用程序在我的代码中我使用spark read csv 从一个文件夹读取约 50MB 的 csv 然后从第二个文件夹读取约 1 5GB 的 c

通过 Sparklyr 以本地模式运行 Spark 时，如何配置驱动程序内存？

通过 Sparklyr 以本地模式运行 Spark 时，如何配置驱动程序内存？ 的相关文章

随机推荐

热门标签

通过 Sparklyr 以本地模式运行 Spark 时，如何配置驱动程序内存？的相关文章