通过 Sparklyr 以本地模式运行 Spark 时,如何配置驱动程序内存?

2024-01-20

我正在使用 Sparklyr 在具有 244GB RAM 的虚拟机上以本地模式运行 Spark 应用程序。在我的代码中我使用spark_read_csv()从一个文件夹读取约 50MB 的 csv,然后从第二个文件夹读取约 1.5GB 的 csv。我的问题是应用程序在尝试读取第二个文件夹时抛出错误。

据我了解,问题在于驱动程序 JVM 可用的默认 RAM 为 512MB - 对于第二个文件夹来说太小(在本地模式下,所有操作都在驱动程序 JVM 中运行,如此处所述)如何设置 Apache Spark Executor 内存 https://stackoverflow.com/questions/26562033/how-to-set-apache-spark-executor-memory。所以我需要增加spark.driver.memory参数到更大的东西。

问题是我无法通过中描述的正常方法设置此参数Sparklyr 文档 http://spark.rstudio.com/deployment.html(即通过spark_config(), the config.yml文件,或spark-defaults.conf file):

在本地模式下,当您运行spark-submit时,JVM已经使用默认内存设置启动,因此在conf中设置“spark.driver.memory”实际上不会为您做任何事情。相反,您需要运行spark-submit,如下所示:

bin/spark-submit --driver-memory 2g --class your.class.here app.jar

(from 如何设置 Apache Spark Executor 内存 https://stackoverflow.com/questions/26562033/how-to-set-apache-spark-executor-memory).

我以为我可以复制bin/spark-submit上面的命令添加sparklyr.shell.driver-memory的选项config.yml;如 Sparklyr 文档中所述;sparklyr.shell*选项是传递给的命令行参数spark-submit,即添加sparklyr.shell.driver-memory: 5G to the config.yml文件应该相当于运行bin/spark-submit --driver-memory 5G.

我现在已经尝试了上述所有选项,但它们都没有更改 Spark 应用程序中的驱动程序内存(我通过查看 Spark UI 的“执行器”选项卡进行检查)。

那么,当通过 Sparklyr 以本地模式运行 Spark 时,如何更改驱动程序内存呢?


感谢 @Aydin K 的建议。最终,我能够通过首先将 java 更新到 64 位(允许在 JVM 中使用 >4G RAM)来配置驱动程序内存,然后使用sparklyr.shell*内的参数spark_config() object:

config <- spark_config()
config$`sparklyr.shell.driver-memory` <- '30G'
config$`sparklyr.shell.executor-memory` <- '30G'
sc <- spark_connect(master='local', version='2.0.1', config=config)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

通过 Sparklyr 以本地模式运行 Spark 时,如何配置驱动程序内存? 的相关文章

  • 无法将 INode 类型值分配给 类型变量。为什么?

    我想知道为什么以下代码无法工作 public static
  • 为什么这个动作不抽象? [关闭]

    Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案 我很难理解为什么一个类中的一个操作是抽象的 而另一个类中的操作不是 源代码1 编译时出错 https gyazo com cd3c
  • 限制 JPQL 中的结果数量

    如何限制从数据库检索结果的数量 select e from Entity e I need only 10 results for instance 您可以尝试像这样给出 10 个要显式获取的结果 entityManager createQ
  • 在 R 中显示变量的精确值

    gt x lt 1 00042589212565 gt x 1 1 000426 如果我想打印的确切值x 我该怎么办呢 抱歉 如果这是一个愚蠢的问题 我尝试在谷歌上搜索 R 和 精确 或 圆形 但我得到的只是有关如何舍入的文章 先感谢您 所
  • pyspark 数据框中的自定义排序

    是否有推荐的方法在 pyspark 中实现分类数据的自定义排序 我理想地寻找 pandas 分类数据类型提供的功能 因此 给定一个数据集Speed列 可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
  • 使用 Hibernate Criteria 过滤 Map 中的键和值

    我有以下持久类 public class Code ElementCollection targetClass CodeValue class MapKeyClass CodeProperty class JoinTable name co
  • 生产者程序中的 kafka 网络处理器错误(ArrayIndexOutOfBoundsException:18)

    我有下面的 kafka Producer Api 程序 我对 kafka 本身是新手 下面的代码从 API 之一获取数据并将消息发送到 kafka 主题 package kafka Demo import java util Propert
  • 使用java在网页中进行字符编码

    如何使用java找出网页中的字符编码类型 打开与 URL 的连接 使用URL openConnection http download oracle com javase 6 docs api java net URL html openC
  • 使用 equals 方法比较两个对象,Java

    我有一个对象数组 我想将它们与目标对象进行比较 我想返回与目标对象完全匹配的对象的数量 这是我的计数方法 public int countMatchingGhosts Ghost target int count 0 for int i 0
  • 如何将测试类打包到jar中而不运行它们?

    我正在努力将我的测试类包含到 jar 包中 但不运行它们 经过一番谷歌搜索后 我尝试过mvn package DskipTests 但我的测试类根本没有添加到 jar 中 有任何想法吗 如果您遵循 Maven 约定 那么您的测试类位于src
  • EJB 中 @Stateless 相对于 @Singleton 的真正用例是什么

    如果我正确理解EJB Singleton实际上与普通Java中的Singleton相同 也是spring中的单例 gt 一个实例 每个调用同时通过同一个实例 Stateless 声明一个 bean 它可以 但不得 具有多个实例 但限制是一个
  • 聚合函数在数据框中创建不需要的向量

    我在函数中创建数据帧时遇到了一个奇怪的问题 但是 在 data frame 之外使用相同的方法效果很好 这是基本函数 我用它来计算数据集的平均值 标准差和标准误差 aggregateX lt function formula dataset
  • 在片段之间切换时底部导航栏会向下推

    在我的活动中 我有一个底部导航栏和框架布局来显示片段 一切正常 但问题是当我开始按顺序从 1 4 移动时 底部导航栏保持在其位置 但当我突然从 4 跳到2 然后底部导航栏就会超出屏幕 当再次单击同一项目时 它就会回到正常位置 该视频将清楚地
  • 如何在启用嵌入时间戳和 LTV 的情况下签署 PDF?

    我正在尝试签署启用了时间戳和 LTV 的 pdf 以便它在 Adob e Reader 中显示如下 在英语中 这意味着 签名包含嵌入的时间戳 和 签名启用了 LTV 这是我正在使用的代码 PrivateKey pk get pk from
  • 如何在 Java 中创建一个带有连字符的值的静态枚举?

    如何创建如下所示的静态枚举 static enum Test employee id employeeCode 截至目前 我遇到了错误 这对于 Java 来说是不可能的 因为每个项目都必须是有效的标识符 并且有效的 Java 标识符可能不包
  • 动态创建 JSON 对象

    我正在尝试使用以下格式创建 JSON 对象 tableID 1 price 53 payment cash quantity 3 products ID 1 quantity 1 ID 3 quantity 2 我知道如何使用 JSONOb
  • 设置 Firefox 配置文件以使用 Selenium 和 Java 自动下载文件

    我想使用 Selenium WebDriver 和 Java 验证文件下载 要下载的文件为 PDF 格式 当 WebDriver 单击 AUT 中的 下载 链接时 Firefox 将打开以下下载确认窗口 我希望 Firefox 自动下载文件
  • Linux 中的 R 有哪些可用的 IDE? [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 Linux 中的 R 有哪些好的 IDE 我尝试过 Rcmdr 和 Eclipse 但似乎都不具有与 Windows 中的 Tinn R
  • AES 密钥是随机的吗?

    AES 密钥可以通过此代码生成 KeyGenerator kgen KeyGenerator getInstance AES kgen init 128 but 如果我有一个 非常可靠 的生成随机数的方法 我可以这样使用它吗 SecureR
  • 根据列中的部分字符串匹配选择数据框行

    我想根据列中字符串的部分匹配从数据框中选择行 例如列 x 包含字符串 hsa 使用sqldf if它有一个like语法 我会做类似的事情 select from lt gt where x like hsa 很遗憾 sqldf不支持该语法

随机推荐

  • 双锚定正则表达式

    我想接受用户的任意正则表达式并将其锚定在两侧以强制完全匹配
  • Maven2 Eclipse 集成

    似乎有两个竞争对手的 Eclipse 插件可以与 Maven 集成 m2Eclipse http m2eclipse codehaus org and q4e http code google com p q4e 最近有人评估或使用过这些插
  • 在 iOS4.1 上保存带有照片的地理标签信息

    我在尝试在 iOS 4 1 上将带有地理标记信息的照片保存到相机胶卷时遇到重大问题 我正在使用以下资产库 API void writeImageDataToSavedPhotosAlbum NSData imageData metadata
  • 切换到内核转储中的用户堆栈

    有没有办法在进行事后调试时切换到内核转储中特定进程的用户模式 我记得在使用 process 命令进行实时调试时执行此操作 process也适用于内核转储 首先 您可以使用以下方式找到您的流程 process 0 0 myprocess ex
  • 多语言 PSGI-web 部署

    我计划使用 PSGI Plack 开发一个 Web 应用程序 可能与 舞者 但尚未决定 应用程序应该是 utf 8 多语言 使用 Locale Maketext 并且 ofc 将包含一些给定语言的静态页面 我的想法是将其部署在不同的语言域中
  • 将 Pyspark 中的 Dataframe 中的不同值转换为列表

    我试图获取 Pyspark 中数据帧中列的不同值 将它们保存在列表中 目前列表包含 Row no children 0 但我只需要该值 因为我将把它用于代码的另一部分 所以 理想情况下只有 all values 0 1 2 3 4 all
  • 如何包装 JUnit 5 测试

    在 JUnit 4 中 您可以使用规则来包装测试 以便您可以在测试运行之前和之后执行代码 在大多数情况下 这可以通过 Before 和 After 方法或ExternalResource 规则来完成 然而 某些控制流构造 例如 try wi
  • 它是一种具有某种特征的好风格,并且有一个扩展该特征的同名对象吗?

    当我浏览的时候保罗 菲利普斯 GitHub 存储库 https github com paulp我注意到他经常使用某种结构 trait A object A extends A 例如这里 scala 改进 字符串 https github
  • 如何在react-VR中将某些元素固定在屏幕上

    我想在 React VR 应用程序中保持分数或健康栏始终可见 我可以使用 VrHeadModel 旋转 yawPitchRoll 和位置 但必须计算它才能保持其固定 似乎我错过了一些东西 我该怎么做呢 更新的要点 由于订阅了 HM 延迟更小
  • 如何在perl中正确使用全局变量

    我是 perl 的新手 我试图通过编写一些程序来理解它 Perl 的范围界定让我很困难 我写了以下内容 use 5 16 3 use strict use Getopt Long Getopt Long Configure qw bundl
  • 如何将 Touch ID 与登录凭据关联?

    我能够成功验证用户 Touch ID 然而 一旦 Touch ID 身份验证成功 检索用户登录名和密码以执行登录的最安全方法是什么 对于 iTunes connect 应用程序 一旦 Touch ID 登录成功 它似乎会在本地检索密码并将其
  • iTextSharp 在现有 PDF 中嵌入子集字体

    我们使用旧的报告软件来创建 PDF 但它无法将使用的字体嵌入到文件中 现在我尝试使用 iTextSharp 根据这些示例将所有 非嵌入 字体嵌入现有 PDF 中嵌入字体事后 https sourceforge net p itextshar
  • Google Cloud Storage 文件写入流失败

    您好 我正在尝试使用 node js 在谷歌云存储中写入文件 当我尝试写入文件时 出现以下错误 errors domain global reason badRequest message Invalid Upload Request co
  • 在 AWS Glue 作业中写入 S3 时是否可以指定 SSE:KMS 密钥 ID?

    如果您按照 AWS Glue 添加作业向导创建一个脚本来将 parquet 文件写入 S3 您最终会生成类似这样的代码 datasink4 glueContext write dynamic frame from options frame
  • 如何在 serverless.yml 中使用 lambda 的条件配置?

    我需要通过配置 lambdaserverless yml为不同的环境使用不同的配置并发 下面是我的 lambda 配置 myLambda handler src lambdas name myLambda provisionedConcur
  • 如何阻止 Windows 在重新启动之前执行安装?

    我正在测试安装脚本 并且必须将 Windows 置于等待从另一个安装重新启动的状态 我已阅读如何测试是否需要重新启动 设置需求的正确方法尚不清楚 诚实的回答 我不确定 有许多不同的注册表位置表明需要重新启动 我只是想在这里列出一个临时列表
  • php 切换到 mysqli:num_rows 问题

    我最近开始更新 MySQL 改进扩展的一些代码 到目前为止已经成功 old code works result mysql query sql if mysql num rows result 1 row mysql fetch array
  • React Hook useEffect 缺少依赖项

    我在构建我的应用程序时遇到这个问题 任何人都知道出了什么问题吗 React Hook useEffect 缺少依赖项 conectar 包含它或删除依赖项数组react hooks exhaustive deps const Grafico
  • 加密 ASP.NET connetionStrings 的正确方法是什么?

    我一直在研究 ASP NET MVC 应用程序 NET 4 0 中加密连接字符串 Web config 的几个示例 似乎有两种通用方法可以实现它 示例1 https web archive org web 20211020203213 ht
  • 通过 Sparklyr 以本地模式运行 Spark 时,如何配置驱动程序内存?

    我正在使用 Sparklyr 在具有 244GB RAM 的虚拟机上以本地模式运行 Spark 应用程序 在我的代码中我使用spark read csv 从一个文件夹读取约 50MB 的 csv 然后从第二个文件夹读取约 1 5GB 的 c