运行 Spark 作业时 CPU 使用率低

2023-12-26

我正在运行 Spark 作业。我有 4 个核心,工作内存设置为 5G。应用程序主机位于同一网络中的另一台计算机上,并且不托管任何工作程序。这是我的代码:

private void myClass() {
    // configuration of the spark context
    SparkConf conf = new SparkConf().setAppName("myWork").setMaster("spark://myHostIp:7077").set("spark.driver.allowMultipleContexts", "true");
    // creation of the spark context in which we will run the algorithm
    JavaSparkContext sc = new JavaSparkContext(conf);

    // algorithm
    for(int i = 0; i<200; i++) {
        System.out.println("===============================================================");
        System.out.println("iteration : " + i);
        System.out.println("===============================================================");
        ArrayList<Boolean> list = new ArrayList<Boolean>();
        for(int j = 0; j < 1900; j++){
            list.add(true);
        }
        JavaRDD<Ant> ratings = sc.parallelize(list, 100)
                    .map(bool -> new myObj())
                    .map(obj -> this.setupObj(obj))
                    .map(obj -> this.moveObj(obj))
                    .cache();
        int[] stuff = ratings
                    .map(obj -> obj.getStuff())
                    .reduce((obj1,obj2)->this.mergeStuff(obj1,obj2));
        this.setStuff(tour);

        ArrayList<TabObj> tabObj = ratings
                    .map(obj -> this.objToTabObjAsTab(obj))
                    .reduce((obj1,obj2)->this.mergeTabObj(obj1,obj2));
        ratings.unpersist(false);

        this.setTabObj(tabObj);
    }

    sc.close();
}

当我启动它时,我可以在 Spark UI 上看到进度,但它真的很慢(我必须将并行度设置得相当高,否则我会遇到超时问题)。我以为是CPU瓶颈,但是JVM的CPU消耗其实很低(大部分时候是0%,有时候5%多一点……)。

根据监视器,JVM 使用了大约 3G 内存,仅缓存了 19M。

主控主机有4核,内存较少(4G)。那台机器显示 100% CPU 消耗(一个完整的核心),我不明白为什么这么高......它只需将分区发送给另一台机器上的工作程序,对吧?

为什么worker上的CPU消耗低,而master上的CPU消耗高?


  1. 确保您已通过集群中的 Yarn 或 mesos 提交 Spark 作业,否则它可能仅在您的主节点中运行。

  2. 由于您的代码非常简单,因此完成计算应该非常快,但我建议使用 wordcount 示例尝试读取几 GB 的输入源来测试 CPU 消耗情况。

  3. 请使用“本地[*]”。 * 表示使用您的所有核心进行计算

    SparkConf SparkConf = new SparkConf().set("spark.driver.host", "localhost").setAppName("单元测试").setMaster("local[*]"); 参考:https://spark.apache.org/docs/latest/configuration.html https://spark.apache.org/docs/latest/configuration.html

  4. 在 Spark 中,有很多因素可能会影响 CPU 和内存的使用,例如执行器和您想要分配的每个 Spark.executor.memory 。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

运行 Spark 作业时 CPU 使用率低 的相关文章

随机推荐

  • JS:如何检查按钮是否被禁用?

    我想检查按下或未按下的按钮 我怎样才能做到呢 我已经尝试过这样做 但它不起作用 这是我的代码
  • 现在允许重新定义 constexpr 静态数据成员吗? (但不是内联常量)?

    以下代码在 c 14 中的 gcc 和 clang 下均无法编译 但在 c 1z 中编译成功 struct Cls static constexpr int N 0 constexpr int Cls N constexpr int Cls
  • 您将如何在这里使用敏捷? [关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 我是敏捷的大力支持者 但我的一个朋友 他还不知道敏捷 他是管理类型 问我如何规划和开发一个复杂的分布式项目 其中包含数据库层 通信层层 接口以及
  • 使用 Go 获取 Python 版本

    我正在尝试使用 Go 获取我的 Python 版本 import log os exec strings func verifyPythonVersion err exec LookPath python if err nil log Fa
  • 将 dll 与 node-ffi 一起使用

    我正在使用 node ffi 访问我购买的自定义硬件提供的 dll 该 dll 使用设备驱动程序来执行操作 他们不提供 dll 文档 但他们有一个 c 中的示例应用程序 该 dll 在 c 中使用像这样 DllImport POS CIDR
  • 我对 REST 有什么不理解的地方?

    我正在构建一个框架 并希望使用它进行构建的开发人员能够允许其部分内容与其他站点共享数据并允许其他站点添加 编辑 删除数据 例如 如果有人制作了一个包含书评 作者 引言 代码示例 评论等的网站 那么开发人员可以制作例如 书评 对于其他网站来说
  • 处理 django 包含模板标签中的请求

    我是 Django 新手 正在尝试将上传文件表单放入包含标签中 所以我可以在各种模板中使用它 我创建了以下包含标签 upload files py register inclusion tag upload form html def up
  • PrimeFaces p:fileUpload 不调用方法

    我正在尝试使用 PrimeFaces
  • MVVM 是否违反了 DRY?

    看来我制作的 ViewModels 看起来可疑地像其他班级一样而且它们似乎需要大量的代码重复 例如在当前的项目中我有 SmartForm Model that represents a data form to fill in has pr
  • 将本地图片上传到tinyMCE

    tinyMCE有一个插入图像按钮 但如何处理其功能 请给出一些代码 我已经对 pavanastechie 编写的代码投了赞成票 但最终我重写了很多次 这是一个更短的版本 可能对某些人有价值 tinymce init toolbar imag
  • 如何在Python中创建链表

    我正在尝试解决 python 中的链表编码挑战 我只给出了以下课程来创建链接列表 Definition for singly linked list class ListNode object def init self x self va
  • 单击小部件时播放声音

    这是我的代码 它打开主要活动 但我似乎找不到一种方法来让小部件播放声音 我尝试过了 向小部件添加一个按钮 不起作用 add an OnClickListener到主要活动 有效 但它打开主要活动 我只想要声音而不是活动 编写一个新方法来播放
  • 了解 ASP.NET WebForms 中控件处于生命周期的哪个阶段

    从控件的外部 是否可以找出特定控件或页面处于页面生命周期的哪个阶段 初始化 加载 预渲染等 例如 在伪代码中 if myControl CurrentLifeCycle Lifecycle Init do something 恐怕没有内置函
  • Qt QSqlQuery 准备和bindValue 不工作

    我在准备和绑定值时遇到问题 db open QSqlQuery q q prepare SELECT id malade nom prenom FROM Malade WHERE nom LIKE p OR prenom f q bindV
  • 如何使用 SetWindowsHookEx 和 WH_KEYBOARD 挂钩外部进程

    我试图挂钩例如记事本但没有成功 制作一个全局钩子似乎效果很好 在 XP SP2 上测试 编辑 修改后的代码现在可以使用 MyDLL代码 include
  • 如何以编程方式打印各种文件类型

    我正在编写一个应用程序 它执行一些测试并生成许多不同的报告 这些可以是标签 最终客户的 PDF 维修部门的 PDF XML 文件等的任意组合 根据报告类型 我需要将文件发送到文件系统或多种不同打印机 A4 标签等 之一 理想情况下不应该有弹
  • F# 是否具有与 C# 的“不安全”块等效的语法

    大量的数组边界检查会降低速度 对于二维数组尤其如此 有没有办法在 F 中编写不安全的代码块 我不是一个F http cs hubfs net blogs f team archive 2006 08 15 506 aspx程序员 但据我所知
  • 如何取消订阅使用 lambda 表达式的事件?

    我有以下代码让 GUI 响应集合中的更改 myObservableCollection CollectionChanged sender e gt UpdateMyUI 首先 这是一个好方法吗 第二 取消订阅此活动的代码是什么 是否相同 但
  • 如何在不指定变量来保存其 OUT 参数的情况下调用 PL/SQL 过程?

    我想调用指定了 OUT 参数的 PL SQL 存储过程 但我不关心返回值 我只关心程序是否成功执行 即没有抛出异常 我是否必须在调用 PL SQL 块中定义一个虚拟变量才能接收 out 参数 即使我不想要它 它使我的调用代码变得混乱 是的
  • 运行 Spark 作业时 CPU 使用率低

    我正在运行 Spark 作业 我有 4 个核心 工作内存设置为 5G 应用程序主机位于同一网络中的另一台计算机上 并且不托管任何工作程序 这是我的代码 private void myClass configuration of the sp