为什么只有一个核心承担全部负载，如何让其他29个核心承担负载？

2024-03-14

我正在尝试将 Spark 处理的数据推送到 C* 的 3 节点集群。我正在向 Cassandra 推送 2 亿条记录，但它失败了，错误如下。

下面是我的 Spark 集群配置

Nodes : 12
vCores Total : 112
Total memory : 1.5 TB.
Below are my spark-sumbit parameters:

$SPARK_HOME/bin/spark-submit 
--master yarn 
--deploy-mode cluster 
--name app 
--class Driver 
--executor-cores 3 
--executor-memory 8g 
--num-executors 10 
--driver-cores 2 
--driver-memory 10g 
--conf spark.shuffle.service.enabled=true 
--conf spark.dynamicAllocation.enabled=false 
--conf spark.task.maxFailures=8  
--conf spark.ui.killEnabled=false 
 oracle2c.jar

我已将 Spark 数据框分区为 30，如下所示

+--------------------+-------+
|SPARK_PARTITION_ID()|  count|
+--------------------+-------+
|                  22|6687176|
|                  29|6687175|
|                   8|6687176|
|                  21|6687176|
|                  23|6687176|
|                   5|6687176|
|                   9|6687176|
|                  17|6687176|
|                  26|6687175|
|                  27|6687175|
|                   4|6687176|
|                  10|6687176|
|                  18|6687176|
|                  25|6687175|
|                   1|6687176|
|                  20|6687176|
|                  12|6687176|
|                  28|6687175|
|                  24|6687176|
|                  15|6687176|
|                  14|6687176|
|                   6|6687176|
|                  19|6687176|
|                   0|6687175|
|                   3|6687176|
|                  11|6687176|
|                   2|6687176|
|                   7|6687176|
|                  13|6687176|
|                  16|6687176|
+--------------------+-------+

但是当我运行作业时，我看到执行器中只有一个核心正在运行，如何使所有核心都参与负载分配？

我还需要添加哪些配置参数才能使所有核心承担负载？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

Databricks

为什么只有一个核心承担全部负载，如何让其他29个核心承担负载？的相关文章

Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
Spark Shuffle 写入超慢

为什么对于 1 6MB shuffle 写入和 2 4MB 输入 spark shuffle 阶段如此缓慢为什么 shuffle 写入仅发生在一个执行器上我正在运行一个 3 节点集群每个集群有 8 个核心火花用户界面 Code Ja
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
Spark shuffle 溢出指标

在 Spark 2 3 集群上运行作业时我在 Spark WebUI 中注意到某些任务发生了溢出据我所知在reduce端 reducer获取所需的分区随机读取然后使用执行器的执行内存执行reduce计算由于没有足够的执行内存一
Databricks：如何从 R Dataframe 切换到 Pandas Dataframe（同一笔记本中的 R 到 python）

我正在 Databricks 笔记本中编写 R 代码该代码在 R 中执行多项操作清理数据帧后我想使用 python 在 python 单元中调用它因此使用 python 代码继续对数据帧进行操作因此我想在 python 块内将我
为什么我的代码在 Spark Pregel 中执行需要很长时间？

我在 Spark 中使用 Pregel 编写了处理图形的代码但对于小数据集来说它的执行速度非常非常慢我以前用pregel写过程序但是这段代码运行速度确实很慢我的集群由 2 个工作人员组成每个都有核心 i5 CPU 和 6 GB
Spark 在执行 jdbc 保存时给出空指针异常

您好当我执行以下代码行时我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
Spark Workers 上缺少 SLF4J 记录器

我正在尝试通过以下方式运行工作spark submit 此作业导致的错误是 Exception in thread main java lang NoClassDefFoundError org slf4j Logger at java l
Scala Sparkcollect_list() 与 array()

有什么区别collect list and array 在 Spark 中使用 scala 我看到到处都有使用情况但我不清楚用例来确定差异尽管两者array https spark apache org docs latest api
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
Spark 与 Webhdfs/httpfs

我想通过 httpfs 或 Webhdfs 将文件从 HDFS 读入 Spark 类似的东西 sc textFile webhdfs myhost 14000 webhdfs v1 path to file txt 或者理想情况下 sc
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
Scala 中的行聚合

我正在寻找一种方法在 Scala 的数据框中获取一个新列来计算min max中的值col1 col2 col10对于每一行我知道我可以使用 UDF 来做到这一点但也许有一种更简单的方法 Thanks Porting 这个Python答案
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值

随机推荐

playOrm 基本设置 + playOrm 成熟度 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
LSB 中是否有 RPM 文件命名约定？

RPM 是 LSB 中的包格式但 LSB 是否强制 RPM 的任何命名标准类似于 http www rpm org max rpm ch rpm file format html http www rpm org max rpm ch
cdata-section-elements 不工作

我试图通过设置全局参数在通过 XSLT 使用 Saxon HE v9 7 0 14 生成的 xml 文件中设置密码密码可以包含任何字符因此需要将其放在CDATA部分我试图通过设置来实现这一点cdata section elements
删除表格单元格的边框

我知道这是一个愚蠢的问题但我似乎完全忘记了该怎么做我有一个 HTMLtable我想删除所有单元格周围的所有边框以便整个表格周围只有一个边框我的代码如下所示 table border 1 width 500 tr th h1 Your
Silverlight 3 替代 FileVersionInfo.GetVersionInfo

在 Silverlight 3 0 应用程序中我想使用程序集文件版本 http msdn microsoft com en us library system reflection assemblyfileversionattribute
从 History api 接收的步骤数据与 google fit 不匹配

我希望在我的应用程序中计算 google fit 步数因为我使用的是 google 提供的 History api 我发现从历史 API 接收的步骤与 google fit 不匹配即使我使用了 google 提供的相同代码下面是我的代
创建一个包含 JSONObject Android 中所有键的数组

您好我想创建一个 JSONObject 中所有键的数组我的理解如果我错了请纠正我是我需要将 JSONObject 转换为 Map 然后从中创建一个数组有人知道如何做到这一点吗无需转换JSONObject到 Map 然后创建一个
Node exceljs读取文件

所以根据官方文档我应该能够使用以下方式读取Excel文档 read from a file var workbook new Excel Workbook workbook xlsx readFile filename then funct
ggplot2 +facet_：某些方面的反转轴？

我想将三个子图组合成一个图而分面将是一种自然的方法然而使用反转的 x 轴这些子图之一会更容易更自然地阅读而我想不理会其他子图有没有办法使用facet grid 或facet wrap 来完成此任务我考虑过的另一种选择是 gr
如何在flutter webview中打开应用程序链接？

在 Flutter 中我使用 flutter网页视图插件 https pub dartlang org packages flutter webview plugin启动一个 url 例如 flutterWebviewPlugin lau
Sizzle 和 document.querySelectorAll 有什么区别

据我所知嘶嘶声和querySelector querySelectorAll是 CSS 选择器那么加载 Sizzle 和执行以下操作有什么区别 Sizzle my CSS query and document querySelecto
我如何在 Capybara 中测试页面是否*未*重新加载（JavaScript onClick 拦截已起作用）？

我用的是水豚黄瓜和恶作剧我正在测试附加到表单提交按钮的 JavaScript 函数该函数旨在捕获提交事件并阻止它在后台执行 AJAX 请求使用和不使用 AJAX 页面最终看起来都是一样的但 AJAX 方法要快得多并且不会中断浏
开始一项新活动

我正在使用 Xamarin 我想启动一个名为 AutoLinkActivity 的新活动这是我的代码 using System using Android App using Android Content using Android R
Java 示例代码示例 youtube data api v3 和授权方法作为 api 密钥

我是 google api 的新手为 YouTube 频道创建项目我已经为该项目创建了 api 并生成了 api 密钥在项目上启用 Youtube api 我到处都能获得 OAUTH 授权的代码示例但无法找到任何用于使用 api K
平衡设计原则：单元测试

我正在编写 Bananagrams 的模拟目前我有一个GameMaster维护公共片段集合的类这deal Player 方法向该玩家分发一定数量的棋子我想为此编写单元测试然而此时我没有吸气剂因此无法检查对象的状态为什么不添加
“lxd”与 lxc/docker 有何不同？

问题 lxd 如何在容器内提供完整的操作系统功能而不仅仅是单个进程它与 lxc docker 包装器有什么不同是不是类似于用docker supervisor wrapper脚本启动一个容器在一个容器中包含多个进程换句话说我可以
使用加密密码连接到 gmail（使用 imap 和 javamail）

我正在尝试使用一个简单的java程序连接到gmail 像这个 https harikrishnan83 wordpress com 2009 01 24 access gmail with imap using java mail api
如何使用带有角度的离子框架制作apk文件

我在本地目录中创建了简单的应用程序该应用程序名称是 Ionic Chat master 我怎样才能把它变成apk文件我已经使用 git 尝试了以下命令但对我不起作用 npm install g cordova cordova buil
为什么 C# 构造函数行为与 Java 不同，反之亦然？

给定这个 Java 代码输出0 and 4 class A A print void print System out println A class B extends A int i Math round 3 5f public st
为什么只有一个核心承担全部负载，如何让其他29个核心承担负载？

我正在尝试将 Spark 处理的数据推送到 C 的 3 节点集群我正在向 Cassandra 推送 2 亿条记录但它失败了错误如下下面是我的 Spark 集群配置 Nodes 12 vCores Total 112 Total me

为什么只有一个核心承担全部负载，如何让其他29个核心承担负载？

为什么只有一个核心承担全部负载，如何让其他29个核心承担负载？ 的相关文章

随机推荐

热门标签

为什么只有一个核心承担全部负载，如何让其他29个核心承担负载？的相关文章