Spark-sql CLI 在运行查询时仅使用 1 个执行器

2023-12-11

我将使用spark-sql cli替换hive cli shell，并按照以下命令运行spark-sql cli，（我们在yarn Hadoop集群上使用，hive-site.xml已经复制到/conf）

.> Spark-SQL 然后shell打开就可以了，

我执行一个类似的查询，

./spark-sql>select devicetype, count(*) from mytable group by devicetype;

命令执行成功，结果正确。但我注意到性能非常慢。

从 Spark 作业用户界面中，http://myhost:4040，我注意到只有 1 个 Executor 标记为已使用，所以这可能就是原因。

我尝试修改spark-sql脚本并在exec命令中添加–num-executors 500，但没有帮助。

那么任何人都可以帮助并解释原因吗？

Thanks.

参考文档：http://spark.apache.org/docs/latest/sql-programming-guide.html

spark-sql是一种仅在本地模式下工作的 SQL CLI 工具，这就是为什么您只看到一个执行器

如果你想要一个集群版本的 SQL，你应该开始thriftserver并使用 JDBC 连接到它beeline例如，工具（与 Spark 一起使用）。您可以在章节中找到描述运行 Thrift JDBC/ODBC 服务器官方文档的http://spark.apache.org/docs/latest/sql-programming-guide.html

开始：

export HIVE_SERVER2_THRIFT_PORT=<listening-port>
export HIVE_SERVER2_THRIFT_BIND_HOST=<listening-host>
./sbin/start-thriftserver.sh \
  --master <master-uri> \
  ...

连接：

./bin/beeline
beeline> !connect jdbc:hive2://<listening-host>:<listening-port>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

Spark-sql CLI 在运行查询时仅使用 1 个执行器的相关文章

按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
Spark toLocalIterator 和迭代器方法之间的区别

在编写 Spark 程序时我遇到了这个toLocalIterator 方法之前我只使用iterator method 如果有人曾经使用过这种方法请点亮我在使用时遇到foreach and foreachPartitionSpark程序
如何避免连续“重置偏移量”和“寻找最新偏移量”？

我正在尝试遵循本指南 https spark apache org docs latest structed streaming kafka integration html https spark apache org docs late
Spark DataFrame 不尊重架构并将所有内容视为字符串

我面临着一个多年来一直无法克服的问题我使用的是 Spark 1 4 和 Scala 2 10 我现在无法升级大型分布式基础设施我有一个包含几百列的文件其中只有 2 列是字符串其余都是长列我想将此数据转换为标签特征数据框我已经
将spark.local.dir设置为不同的驱动器

我正在尝试在 Windows 10 上设置独立 Spark 我想设置spark local dir to D spark tmp tmp 目前它似乎正在使用C Users
我们可以在 UDF 中使用关键字参数吗

我的问题是我们可以像下面那样在 Pyspark 中使用关键字参数和 UDF 吗 conv 方法有一个关键字参数 conv type 默认情况下它被分配给特定类型的格式化程序但是我想在某些地方指定不同的格式由于关键字参数这在 udf 中
如何从 pyspark 中的数据框中选择一系列行

我有一个包含 10609 行的数据框我想一次将 100 行转换为 JSON 并将它们发送回 Web 服务我尝试过使用 SQL 的 LIMIT 子句例如 temptable spark sql select item code 1 fr
使用 Python 用另一个嵌套 Json 更新嵌套 Json

例如我有一套完整的嵌套 JSON 我需要使用另一个嵌套 JSON 中的最新值来更新此 JSON 谁能帮我这个我想在 Pyspark 中实现这个完整的 Json 看起来像这样 email email protected cdn cgi
一起调用distinct和map会在spark库中抛出NPE

我不确定这是否是一个错误所以如果你这样做 d spark RDD String d distinct map x gt d filter equals x 您将获得 Java NPE 但是如果你做了一个collect之后立马distinc
Spark运行错误java.lang.NoClassDefFoundError: org/codehaus/jackson/annotate/JsonClass

import org apache spark SparkContext import org apache spark SparkConf import play api libs json import java util Date i
根据条件组合 Spark 数据帧列中的多行

我正在尝试根据条件组合 Spark 数据框中的多行这是我的数据框 df username qid row no text a 1 1 this a 1 2 is d 2 1 the a 1 3 text d 2 2 ball 我希望它看起
将 PySpark 连接到 AWS Redshift 时出错

一直在尝试将我的 EMR 5 11 0 集群上的 Spark 2 2 1 连接到我们的 Redshift 存储我遵循的方法是使用内置的 Redshift JDBC pyspark jars usr share aws redshift
如何将 Spark-sftp 等新库添加到我的 Pyspark 代码中？

当我尝试在 Spark conf 中设置包依赖项 spark sftp 时我收到 ClassNotFoundException 但当我使用以下命令执行脚本时它会起作用 Spark submit packages com springml
我如何判断我的 Spark 工作是否有进展？

我有一个正在运行的 Spark 作业YARN它似乎只是挂起并且没有进行任何计算这是当我这样做时纱线所说的yarn application status
java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2

随机推荐

PayPal Orders V2 未处理批准 url

根据PayPal订单API作为此处的文档我们必须首先创建订单然后从响应中我们必须复制批准 url 并在浏览器中运行这将打开 PayPal 页面买家将批准该请求此后应发出捕获请求问题详情我有以下使用 PayPal API 创建
使 div 表现得像图像

如果 div 的背景是图像如何使 div 的大小调整属性的行为与图像标签的行为完全相同这个想法是复制图像标签在此代码片段中的行为方式 div background color 2DBCFF text align center box s
DocuSign Java Rest Api - 结合锚标记自定义文件和 PDF 表单字段转换（复合模板）

在我的应用程序中我有一个 PDF 包我将其合并并发送给 DocuSign 使用 SignHere 和 Initial here AnchorTags 可以完美地完成此操作但是我现在需要包含某些需要用户输入字段的 PDF 例如 W 9
Emacs Python：Echoing、Hooks 和 Org-mode

基于这个问题我发现了如何修复 emacs 中 python shell 的回显问题我想要做的是将其添加到我的 emacs 文件中以便它会自动发生 defun python startup setq comint process echo
Jquery 移动日期选择器未显示在弹出字段中

I used jtsage jquery mobile date picker 我想在单击弹出窗口内的文本时显示日期选择器但弹出窗口背面显示的日期选择器我想在弹出窗口前面显示日期选择器我的代码就像 div a href datepop
使用 smtp SendAsync 发送邮件

这就是当我需要发送电子邮件时给我带来错误的方式但此后给我的错误是这样的此时无法启动异步操作异步操作只能在异步处理程序中启动或者模块或页面生命周期中的某些事件期间如果这执行Page时发生异常请确保该Page是标记为此异常
页面加载时间减少 200 毫秒是否显着？ [关闭]

Closed 这个问题是无关目前不接受答案我在我开发的一个网站中使用实验室 js 进行了一些测试页面加载时间减少了 200 毫秒现在后端处理后花费的总时间约为1 5秒我在想是否值得这么麻烦 200ms 是一个巨大的增益吗可笑吗
一些非常基本的 HTML 中无法解释的偏移量 [重复]

这个问题在这里已经有答案了有时我发现自己处于这样的情况基本上非常简单的 HTML CSS 中有一些我不理解的偏移这是一个example div style width 100 height 92px div
Java JComboBox 是否可以将 editable true 设置为仅一项？

我想创建一个JComboBox上面有三个项目我想将其设置为仅可编辑到最后一个项目JComboBox例如 JComboBox cb new JComboBox cb addItem Dog cb addItem Cat cb addItem
如何使用 Selenium Python 从 reddit.com 搜索页面的问题中提取 title 和 href 属性

我想抓取页面上所有问题的链接和标题一个元素具有以下结构 a class SQnoC3ObvgnGjWt90zD9Z href r excel comments ayiahc calculating expiration dates pre
Python 请求模块中的 SSLError

我想使用从服务器生成的证书对客户端进行身份验证我有一个 server ca crt 下面是正在运行的 CURL 命令如何使用 python requests 模块发送类似的请求 curl X GET u sat username sat
http.get 解析错误，代码：“HPE_UNEXPECTED_CONTENT_LENGTH”

我有一个简单的节点脚本来处理来自我的家庭自动化 API 的一些数据直到上次 Node 更新之前一切都运行良好现在使用 Node 版本 4 3 0 或 5 6 0 http 模块会出现以下错误 Error Parse Error byt
如何从设备和打印机 IShellFolder 获取打印机名称？

我使用代码获取系统打印机图标我发现的唯一方法是使用 IShellFolder 现在我想将它们与 InstalledPrinters 连接但问题是我找不到找到真实打印机名称的方法例如 ServerName PrinterName 与
如何开始使用WCF/WPF？

我已经使用 net 有一段时间了这些天在我面试的所有地方我都不断被问及我对 NET 3 0 3 5 技术 WF WPF WCF 等的了解你如何开始学习这些有什么好的链接吗我应该更改当前的代码以开始像这样工作吗我尝试以学习新技术
处理 ASP.NET MVC 中的 JavaScript 注入

我们如何处理 asp net mvc C 应用程序中的 javascript 注入我可以在我的视图中使用 Html Encode 但问题是我也有 html 可以像博客文章一样显示在页面中我需要删除在应用程序的输入元素中输入的脚本我怎样
为什么 Prolog 将变量与直接插入时失败的结果相匹配？

我正在制作一个 Prolog 程序用于查找一组列表的子集该子集必须匹配一些特定条件其中一个方面是子集的列表不能相同让我困惑的是当我尝试查找变量 X 的匹配项时如果我将它们插入查询中代替 X 它会生成返回 false 的结果例如
如何根据2个键删除重复的字典？

我想删除基于 2 个键的重复字典有没有更快的方法来做到这一点到目前为止我已经尝试过的 def remove duplicates documents unique documents documents 0 Initialize fir
修改django测试通过django-otp登录

我在用django otp 这是网页视图这是我的urls py path user login LoginView as view template name user login html authentication form Sim
需要创建一个新节点而不需要在 Corda 中重新部署节点吗？

我想创建一个新节点而不需要在 Corda 环境中重新部署现有节点是否可以从应用程序内添加另一个节点而无需再次部署它如果是那么我们将如何指定 rpc 和数据库的端口例如在我的应用程序中我有一个系统其中有不同的商家我想向系统添
Spark-sql CLI 在运行查询时仅使用 1 个执行器

我将使用spark sql cli替换hive cli shell 并按照以下命令运行spark sql cli 我们在yarn Hadoop集群上使用 hive site xml已经复制到 conf gt Spark SQL 然后shel

Spark-sql CLI 在运行查询时仅使用 1 个执行器

Spark-sql CLI 在运行查询时仅使用 1 个执行器 的相关文章

随机推荐

热门标签

Spark-sql CLI 在运行查询时仅使用 1 个执行器的相关文章