我的spark sql限制非常慢

2024-03-02

我使用spark从elasticsearch中读取。Like

select col from index limit 10;

问题是索引非常大，它包含 1000 亿行。而 Spark 会生成数千个任务来完成这项工作。
我只需要 10 行，即使 1 个任务也会返回 10 行来完成工作。我不需要那么多任务。
即使限制 1，限制也非常慢。
Code：

sql = select col from index limit 10
sqlExecListener.sparkSession.sql(sql).createOrReplaceTempView(tempTable)

The 限制源代码 https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/execution/limit.scala表明它将采取第一个limit每个分区的元素，然后它将扫描所有分区。

为了加快查询速度，您可以指定分区键的一个值。假设您正在使用day作为分区键，下面的查询会快很多

select col from index where day = '2018-07-10' limit 10;

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

elasticsearch

apachesparksql

sparksubmit

我的spark sql限制非常慢的相关文章

Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
Spark 按列重新分区，每列动态分区数

如何根据列中的项目数对 DataFrame 进行分区假设我们有一个包含 100 人的 DataFrame 列是first name and country 我们希望为一个国家地区的每 10 个人创建一个分区如果我们的数据集包含 80
如何从 PySpark 中某个表中找到的多个表中获取所有数据？

我正在使用 pyspark SQL 我有一个包含三列的表 MAIN TABLE DATABASE NAME TABLE NAME SOURCE TYPE 我想从 DATABASE NAME 和 TABLE NAME 列中的主表下找到的实际数
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
ElasticCloud 的 ElasticSearch 身份验证错误？

我刚刚在 ElasticCloud 上设置了一个新的 ElasticSearch 集群我正在尝试遵循帮助文档 https cloud elastic co help 它说您可以按如下方式发布文档 curl https
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
弹性搜索文档计数

我正在运行 2 2 版本的 Elastic 搜索我已经创建了索引并加载了示例文档我发现其中有些问题当我给予 GET index type count 我得到了正确的答案 count 9998 shards total 5 succes
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
使用 mlib 执行 Spark-Shell，错误：对象 jblas 不是包 org 的成员

在spark shell中当我执行import org jblas DoubleMatrix 它会在 RHEL 上抛出错误对象 jblas 不是包 org 的成员实际上我用谷歌搜索了 jblas 并安装了 gfortran htt
Nest Elastic - 构建动态嵌套查询

我必须使用 Nest 查询嵌套对象但是查询是以动态方式构建的下面的代码演示了以静态方式对嵌套书籍进行查询 QueryContainer qry qry new QueryStringQuery DefaultField name D
如何使用ElasticSearch来实现社交搜索？

我正在尝试使用 ElasticSearch 创建具有社交功能的商业搜索我有一个企业目录用户可以通过不同的方式与这些企业进行交互通过查看它们检查它们等当用户搜索商家时我希望能够在结果顶部向他们显示他们的朋友与之互动过的商家或根据
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
在 Elasticsearch 中删除文件后回收磁盘空间

当我从 Elasticsearch 中删除文档时为什么我的总大小保持不变尽管由于没有以前存储的数据而明显小得多我读过有关索引优化的内容但我不确定这是什么或如何做到这一点 Thanks 我确信 SO 和 Google 上都有大量与
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
从 node.js 创建对 AWS ES 实例的有效签名请求

我试图找到一个示例说明如何连接到 Node js 中的 AWS ES 实例然后通过一个简单的请求访问 ES 集群我正在尝试使用elasticsearch节点包 https www npmjs com package elasticse
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
Elasticsearch - 使用“标签”索引来发现给定字符串中的所有标签

我有一个 elasticsearch v2 x 集群其标签索引包含大约 5000 个标签 tagName tagID 给定一个字符串是否可以查询标签索引以获取在该字符串中找到的所有标签我不仅想要精确匹配而且还希望能够控制模糊匹配

随机推荐

三.js透明物体遮挡

在 Three js 场景中我希望有一个不可见的对象但仍然遮挡场景中的其他对象就好像它是可见的一样这可以通过 Three js 库实现吗这是一个例子 Suppose I have a three js scene that con
在elasticsearch实例上打开开放的GCE防火墙以进行外部连接

我刚刚使用 Click to Deploy 在 GCE 中创建了一个 elasticsearch 集群但我只能使用隧道来访问它就我而言这不是一个选择因为我不想向其他开发人员授予 gcloud 访问权限我想为elasticsearc
访问生成 T-SQL 中的 ROW_NUMBER() 等结果的查询

MS Access 中有 ROW NUMBER 函数吗如果有请让我知道它的任何语法因为我被困在这里我尝试过论坛但我得到了 sql server 语法以下是我的查询 select ROW NUMBER OVER ORDER BY
OnClickListener 不适用于 GridView 中的第一项

我在创建基于 GridView 的日历时遇到问题这是网格这应该是一个填充了事件的日历因此我让我的适配器实现 OnClickListener 并为日历中的每个按钮设置该侦听器它适用于每个按钮EXCEPT第一个在本例中为 30 当我单
Java Web 应用程序“过期会话的事件监听器”

有没有办法在运行Java代码之后HttpServletRequest Session已到期如果会话过期我需要进行数据库调用回调和监听器将是有用的 javax servlet http HttpSessionListener The 雅
包含修订历史记录的 CouchDB 视图

我对 CouchDB 很陌生已经缺少 SQL 了无论如何我需要创建一个视图来发出文档的一些属性以及所有修订 ID 像这样的东西 function doc if doc type template emit doc owner id d
VS Xaml 设计器错误

我的 WPF 应用程序中的 Xaml 文件出现错误我无法在 Visual Studio 设计器或 Blend 中看到我的控件但是该应用程序可以完美编译并运行在 Blend 中它说存在无效的 Xaml 并且该错误根本没有任何意义但
尝试将本地页面加载到 JavaFX webEngine 中

我的 JavaFX 应用程序的选项卡上有一个 webView 组件我正在尝试将本地存储的 HTML 页面加载到 WebView browser new WebView WebEngine webEngine browser getEngi
监听附加端口 Microsoft Azure Nodejs

我正在端口 process env PORT 1337 Microsoft Azure 上的默认端口上运行 Nodejs 应用程序 Azure Web App 我还需要监听 websocket 的附加端口在我本地我使用的是 8000
如何禁用 DateTimePicker 控件上的某些日期？

如何禁用选定的日期DateTimePicker这样用户就无法选择它们我知道这在 Web 窗体中是可能的但在 Windows 窗体中我无法执行此操作我怎样才能实现这个目标您执行此操作的难易程度取决于您想要限制的日期例如如果您只想指
如何从 Android 电话簿中选择联系号码到我的应用程序中？

全部我想从我的应用程序数据库中的android电话簿中获取号码我已经用下面的代码尝试过但这里正在获取人名而不是我想要电话簿中的号码并希望将其存储在我的数据库中如何实现这一目标任何人都可以指导我 Override public v
如何存储通用引用

我需要在类中存储通用引用我确信引用的值将比类的寿命更长有这样做的规范方法吗这是我想出的一个最小的例子它似乎有效但我不确定我是否做对了 template
实现按住连续事件触发的优雅方式？

我经常需要通过按住按钮来触发一系列事件想一个增加字段的按钮点击它应该将其增加 1 但点击并按住应该每秒增加 1 直到释放按钮另一个示例是在音频播放器类型应用程序中按住后退或前进按钮时的擦洗功能我通常采用以下策略 On touchD
如何将带有键值对的列表转换为字典

我想迭代这个列表 name test1 email email protected cdn cgi l email protection role test description test name test2 email email p
嵌入式 Derby/Java DB 中的自动增量错误

我正在开发一个在嵌入式模式下使用 Apache Derby 数据库的会计程序我有一个包含两列的表 Branch CREATE TABLE Branch idBranch INT NOT NULL PRIMARY KEY GENERATED
如何在Android中截断TextView，然后添加省略号

我读过这里的一些其他线程也有类似的担忧但他们的答案似乎都不适合我无法在 Android 上使用省略号 https stackoverflow com questions 1698881 cant get ellipsis to work
如何创建 ASP.NET 网站的移动版本？

我有一个使用asp创建的网站我想让手机可以访问它这样用户就可以通过他她的手机使用它我对 XML 或 NET 没有任何了解我怎样才能做到这一点 ASP NET 移动网页 https learn microsoft com en us
如何在 VSTS 部署期间从 Azure Web App 删除文件

我有一个 Azure Web 应用程序我将一些数据存储在它的持久存储中通过我的 VSTS 发布定义我想删除一个填充了数据的文件夹该文件夹位于D home site MyFolder 有没有办法可以在部署期间以编程方式从 VSTS 发
哪里有一些好的 Xlib 编程指南？

我现在对 Xlib 编程有点困惑几周前我开始使用 dwm 一个轻量级窗口管理器我想找一些 Xlib 编程书籍或在线资源来自定义 dwm 然而在网上搜索后我没有看到太多关于 Xlib 的新文章亚马逊上最新的X窗口系统编程指南是199
我的spark sql限制非常慢

我使用spark从elasticsearch中读取 Like select col from index limit 10 问题是索引非常大它包含 1000 亿行而 Spark 会生成数千个任务来完成这项工作我只需要 10 行即使

我的spark sql限制非常慢

我的spark sql限制非常慢 的相关文章

随机推荐

热门标签

我的spark sql限制非常慢的相关文章