Spark读取ES报错EsHadoopInvalidRequest The number of slices [1632] is too large

2023-11-13

Spark读取ES报错EsHadoopInvalidRequest: The number of slices [1632] is too large

1.背景

最近需要将ES指定索引中的数据使用Spark读取，进行简单处理后写入HBase，使用了如下依赖。

        <!-- spark 依赖包 -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>2.4.5</version>
        </dependency>
        <!-- scala 依赖 -->
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.11.12</version>
        </dependency>
        <!-- elasticsearch 提供整合Spark的包 -->
        <dependency>
            <groupId>org.elasticsearch</groupId>
            <artifactId>elasticsearch-spark-20_2.11</artifactId>
            <version>5.5.1</version>
        </dependency>

代码如下。

object SparkReadES {

  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf()
    conf.setAppName("read_es")
    conf.set("es.nodes", "es_host")
    conf.set("es.port", "9200")
    conf.set("es.nodes.wan.only", "true")
    conf.set("cluster.name", "es-cluset-name")
    val sc: SparkContext = new SparkContext(conf)
    val query = """{
                  |  "query": {"match_all": {}}
                  |}""".stripMargin

    val rdd: RDD[(String, String)] = EsSpark.esJsonRDD(sc, "idex/type", query)

    println(rdd.take(10).toBuffer)
    
    sc.stop()
  }

}

2.解决方法

index.max_slices_per_scroll 是 Elasticsearch 中的一个设置，用于控制每次滚动搜索操作的切片数。滚动搜索是一种在大型数据集上执行连续分页查询的机制。

当执行滚动搜索时，Elasticsearch 将结果切分为多个切片（slices），每个切片处理一部分数据。index.max_slices_per_scroll 设置决定了每次滚动搜索操作中可以使用的最大切片数。

注意：修改此设置可能会对查询性能产生影响。较大的切片数可能会增加搜索操作的负载和资源消耗。因此，建议根据实际情况进行调整，并进行基准测试以评估性能变化。

2.1 修改指定索引配置(推荐)

在Kibana的Dev Tools中使用如下指令即可。

PUT /index_name/_settings
{
  "index.max_slices_per_scroll": 2048
}

指定数量为 2048，这种方式只需要修改读取索引的设置即可，不用重启服务，并且读取完毕之后可以将该参数值改回默认的 1024。

2.2 修改ES配置

打开 Elasticsearch 配置文件，通常位于 config 目录下，名为 elasticsearch.yml。
在配置文件中找到或添加以下行：index.max_slices_per_scroll: 2048
保存并关闭配置文件。
重启 Elasticsearch 以使更改生效。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Bug

spark

elasticsearch

大数据

Spark读取ES报错EsHadoopInvalidRequest The number of slices [1632] is too large 的相关文章

ElasticSearch：对聚合键进行排序，不区分大小写，并保持键的大小写

我想从汽车中获得不同的制造值并且制造值应该不区分大小写地按升序排序我使用的是elasticsearch版本2 4 4 颜色和制作字段的映射 color type string fields keyword type string ind
使elasticsearch中的所有对象嵌套对象

是否可以让elasticsearch中的所有嵌套对象自动映射到默认嵌套的类型而不是对象是的您可以使用以下方法来做到这一点动态模板 https www elastic co guide en elasticsearch referenc
分割多重多边形

我可以直接取出零件并把它们取出来作为它们自己的功能吗或者这会涉及更复杂的东西吗我正在尝试将其中一张地图拆分为较小的部分以对它们进行索引 https github com simonepri geo maps https github c
分面搜索的后过滤器和全局聚合之间有什么区别？

搜索界面中的一个常见问题是您想要返回结果的选择但可能想返回有关所有文档的信息例如我想查看所有红色衬衫但想知道什么其他颜色可供选择这有时被称为多面结果或者多面导航这Elasticsearch 参考中的示例 https ww
在 ElasticSearch 7+ 中，如何搜索所有文本字段？

我想在 Elasticsearch 7 3 中存储的文档中搜索单词我希望在以前版本的 Elasticsearch 上运行的一个示例是 query bool must match all oliver must not should fro
Elasticsearch TransportClient NetworkPlugin NoClassDefFoundError

我期待将 Elasticsearch 集成到 Spring Boot Web 应用程序中这是创建传输客户端的配置 Configuration public class ElasticsearchConfig private Transpo
弹性搜索模糊匹配，精确匹配首先显示

我想在查询中使用模糊匹配但精确匹配显示在结果的顶部我已经尝试过以下方法 return this gt client gt search array index gt self INDEX type gt self TYPE body g
局部敏感哈希 - Elasticsearch

有没有允许在 Elasticsearch 上使用 LSH 的插件如果是的话您能否指出该位置并告诉我如何使用它谢谢编辑我发现ES使用了MinHash插件我怎样才能用这个来比较文件呢查找重复项的最佳设置是什么有一个Elastic
如何使用 django-haystack 和 elasticsearch 后端进行模糊搜索？

看起来好像elasticsearch支持模糊查询 http www elasticsearch org guide reference query dsl fuzzy query http www elasticsearch org gui
ElasticSearch 定义自定义映射与默认“_doc”映射冲突

尝试创建自定义映射类型时会发生此问题为第一个插入弹性创建自定义映射后想要创建 doc映射类型和冲突就发生在这里第一步我创建一个映射 mappings properties field1 type keyword field2 type
在弹性搜索中使用 GET/POST 时的不同结果

我正在通过 Elastic Search Head 插件尝试弹性搜索当我通过 POST 提交查询时结果符合预期但是当我使用 GET 尝试相同的查询时我总是会返回索引中的所有值那么如何通过 GET 将查询传递到弹性搜索服务器以
ElasticSearch - 仅获取与搜索响应中所有顶级字段匹配的嵌套对象

假设我有以下文档 id 1 name xyz users name abc surname def name xyz surname wef name defg surname pqr 我只想获取与搜索响应中的所有顶级字段匹配的嵌套对象我
如何使用ElasticSearch来实现社交搜索？

我正在尝试使用 ElasticSearch 创建具有社交功能的商业搜索我有一个企业目录用户可以通过不同的方式与这些企业进行交互通过查看它们检查它们等当用户搜索商家时我希望能够在结果顶部向他们显示他们的朋友与之互动过的商家或根据
如何修复从 React 对 Elasticsearch 进行 API 调用时的“混合内容：”错误

我正在使用 firebase 的 elasticsearch 的 bitnami 版本我发现它只能连接到http并不是https当我使用邮递员尝试时我的create react app已部署到 firebase 我得到Mixed Con
Elasticsearch 数组必须和must_not

我的 elasticsearch 数据库中有一个如下所示的文档 tags gt tag 1 tag 2 tag 3 tag A created at gt 2013 07 02 12 42 19 UTC label gt Mon super
Elasticsearch 关于“空索引”的查询

在我的应用程序中我使用了几个elasticsearch索引它们在初始状态下不包含索引文档我认为这可以称为空该文档的映射是正确且有效的该应用程序还有一个包含实体的关系数据库这些实体可能具有在 elasticsearch 中关联的
Elasticsearch Nest 通配符查询（带空格）

简洁版本我想使用 Nest 编写一个弹性搜索查询来获取完整的索引项 ContentIndexables在我的例子中作为我的自定义类型已被索引该查询受 some string 术语查询的约束即 String StartsWith 其中
设置 verify_certs=False 但 elasticsearch.Elasticsearch 因证书验证失败而引发 SSL 错误

self host KibanaProxy 自我端口 443 self user 测试 self password 测试我需要禁止证书验证使用选项时它与curl一起使用 k在命令行上但是在使用 Elasticsearch pytho
适用于elasticsearch 7.0.1 和 kibana 7.0.1 的 docker-compose.yml

我在 Windows 10 上将 Docker Desktop 与 Linux 容器结合使用并希望通过 docker compose 文件启动最新版本的 elasticsearch 和 kibana 容器使用 6 2 4 等旧版本时一切
AWS ElasticSearch Service - 从 CF 模板设置加密选项

我正在创建一个云形成模板来在AWS中配置elasticsearch服务域我想将加密下的此属性设置为 true 域的所有流量都需要 HTTPS 但我无法在 AWS 文档中找到执行此操作的方法用于设置加密属性的其他选项例如启用静态数据加

随机推荐

C++复习第二天:类与对象

1 什么是面向过程什么是面向对象 C语言是面向过程的关注的是过程分析出解题过程的步骤调用函数来实现 C 是基于面向对象的关注的是对象将一件事物划分成不同的对象通过不同对象之间相互交互完成 2 面向对象的三大特性面向对象的三大
Unity3D开发环境安装（windows系统）

1 首先先下载软件包 http pan baidu com s 1imYVv 4 2版本 2 下载完后解压会看到两个文件运行第二个安装包 3 准备安装这里直接上图了这里全选里面包括运行媒体之类的这里自己选择安装目录如果你C盘空
第三章内存管理

1 内存的基础知识内存可存放数据程序执行前需要先放到内存中才能被CPU处理缓和CPU与硬盘之间的速度矛盾指令中的地址参数直接给出了变量x的实际存放地址物理地址 1 绝对装入绝对装入在编译时如果知道程序将放到内存中的哪个位置
5G应用场景300例附下载地址

为加快5G在重点产业领域的推广应用推动我省5G产业发展我厅会同山东联通山东移动山东电信在全国范围内筛选了解决方案编制了 5G应用场景300例关注公众号互联互通社区回复 5G应用场景300例获取全部内容 5G移动通信技术基本
运行python脚本时传入参数的几种方式（接收外部参数）

运行python脚本时传入参数时三种格式对应不同的参数解析方式分别为sys argv argparse tf app run 前两者是python自带的功能后者是tensorflow提供的便捷方式 1 sys argv sys模块是很常
Q_UNUSED()函数的作用

Q UNUSED 函数在程序中的作用就如它所代表的英文一样 unused 即无用的意思即Q UNUSED 函数在程序中没有实质性的作用用来避免编译器警告下面我们来看一组程序 void ColorItem paint QPainter
Flutter 环境配置

Flutter 环境配置电脑上面安装配置JDK 1 下载安装JDK 下载地址 https www oracle com technetwork java javase downloads jdk8 downloads 2133151 ht
刚拿到esp32-cam想测试该怎么办？看这篇文章就可以了

无意间对esp32 cam感兴趣就去某pdd买了一个模块玩玩组装摄像头的时候不要硬插进去有个活动卡槽可以扣开如下图接下来去arduino官网或者中文社区下载 arduino官网 https www arduino cc en so
LeetCode题目笔记——206. 反转链表

文章目录题目描述题目难度简单方法一顺序遍历 C 代码 Python代码方法二递归代码题目描述题目难度简单方法一顺序遍历我们只需顺序遍历一次列表在原地将它们的指向依次逆转需要注意的是当链表本身为空的时候我们直
python数据分析-超市客流量高峰期分析--调用matplotlib折线图

python数据分析超市客流量高峰期分析调用matplotlib折线图数据处理有一份超市订单csv格式数据源导入后如下导入需要使用的模块 import pandas as pd import matplotlib pyplot a
6个 Python 办公黑科技，工作效率提升100倍！（附代码）

下班晚加班久感觉已经成为现代打工人的通病每天将大部分时间浪费在一些机械重复的工作上如何提升你自己的工作效率才是关键今天给大家分享6个 Python 办公小技巧让你的工作效率倍增欢迎大家学习收藏喜欢点赞支持废话不说让我们开
微信小程序遇到的坑系列---小程序上传图片线上失败

微信小程序中上传图片的代码如下实现功能 1 上传图片到七牛云 2 上传成功后对于返回的路径展示到页面 3 将返回的路径发送给后端对于第一个需求 1 上传图片到七牛云我们需要在七牛云上有一个账号去存自己的图片于是不能忽略的一步就
【业务功能篇49】Springboot+EasyPoi 实现Excel 带图片列的导入导出

SpringBoot整合EasyPoi实现Excel的导入和导出带图片 51CTO博客 springboot easypoi导出excel
JDBC Utils 详解（通俗易懂）

目录一前言二 JDBCUtils说明 1 背景及起因 2 示意图 3 JDBCUtils类的定义三 JDBCUtils应用 1 DML的应用 2 DQL的应用四总结一前言第三节内容 up主要和大家分享一下JDBC Util
输入权重和偏置的范围问题？

对于张的单输入单输出的非线性函数用黄的程序隐层神经元的个数并没有太大的影响而输入权重和偏置的范围有很大的影响隐层神经元数50 InputWeight rand NumberofHiddenNeurons NumberofInputN
龙芯+RT-Thread+LVGL实战笔记（1）——从移植开始

过去的大半年时间一直带着学生备战全国职业院校技能大赛嵌入式系统应用开发赛项由于是首次参加该赛项很多东西都是从0到1的摸索和积累最后的成绩自然也不甚理想作为指导教师备赛期间除了给予学生必要的指导自己也花了不少精力研究了大赛指
9.7C++作业

include
redis安装过程报错解决方案

问题一出现如下错误 cd src make all make 1 Entering directory xx xx redis x x x src CC adlist o bin sh cc command not found make
pycharm 安装 markdown 的三种方法！绝对管用！！！

Markdown是一种可以使用普通文本编辑器编写的标记语言通过简单的标记语法它可以使普通文本内容具有一定的格式本人使用的是专业版pycharm 自己破解的不知道正版的有没有安装不上markdown的情况就个人所遇到的问题解决方案如
Spark读取ES报错EsHadoopInvalidRequest The number of slices [1632] is too large

Spark读取ES报错EsHadoopInvalidRequest The number of slices 1632 is too large 1 背景最近需要将ES指定索引中的数据使用Spark读取进行简单处理后写入HBase 使用