Spark读取ES报错EsHadoopInvalidRequest: The number of slices [1632] is too large
1.背景
最近需要将ES指定索引中的数据使用Spark读取,进行简单处理后写入HBase,使用了如下依赖。
<!-- spark 依赖包 -->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.11</artifactId>
<version>2.4.5</version>
</dependency>
<!-- scala 依赖 -->
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-library</artifactId>
<version>2.11.12</version>
</dependency>
<!-- elasticsearch 提供整合Spark的包 -->
<dependency>
<groupId>org.elasticsearch</groupId>
<artifactId>elasticsearch-spark-20_2.11</artifactId>
<version>5.5.1</version>
</dependency>
代码如下。
object SparkReadES {
def main(args: Array[String]): Unit = {
val conf: SparkConf = new SparkConf()
conf.setAppName("read_es")
conf.set("es.nodes", "es_host")
conf.set("es.port", "9200")
conf.set("es.nodes.wan.only", "true")
conf.set("cluster.name", "es-cluset-name")
val sc: SparkContext = new SparkContext(conf)
val query = """{
| "query": {"match_all": {}}
|}""".stripMargin
val rdd: RDD[(String, String)] = EsSpark.esJsonRDD(sc, "idex/type", query)
println(rdd.take(10).toBuffer)
sc.stop()
}
}
2.解决方法
index.max_slices_per_scroll
是 Elasticsearch 中的一个设置,用于控制每次滚动搜索操作的切片数。滚动搜索是一种在大型数据集上执行连续分页查询的机制。
当执行滚动搜索时,Elasticsearch 将结果切分为多个切片(slices),每个切片处理一部分数据。index.max_slices_per_scroll
设置决定了每次滚动搜索操作中可以使用的最大切片数。
注意:修改此设置可能会对查询性能产生影响。较大的切片数可能会增加搜索操作的负载和资源消耗。因此,建议根据实际情况进行调整,并进行基准测试以评估性能变化。
2.1 修改指定索引配置(推荐)
在Kibana的Dev Tools中使用如下指令即可。
PUT /index_name/_settings
{
"index.max_slices_per_scroll": 2048
}
指定数量为 2048,这种方式只需要修改读取索引的设置即可,不用重启服务,并且读取完毕之后可以将该参数值改回默认的 1024。
2.2 修改ES配置
- 打开 Elasticsearch 配置文件,通常位于
config
目录下,名为 elasticsearch.yml
。
- 在配置文件中找到或添加以下行:
index.max_slices_per_scroll: 2048
- 保存并关闭配置文件。
- 重启 Elasticsearch 以使更改生效。