Amazon Elasticsearch - 并发批量请求

2024-02-25

当我通过一个批量请求向 ElasticSearch 添加 200 个文档时，速度非常快。

但我想知道是否有机会加快这一进程并发执行：20 个并发执行，每个并发执行 10 个文档。

我知道这效率不高，但也许有机会通过并发执行来加快进程？

较低的并发性更适合批量文档插入。某些并发性在某些情况下是有帮助的——It Depends™，我会详细介绍它——但并不是一个重大的或自动的胜利。

当涉及到 Elasticsearch 的写入性能时，有很多可以调整的地方。您应该检查一个非常快速的胜利：您的连接是否使用 HTTP keep-alive ？这将节省大量设置每个连接的 TCP 和 TLS 开销。仅仅这一改变就可以极大地提升性能，并且还可以为您的索引管道揭示一些有意义的架构注意事项。

所以检查一下，看看进展如何。从那里开始，我们应该从底部开始，然后向上努力。

磁盘上的索引是Lucene。 Lucene 是一个分段索引。这index这部分是您首先使用 Elasticsearch 的核心原因：可以在 O(log N) 时间内搜索排序术语的字典。这是超级快速和可扩展的。段部分是因为插入索引并不是特别快 - 根据您的实现，维护排序的成本为 O(log N) 或 O(N log N)。

所以 Lucene 的技巧是缓冲这些更新并附加一个新的段；本质上是迷你指数的集合。搜索一些相对较少数量的段仍然比每次更新时花费所有时间维护排序索引要快得多。随着时间的推移，Lucene 会照顾merging这些片段将它们保持在某个合理的大小范围内，并在此过程中删除已删除和覆盖的文档。

在 Elasticsearch 中，每个分片都是一个独特的 Lucene 索引。如果您的索引只有一个分片，那么拥有多个并发的批量更新流几乎没有什么好处。应用程序端的并发性可能会有一些好处，具体取决于索引管道收集和组装每批文档所需的时间。但在 Elasticsearch 方面，这只是一组缓冲区被写到一个又一个的段中。

分片使这变得更有趣。

Elasticsearch 的优势之一是能够分割跨多个分片的索引的数据。这有助于提高可用性，并有助于工作负载扩展到超出单个服务器的资源范围。

遗憾的是，并发性应该与索引所具有的主分片的数量相等或成比例，这并不那么简单。不过，作为一种粗略的启发式方法，这并不是一件可怕的事情。

您会看到，在内部，第一个处理请求的 Elasticsearch 节点会将批量请求转换为一系列单独的文档更新操作。每个文档更新都会发送到托管该文档所属分片的适当节点。响应由批量操作收集，以便它可以在响应中向客户端发送批量操作的摘要。

因此，此时，根据文档分片路由，在处理传入批量请求的过程中，某些分片可能比其他分片更繁忙。那有可能吗matter?我的直觉告诉我事实并非如此。这是可能的，但这将是不寻常的。

在我见过的大多数测试和分析中，以及根据我十多年使用 Lucene 的经验，索引的缓慢部分是将文档值转换为倒排索引格式。解析文本、将其分析为术语等可能非常复杂且成本高昂。只要批量请求具有足够的文档并且在分片之间分布得足够好，并发性就不会像在分片和段级别完成的工作饱和那样有意义。

在调整批量请求时，我的建议是这样的。

使用 HTTP 保持活动状态。这不是可选的。（您正在使用 TLS，对吧？）
选择每个请求花费适当时间的批量大小。大概1秒左右，可能不会超过10秒。
如果您愿意，可以测量每个批量请求花费的时间，并动态地增加和缩小您的批次。

持久队列可以释放很多功能。如果可以获取和组装文档并将它们插入到 Kafka 中，那么该过程可以并行运行以使数据库饱和并并行化任何文档的非规范化或准备。然后，一个不同的进程从队列中提取并向服务器发送请求，并且通过一些轻微的协调，您可以在不同阶段测试和调整不同的并发性。当队列有助于将集群暂时置于只读模式时，队列还可以让您暂停各种迁移和维护任务的更新。

我在整个答案中都避免了复制，因为我建议调整复制的原因只有一个。那就是当您批量创建不服务任何生产流量的索引时。在这种情况下，它可以帮助通过服务器群节省一些资源，以关闭对索引的所有复制，并在索引基本上完成数据加载后启用复制。

最后，如果您无论如何提高并发性会怎么样？有什么风险？某些工作负载不控制并发性，并且没有时间或资源在搜索引擎前面放置队列。在这种情况下，Elasticsearch 可以避免相当大量的并发。它有相当充足的线程池来处理并发文档更新。如果这些线程池已饱和，它将拒绝响应，并显示 HTTP 429 错误消息和有关超出队列深度的明确消息。这些可能会影响集群的稳定性，具体取决于可用资源和索引中的分片数量。但这些都是非常引人注目的问题。

底线：不，相对于 1 个包含 200 个文档的批量，20 个并发批量（每个包含 10 个文档）可能不会提高性能。如果您的批量操作速度很快，您应该增加它们的大小，直到它们运行一两秒，或者出现问题。使用保活。如果存在其他应用程序端开销，请将并发性增加到 2 倍或 3 倍，并根据经验进行测量。如果索引对于任务至关重要，请使用快速、持久的队列。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

bulkinsert

Amazon Elasticsearch - 并发批量请求的相关文章

排除elasticsearch结果数据中的_id和_index字段

如果简单地点击 api 每个文档中有 5 个字段但我只想要这两个字段 user id 和 loc code 所以我在字段列表中提到但它仍然返回一些不必要的数据如 shards hits time out等使用下面的查询在 chrom
mongodb C# 驱动程序中 InsertBatch 方法的最佳批量项目计数是多少？

我听说大批量并不能真正提供任何额外的性能什么是最优的如果您调用 Insert 一次插入一个文档则每个文档都会有一次网络往返如果您调用 InsertBatch 批量插入文档则每个批次而不是每个文档都会有一个网络往返 Insert
将 Spark Dataframe 保存到 Elasticsearch - 无法处理类型异常

我设计了一个简单的作业使用 Spark 从 MySQL 读取数据并将其保存在 Elasticsearch 中这是代码 JavaSparkContext sc new JavaSparkContext new SparkConf setA
AWS ElasticSearch：如何将策略应用于索引

我们有一个 AWS ElasticSearch 域正在向其中写入记录文档我现在已经在 Kibana 中创建了索引状态生命周期管理 ISM ILM 策略并且可以将该策略应用于 Kibana 中的索引现在我想在从处理索引写入的 J
范围过滤器不适用于“gt”运算符，但适用于“lt”

我正在使用弹性搜索来索引我的文档并希望根据特定属性过滤文档这是我的代码 filter push range audience ethnicity asian gt 50 它不适用于 gt 运算符发回不一致的结果但适用于 lt 运算符
使用elasticsearch按一天中的时间累积流量

我正在接收来自大量客户端应用程序的请求事件我想使用elasticsearch 来找出我的最高流量点是什么时候我尝试过的一件事是使用嵌套直方图进行过滤器聚合然后使用嵌套的术语聚合通过脚本字段获取一天中的不同时间以下是我的尝试
将带有脚本的管道聚合转换为 kibana

Can 管道聚合 https www elastic co guide en elasticsearch reference current search aggregations pipeline html在elasticsearch中转
如何在 Elasticsearch 中同时按父字段和嵌套字段排序？

我需要同时按父字段和嵌套字段在 Elasticsearch 中排序我的数据是这样的 id 1 rank 8 price 12 45 offers id 777 rank 12 price 45 75 id 2 rank 35 price
Elasticsearch 对字符串排序未返回预期结果

当对包含多个单词的字符串字段进行排序时 Elasticsearch 会拆分字符串值并使用最小值或最大值作为排序值即当对值为老虎之眼的字段进行升序排序时排序值为 Eye 当按降序排序时排序值为 Tiger 假设我的索引中有老虎之
为什么我在elasticsearch中需要“store”：“yes”？

我真的不明白为什么核心类型链接 http www elasticsearch org guide reference mapping core types 它在属性描述中说例如对于数字 store 设置为 yes 将实际字段存储在索引中
在elasticsearch中过滤facet

我有一个如下查询 query query query string query s q filter ids values list ids facets destination terms field destination en hot
Elasticsearch TransportClient NetworkPlugin NoClassDefFoundError

我期待将 Elasticsearch 集成到 Spring Boot Web 应用程序中这是创建传输客户端的配置 Configuration public class ElasticsearchConfig private Transpo
Elasticsearch 中的嵌套与对象

有人可以解释 Elasticsearch 文档中对象和嵌套字段之间的区别吗我知道默认情况下字段被定义为对象我还知道我可以用这样的点访问对象字段 my field name my field title 等对象的文档 http
如何在logstash.conf文件中创建多个索引？

我使用以下代码在logstash conf中创建索引 output stdout codec gt rubydebug elasticsearch host gt localhost protocol gt http index gt tr
弹性搜索模糊匹配，精确匹配首先显示

我想在查询中使用模糊匹配但精确匹配显示在结果的顶部我已经尝试过以下方法 return this gt client gt search array index gt self INDEX type gt self TYPE body g
随着索引和文档数量恒定，elasticsearch 批量索引会随着时间的推移而变慢

我遇到了使用 NET NEST 客户端和 ElasticSearch 进行批量索引的性能随着时间的推移索引数量和文档数量恒定而降低的情况我们正在奔跑ElasticSearch Version 0 19 11 JVM 23 5 b02在具
ElasticSearch 定义自定义映射与默认“_doc”映射冲突

尝试创建自定义映射类型时会发生此问题为第一个插入弹性创建自定义映射后想要创建 doc映射类型和冲突就发生在这里第一步我创建一个映射 mappings properties field1 type keyword field2 type
将 ElasticSearch SearchResponse 对象转换为 JsonObject

我想将elasticsearch搜索结果转换为Json对象我还没有找到任何直接转换的正确方法 SearchResponse response client prepareSearch index setExplain true execu
Elasticsearch 单个字段的多个分析器

我使用严格的预定义映射将不同类型的文档存储在单个索引中它们都有一些字段例如 body 但我希望在索引时对它们进行稍微不同的分析例如对特定文档使用不同的标记过滤器并在搜索时以相同的方式处理据我所知分析器不能按文档指定我还考虑使
如何将包含 5000 条记录的 Excel 文件插入到 documentDB 中？

我有一个 Excel 文件最初约有 200 行我能够将 Excel 文件转换为数据表并且所有内容都正确插入到 documentdb 中 Excel 文件现在有 5000 行在插入 30 40 条记录后不会插入其余所有行不会插入到

随机推荐

为什么 Intellij 默认 getter/setter 模板会删除我的布尔“is”变量名前缀？

我有一个实体我将变量定义为布尔值并使用 Intellij Idea Shortcuts 创建了 Getter 和 Setter 方法 private Boolean isForLaboratory false 创建后生成如下 publi
cosmosdb mongo api 不适用于某些命令

我在用cosmosdb在天蓝色上我正在使用MongoDB API我有一个要求集合里面有一个 claims array 如果我使用这个命令 db getCollection requests find claims id 1002 它不适
clang vs gcc - 空通用 lambda 变量参数包

我想我找到了另一个 clang 与 gcc lambda 和可调用对象之间的不一致 decltype l operator 应该等于C operator 但是如果通用 lambda 中的可变参数包留空 gcc 会拒绝编译 15 错误与调用
Highcharts - 仅当直接悬停在点上时显示工具提示

Highcharts 的默认体验似乎是距离光标最近的点水平处于悬停状态这意味着当您到达行中下一个点的一半以上时就会触发工具提示我希望当我直接将鼠标悬停在一个点上时触发工具提示然后保持活动状态直到我将鼠标直接悬停在另一个点上这
adb Push/Pull 的默认工作目录是什么以及如何更改它？

我使用 adb 从 android sdcard 中提取了一个文件它似乎转到了c documents and settings userName默认情况下我不知道它是如何设置到这个文件夹的因为这不是安装 adb 的地方但可能与以下事
如何在 Dropwizard 项目（Angular 7 前端）中创建并开始使用嵌入式 Apache Derby 数据库

我正在阅读 Derby 文档并遵循所有说明我已成功安装它将其解压到我的 Linux 计算机并设置 DERBY HOME 路径我有一个完整的 REST API 项目带有 Angular 7 前端和 Dropwizard 后端我在后端
有没有办法在 numpy.hist 中返回相同长度的数组？

我正在尝试在 python 中创建直方图用一些自定义值对 y 轴值进行标准化为此我想这样做 import numpy as np import matplotlib pyplot as plt data np loadtxt foo
惰性 var 属性初始化两次是否正常？

当我使用房产时我遇到过很奇怪的情况lazy关键词我知道这个关键字表示属性的初始化将被推迟到实际使用变量为止但是它并没有像我预期的那样工作它运行两次 class TestLazyViewController UIViewContro
为什么 is 运算符在给定 null 时返回 false？

在我看来 is运营商有点不一致 bool Test Returns false but should return true return null is string 人们期望null值属于任何引用或可为空类型事实上 C 语言规范的
http_build_query() 点转换为下划线

请检查以下数组 Array bunrey gt Array 0 gt 20130730181908615391000000 mt shasta gt Array 0 gt 20130708203742347410000000 1 gt 20
如何使用 jQuery 检测 IE 8？

我不仅需要检测浏览器类型还需要使用 jQuery 检测浏览器版本主要是我需要确定它是否是 IE 8 我不确定我是否做得正确如果我做 if jQuery browser version gt 8 0 dosomething 我不确定它是
在 python selenium webdriver 中发送密钥而不指定元素

我有一个页面其源代码不可用但有一个输入框光标在闪烁我可以在文本框中写入一些内容而不找到该元素吗我的意思是发送键可以通过某种方式自动查找焦点输入框并在其中键入输入我的代码显然不能工作 driver send keys testd
使用意图上传图像

我正在尝试为我的 Android 移动应用程序上传图像对于从图库文件夹上传的图像该代码运行良好但是如果我从最近的图像文档下载中选择任何图像则图像路径不会被提取无法上传图像你能帮我解决这个问题吗这是我的编码供您参考 p
在谷歌中搜索单词并想使用java程序找到每个单词的命中

我有30000个字典单词我想在 Google 中搜索每个单词并想使用 Java 程序找到每个单词的匹配项是否可以 Look up
如何在 EF Core 中放弃对上下文的更改

我有一个巨大的 json 格式的扁平化对象列表以及一个有点复杂的关系数据库模式大约 20 个表对应于一个扁平化对象我正在尝试在新的关系数据库中自动插入这些扁平对象 foreach var flattenedObject in fl
jQuery-UI 可排序 - 更新后同步数组（模型）

假设我有一个包含数据的数组它可能来自 Ajax 但无需在此处执行此操作使用该数组我生成 UL 元素的内容并使用 jQuery UI 使 UL 可排序在客户端对它进行排序之后我希望保持数组的顺序与 UL 同步有没有一种优雅的方法
如何用python画动态规划表

What is a good way to draw a dynamic programming such as this one with the path in python 我在网上查了一下我看到了pygame http pygam
从 PHP 关联数组中弹出键和值

假设 S 是 PHP 中的关联数组我需要从中检索并提取第一个元素包括值和键我会用 value1 array pop S 但它只给了我价值我可以用 K array keys S key1 array pop K value1 arra
在graphviz中从节点到边绘制边

是否可以在 graphviz 中从节点绘制一条边到现有边的中心我想复制化学或生物网络中常见的这种类型的反应图 Thanks Peter 是的您可以使用不可见节点例如这个例子 https stackoverflow com questi
Amazon Elasticsearch - 并发批量请求

当我通过一个批量请求向 ElasticSearch 添加 200 个文档时速度非常快但我想知道是否有机会加快这一进程并发执行 20 个并发执行每个并发执行 10 个文档我知道这效率不高但也许有机会通过并发执行来加快进程较低的并发

Amazon Elasticsearch - 并发批量请求

Amazon Elasticsearch - 并发批量请求 的相关文章

随机推荐

热门标签

Amazon Elasticsearch - 并发批量请求的相关文章