对 top_hits 聚合求和

2023-11-30

简而言之，问题是：如果我对每个存储桶的 top_hits 进行聚合，如何对结果结构中的特定值求和？

Details:

我有许多记录，其中包含每个商店的一定数量。我想获得每个商店所有最新记录的总和。

为了获取每个商店的最新记录，我创建了以下聚合：

"latest_quantity_per_store": {
    "aggs": {
        "latest_quantity": {
            "top_hits": {
                "sort": [
                    {
                        "datetime": "desc"
                    },
                    {
                        "quantity": "asc"
                    }
                ],
                "_source": {
                    "includes": [
                        "quantity"
                    ]
                },
                "size": 1
            }
        }
    },
    "terms": {
        "field": "store",
        "size": 10000
    }
}

假设我有两个商店，每个商店有两个数量，对应两个不同的时间戳。这是该聚合的结果：

"latest_quantity_per_store": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 0,
    "buckets": [
        {
            "key": "01",
            "doc_count": 2,
            "latest_quantity": {
                "hits": {
                    "total": 2,
                    "max_score": null,
                    "hits": [
                        {
                            "_index": "inventory-local",
                            "_type": "doc",
                            "_id": "O6wFD2UBG8e7nvSU8dYg",
                            "_score": null,
                            "_source": {
                                "quantity": 6
                            },
                            "sort": [
                                1532476800000,
                                6
                            ]
                        }
                    ]
                }
            }
        },
        {
            "key": "02",
            "doc_count": 2,
            "latest_quantity": {
                "hits": {
                    "total": 2,
                    "max_score": null,
                    "hits": [
                        {
                            "_index": "inventory-local",
                            "_type": "doc",
                            "_id": "pLUFD2UBHBuSGcoH0ZT4",
                            "_score": null,
                            "_source": {
                                "quantity": 11
                            },
                            "sort": [
                                1532476800000,
                                11
                            ]
                        }
                    ]
                }
            }
        }
    ]
}

我现在希望在 ElasticSearch 中进行聚合，对这些存储桶求和。在示例数据中，总和超过 6 和 11。我尝试了以下聚合：

"latest_quantity": {
    "sum_bucket": {
        "buckets_path": "latest_quantity_per_store>latest_quantity>hits>hits>_source>quantity"
    }
}

但这会导致以下错误：

{
  "error": {
    "root_cause": [
      {
        "type": "illegal_argument_exception",
        "reason": "No aggregation [hits] found for path [latest_quantity_per_store>latest_quantity>hits>hits>_source>quantity]"
      }
    ],
    "type": "search_phase_execution_exception",
    "reason": "all shards failed",
    "phase": "query",
    "grouped": true,
    "failed_shards": [
      {
        "shard": 0,
        "index": "inventory-local",
        "node": "3z5CqmmAQ-yT2sUCb69DzA",
        "reason": {
          "type": "illegal_argument_exception",
          "reason": "No aggregation [hits] found for path [latest_quantity_per_store>latest_quantity>hits>hits>_source>quantity]"
        }
      }
    ]
  },
  "status": 400
}

以某种方式从 ElasticSearch 获取数字 17 的正确聚合是什么？

我对我拥有的另一个聚合做了类似的事情，即平均值而不是 top_hits 聚合。

"average_quantity": {
    "sum_bucket": {
        "buckets_path": "average_quantity_per_store>average_quantity"
    }
},
"average_quantity_per_store": {
    "aggs": {
        "average_quantity": {
            "avg": {
                "field": "quantity"
            }
        }
    },
    "terms": {
        "field": "store",
        "size": 10000
    }
}

这按预期工作，这是结果：

"average_quantity_per_store": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 0,
    "buckets": [
        {
            "key": "01",
            "doc_count": 2,
            "average_quantity": {
                "value": 6
            }
        },
        {
            "key": "02",
            "doc_count": 2,
            "average_quantity": {
                "value": 11.5
            }
        }
    ]
},
"average_quantity": {
    "value": 17.5
}

有一种方法可以混合使用来解决这个问题scripted_metric聚合和sum_bucket管道聚合。脚本化指标聚合有点复杂，但主要思想是允许您提供自己的分桶算法并从中吐出单个指标数字。

就您而言，您想要做的是计算出每个商店的最新数量，然后将这些商店数量相加。解决方案如下所示，我将在下面解释一些细节：

POST inventory-local/_search
{
  "size": 0,
  "aggs": {
    "bystore": {
      "terms": {
        "field": "store.keyword",
        "size": 10000
      },
      "aggs": {
        "latest_quantity": {
          "scripted_metric": {
            "init_script": "params._agg.quantities = new TreeMap()",
            "map_script": "params._agg.quantities.put(doc.datetime.date, [doc.datetime.date.millis, doc.quantity.value])",
            "combine_script": "return params._agg.quantities.lastEntry().getValue()",
            "reduce_script": "def maxkey = 0; def qty = 0; for (a in params._aggs) {def currentKey = a[0]; if (currentKey > maxkey) {maxkey = currentKey; qty = a[1]} } return qty;"
          }
        }
      }
    },
    "sum_latest_quantities": {
      "sum_bucket": {
        "buckets_path": "bystore>latest_quantity.value"
      }
    }
  }
}

请注意，为了使其工作，您需要设置script.painless.regex.enabled: true在你的elasticsearch.yml配置文件。

The init_script创建一个TreeMap对于每个分片。这map_script填充TreeMap在每个分片上都有日期/数量的映射。我们放入映射中的值包含单个字符串中的时间戳和数量。稍后我们将需要该时间戳reduce_script. The combine_script只需取最后一个值TreeMap因为这是给定分片的最新数量。大部分工作位于reduce_script。我们迭代每个分片的所有最新数量并返回最新的数量。

此时，我们已经掌握了每个商店的最新数量。剩下要做的就是使用sum_bucket管道聚合，以便对每个商店数量进行求和。结果就是 17。

响应如下所示：

 "aggregations": {
    "bystore": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "01",
          "doc_count": 2,
          "latest_quantity": {
            "value": 6
          }
        },
        {
          "key": "02",
          "doc_count": 2,
          "latest_quantity": {
            "value": 11
          }
        }
      ]
    },
    "sum_latest_quantities": {
      "value": 17
    }
  }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

对 top_hits 聚合求和的相关文章

在ElasticSearch中搜索没有时间的日期字段值

我的数据中有一个日期字段为 type date format dateOptionalTime 现在我的日期字段和值是 INITIAL EXTRACT DATE 2015 04 02T06 47 57 78 05 30 在搜索时我仅根据
LogStash 无法从许可证中检索许可证信息。响应代码“401”通过 URL“http://elasticsearch:9200/_xpack”联系 Elasticsearch

我正在努力让 Docker LogStash 连接到 Docker ElasticSearch 并启用 xpack 安全性主要日志有 logstash 1 2020 05 20T22 41 03 950 WARN deprecation
了解elasticsearch如何在内部存储日期

我想了解 ES 如何在其索引内部存储日期值它会转换为 UTC 吗我有一个日期类型的字段 t 这是映射 t type date 现在当我向 ES 插入添加文档时它如何存储在索引中 t 1427700477165 从 Date now
Elasticsearch TransportClient NetworkPlugin NoClassDefFoundError

我期待将 Elasticsearch 集成到 Spring Boot Web 应用程序中这是创建传输客户端的配置 Configuration public class ElasticsearchConfig private Transpo
按字段关联 ELK 中的消息

相关在ELK中合并日志和查询 https stackoverflow com questions 28429607 combine logs and query in elk 我们正在设置 ELK 并希望在 Kibana 4 中创建可视化
如何在logstash.conf文件中创建多个索引？

我使用以下代码在logstash conf中创建索引 output stdout codec gt rubydebug elasticsearch host gt localhost protocol gt http index gt tr
在elasticsearch结果中显示不匹配的单词

我想显示返回文档的多单词查询不匹配哪些单词是否有查询类型或参数来实现此目的通常此类不匹配的单词会以删除线字体显示给用户我得到答案后的示例查询 POST posts search query bool should match nam
如何在 kibana 中自动配置索引模式

是否可以在 kibana 中自动配置索引模式要么通过一些设置文件要么通过rest api 安装后可以手动完成 Kibana 5 x 公开了这样的 API 来管理索引模式要创建索引模式可以发出以下命令来 kibana 访问 url 只
如何使用elasticsearch进行分页？来自 vs 滚动 API

我使用elasticsearch作为数据库来存储大量日志数据我知道有两种方法可以进行分页使用大小并来自 API 使用滚动API 现在我使用 from 进行分页从前端和后端获取页面和大小参数 Java searchSourceBuild
如何将2个匹配查询加入到elasticsearch的查询中？

我想查询以下数据user id is 1 and name is John 写一个常用的SQL很容易 select from t where user id 1 and name John 但对我来说进行elasticsearch的查询并不
elasticsearch查询字符串分析器针对不同字段使用不同的分析器

当对具有不同分析器 stem ngram等的多个字段执行查询时 elasticsearch是否对每个字段的查询字符串执行特定的分析是的除非您在查询中指定分析器这请求参数 http www elasticsearch org guid
如何使用 django-haystack 和 elasticsearch 后端进行模糊搜索？

看起来好像elasticsearch支持模糊查询 http www elasticsearch org guide reference query dsl fuzzy query http www elasticsearch org gui
在 Elastic 搜索中加载示例数据集时出错

您好我正在尝试加载示例数据集参考弹性搜索文档 https www elastic co guide en elasticsearch reference current exploring your data html但是当我尝试运行指示
如何在不更改设置的情况下不区分大小写排序

我的索引名称是 data new 下面是插入索引的代码 test id 1 name A professor Bill Cage accounting id 2 name AB professor Gregg Payne engineeri
如何使用ElasticSearch来实现社交搜索？

我正在尝试使用 ElasticSearch 创建具有社交功能的商业搜索我有一个企业目录用户可以通过不同的方式与这些企业进行交互通过查看它们检查它们等当用户搜索商家时我希望能够在结果顶部向他们显示他们的朋友与之互动过的商家或根据
NEST 1.0：请参阅 Fiddler 上的请求

我刚刚更新到 NEST 1 0 我在远程服务器不是本地主机上有 Elastic Search 通常我在使用 Fiddler 发送和接收请求时没有任何问题更新后 bammm 没有检测到任何请求但我的应用程序发出这些请求没有任何问题你
Elasticsearch Nest 通配符查询（带空格）

简洁版本我想使用 Nest 编写一个弹性搜索查询来获取完整的索引项 ContentIndexables在我的例子中作为我的自定义类型已被索引该查询受 some string 术语查询的约束即 String StartsWith 其中
ElasticSearch - 尝试在 Windows 上启动服务时出错

昨天我在 Windows Server 2012 R2 上完成了 ElasticSearch 的安装并且能够正常启动 ElasticSearch 服务今天我安装了 Kibana 和 X Pack 但在尝试启动 ElasticSear
适用于elasticsearch 7.0.1 和 kibana 7.0.1 的 docker-compose.yml

我在 Windows 10 上将 Docker Desktop 与 Linux 容器结合使用并希望通过 docker compose 文件启动最新版本的 elasticsearch 和 kibana 容器使用 6 2 4 等旧版本时一切
Elasticsearch：预期的字段名称，但得到了 START_OBJECT

我一直在尝试运行以下查询但每次运行时都会收到以下错误 nested ElasticsearchParseException Expected field name but got START OBJECT field value fact

随机推荐

为什么此邮件消息无法正确解码？

我有这个代码它来自于Zend 阅读邮件例子 message mail gt getMessage 1 output first text plain part foundPart null foreach new RecursiveIte
查看 SML 完整列表

有没有办法使用 SML 打印完整列表通常在 SML 中发生的情况是当我有太多元素时它会打印前几个元素并用分隔然后省略列表的其余部分但我想查看完整的列表有什么办法可以做到这一点吗 val a 1 2 3 4 5 6 7 8 9
使用 java 创建 Windows 用户帐户

是否可以使用 java 代码创建删除 Windows 用户帐户并设置其权限以使其成为管理员帐户简单用户帐户或来宾帐户我问这个问题已经过去一年了我忘了发布答案对不起要创建用户帐户我们需要通过使用程序包装清单文件来获得管理权限清
如何为 Android SurfaceView 找到最佳的 PixelFormat

我发现更改 SurfaceView 中的像素格式对帧速率有很大影响但是我似乎无法找到一种方法来根据每个设备选择最佳格式 Example Override public void surfaceCreated final SurfaceH
如何生成数据来测试 Snowflake 处理数千列表的能力？

Snowflake 可以处理数千列吗有没有办法可以生成测试数据来测试 Snowflake 在处理比方说 2000 列时的性能使用此脚本您可以创建一个包含 2000 或任意数量列的表并为每个列指定一个默认随机值 CREATE or
Octave/Windows：图中显示变音符号但未保存为图像

我在Windows下使用octave 3 8 2 带有gnuplot 我想在绘图的轴标签中写入特殊字符变音符号和特殊字符显示在图中但不会使用打印保存到图像文件中部分地我可以使用 TeX 命令 mu 代替但对于变音符号 a 代
如何在三个表上使用连接

我有三张桌子表1 表2 表3 表 1 具有列 ID Table2 具有列名 ID Name 表三具有列名称Name 现在我想从 Table2 中的 table1 中检索 ID 以便与表中的 ID 关联的名称应在表 3 中表1 ID 表2
lua5.2的错误：检测到多个Lua VM

我最近使用5 2学习我想尝试这样的第1步为lua构建一个c模块 include lua h include lauxlib h include lualib h include
在响应式环境中使用 rem 作为字体大小单位时，哪种后备方案最好？

最近我想知道使用 rem 作为字体大小单位时哪种后备最好像素似乎很合适但如果您想更改特定媒体查询中的全局字体大小则需要重新定义每个基于 px 的字体大小这是一个例子如果没有任何旧浏览器的后备我们可以使用 Mobile Style
将具有公共 id 的行压缩为一行[重复]

这个问题在这里已经有答案了我有一个问题尚未找到答案有类似的问题其解决方案在我的情况下不太有效我有一个包含四列的数据集如下例所示 Name Session Sequence Page Bob 001 001 home Bob 001
在 python 中，如何比较两个数字字符串而不将它们转换为 int()？

例如在不使用 int 和 def 的情况下检查它们是否大于小于或等于 num1 67 num2 1954 左补零然后按字典顺序比较字符串 num1 67 num2 1954 if num1 zfill 10 lt num2 zfill
Java输出String和方法返回时，为什么方法返回先输出？

在下面的代码中如果字符串 Mult 出现在test1 4 方法调用为什么方法输出在字符串之前为什么它会从输出方法的第一部分跳出然后离开方法输出字符串然后返回到方法输出方法的返回值 code public class Scratch
通过两个代理的 HttpWebRequest

我最近建立了一个网站它使用地理 DNS 将 DNS 解析为两个不同的 IP 具体取决于您的位置然而这意味着要监控网站我需要确保该网站在两个地理位置都可用为此我在 net 中编写了一个小程序不断尝试使用 HttpWebReque
连接到特定 HID 配置文件蓝牙设备

我将蓝牙条形码扫描仪连接到我的 Android 平板电脑条码扫描仪与 Android 设备绑定作为输入设备 HID 配置文件它在系统蓝牙管理器中显示为键盘或鼠标我发现蓝牙配置文件输入设备类存在但被隐藏 class 和 btprofil
使用 LibGDX 登录 Google

我有问题我正在用 LibGDX 制作游戏现在我想实现Google登录我到处寻找但什么也没找到我需要的是一个解析器来抽象特定平台的代码但我不知道该怎么做有人可以帮忙吗 EDIT 这是代码这是我的 Android 解析器 pub
用于在页面内创建 div 样式窗口的 JavaScript 库

我试图找到一个好的 JavaScript 库它可以在我网站的页面中创建一个漂亮的内部窗口弹出窗口我不想担心屏幕定位即不必计算窗口的大小是否会超出屏幕等而只需制作一个包含内容的新弹出窗口我将使用 NET 3 5 ASP NET
使用 Plink 在另一台服务器（jumphost）后面的远程服务器上执行命令

我正在尝试使用 Power Automate Desktop for PuTTY 进行自动化我遇到了一个使用 cmd 来运行命令的解决方案plink 我使用了以下步骤我将PuTTY添加到系统变量中我使用了命令在cmd中 plink
CRM 2013 中的富文本编辑器 (WYSIWYG)

有时 CRM 界面中的 HTML 编辑器很有用可以直接在 CRM 2013 中实现编辑器作为编辑器我们将使用 ckeditor 它允许在不安装在服务器上的情况下使用它确定您想要使用富文本编辑器的字段 Create html 网络资源
如何在同一时间 shell 中读取两个文件

我有两个文件 A john 1 2 3 4 5 6 7 Ely 10 9 9 9 9 9 9 Maria 3 5 7 9 2 1 4 Rox 10 10 10 10 10 10 10 B john 7 5 Ely 4 5 Maria 3 7
对 top_hits 聚合求和

简而言之问题是如果我对每个存储桶的 top hits 进行聚合如何对结果结构中的特定值求和 Details 我有许多记录其中包含每个商店的一定数量我想获得每个商店所有最新记录的总和为了获取每个商店的最新记录我创建了以下聚合 l

对 top_hits 聚合求和

对 top_hits 聚合求和 的相关文章

随机推荐

热门标签

对 top_hits 聚合求和的相关文章