Elasticsearch 中的多个分组依据

2024-01-12

我需要使用 ES 中的 3 个字段进行聚合（分组）。

我可以在 1 个查询中执行此操作，还是需要对每一列使用构面 + 迭代？

谢谢

从1.0版本开始ElasticSearch，新的聚合 API http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/search-aggregations.html允许按多个字段分组，使用子聚合。假设你想按字段分组field1, field2 and field3:

{
  "aggs": {
    "agg1": {
      "terms": {
        "field": "field1"
      },
      "aggs": {
        "agg2": {
          "terms": {
            "field": "field2"
          },
          "aggs": {
            "agg3": {
              "terms": {
                "field": "field3"
              }
            }
          }          
        }
      }
    }
  }
}

当然，这可以适用于您想要的任意多个领域。

Update:
为了完整起见，以下是上述查询的输出。下面还有用于生成聚合查询并将结果展平到字典列表中的 python 代码。

{
  "aggregations": {
    "agg1": {
      "buckets": [{
        "doc_count": <count>,
        "key": <value of field1>,
        "agg2": {
          "buckets": [{
            "doc_count": <count>,
            "key": <value of field2>,
            "agg3": {
              "buckets": [{
                "doc_count": <count>,
                "key": <value of field3>
              },
              {
                "doc_count": <count>,
                "key": <value of field3>
              }, ...
              ]
            },
            {
            "doc_count": <count>,
            "key": <value of field2>,
            "agg3": {
              "buckets": [{
                "doc_count": <count>,
                "key": <value of field3>
              },
              {
                "doc_count": <count>,
                "key": <value of field3>
              }, ...
              ]
            }, ...
          ]
        },
        {
        "doc_count": <count>,
        "key": <value of field1>,
        "agg2": {
          "buckets": [{
            "doc_count": <count>,
            "key": <value of field2>,
            "agg3": {
              "buckets": [{
                "doc_count": <count>,
                "key": <value of field3>
              },
              {
                "doc_count": <count>,
                "key": <value of field3>
              }, ...
              ]
            },
            {
            "doc_count": <count>,
            "key": <value of field2>,
            "agg3": {
              "buckets": [{
                "doc_count": <count>,
                "key": <value of field3>
              },
              {
                "doc_count": <count>,
                "key": <value of field3>
              }, ...
              ]
            }, ...
          ]
        }, ...
      ]
    }
  }
}

以下 python 代码根据给定的字段列表执行分组。我你指定include_missing=True，它还包括一些缺少某些字段的值的组合（如果您有 Elasticsearch 2.0 版本，则不需要它，这要归功于this https://github.com/elastic/elasticsearch/pull/11042)

def group_by(es, fields, include_missing):
    current_level_terms = {'terms': {'field': fields[0]}}
    agg_spec = {fields[0]: current_level_terms}

    if include_missing:
        current_level_missing = {'missing': {'field': fields[0]}}
        agg_spec[fields[0] + '_missing'] = current_level_missing

    for field in fields[1:]:
        next_level_terms = {'terms': {'field': field}}
        current_level_terms['aggs'] = {
            field: next_level_terms,
        }

        if include_missing:
            next_level_missing = {'missing': {'field': field}}
            current_level_terms['aggs'][field + '_missing'] = next_level_missing
            current_level_missing['aggs'] = {
                field: next_level_terms,
                field + '_missing': next_level_missing,
            }
            current_level_missing = next_level_missing

        current_level_terms = next_level_terms

    agg_result = es.search(body={'aggs': agg_spec})['aggregations']
    return get_docs_from_agg_result(agg_result, fields, include_missing)


def get_docs_from_agg_result(agg_result, fields, include_missing):
    current_field = fields[0]
    buckets = agg_result[current_field]['buckets']
    if include_missing:
        buckets.append(agg_result[(current_field + '_missing')])

    if len(fields) == 1:
        return [
            {
                current_field: bucket.get('key'),
                'doc_count': bucket['doc_count'],
            }
            for bucket in buckets if bucket['doc_count'] > 0
        ]

    result = []
    for bucket in buckets:
        records = get_docs_from_agg_result(bucket, fields[1:], include_missing)
        value = bucket.get('key')
        for record in records:
            record[current_field] = value
        result.extend(records)

    return result

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

nosqlaggregation

Elasticsearch 中的多个分组依据的相关文章

如何用Python为ElasticSearch创建只读客户端？

我想从 ES 读取数据但不想意外向其中写入数据无索引操作这只是一种安全措施以便以后修改查询函数的其他人不允许插入数据当你说你想要只读客户端时客户端强调您系统中的同一集群可能有其他客户端然后阻止整个索引为只读将会阻止所有客户端的
如何在弹性搜索（aws）中存储日期范围数据并搜索范围？

我正在尝试在弹性搜索中存储酒店房间可用性然后我需要搜索从某个日期到另一个日期可用的房间我想出了存储数据以确保可用性的两种方式如下这里可用性字典存储了所有日期每个日期键的值是 true 或 false 代表其可用那天与否 id
为什么我在elasticsearch中需要“store”：“yes”？

我真的不明白为什么核心类型链接 http www elasticsearch org guide reference mapping core types 它在属性描述中说例如对于数字 store 设置为 yes 将实际字段存储在索引中
按字段关联 ELK 中的消息

相关在ELK中合并日志和查询 https stackoverflow com questions 28429607 combine logs and query in elk 我们正在设置 ELK 并希望在 Kibana 4 中创建可视化
如何在弹性搜索中生成多个布尔查询的查询

我想使用 spring 框架在 elasticsearch 中动态生成多个布尔运算的查询我在elasticsearch中的数据就像 masterID
在 Elasticsearch 中对具有一个值的属性进行多个值查询

我正在尝试在这个查询的基础上进行一些构建我正在搜索的索引还有一个带有 id 的实体字段因此一些记录将具有实体 16 实体 156 等具体取决于实体的 ID 我需要以这样的方式扩展此查询以便可以传递数组或某些值列表例如 te
弹性搜索模糊匹配，精确匹配首先显示

我想在查询中使用模糊匹配但精确匹配显示在结果的顶部我已经尝试过以下方法 return this gt client gt search array index gt self INDEX type gt self TYPE body g
如何将2个匹配查询加入到elasticsearch的查询中？

我想查询以下数据user id is 1 and name is John 写一个常用的SQL很容易 select from t where user id 1 and name John 但对我来说进行elasticsearch的查询并不
局部敏感哈希 - Elasticsearch

有没有允许在 Elasticsearch 上使用 LSH 的插件如果是的话您能否指出该位置并告诉我如何使用它谢谢编辑我发现ES使用了MinHash插件我怎样才能用这个来比较文件呢查找重复项的最佳设置是什么有一个Elastic
从 App Engine 连接到 Kubernetes 引擎

我们希望使用应用程序引擎灵活的流程来更新位于 Google Kubernetes Engine 上的 ElasticSearch 索引我们需要通过 http s 地址连接到 ElasticSearch 推荐的方法是什么我们不想将集群暴露
ElasticSearch 嵌套查询 - 排除父文档

尝试排除其中子文档之一与查询不匹配的顶级文档对于下面的示例我尝试排除其嵌套作业之一具有的所有文档current true 并与company name Elastic 但由于嵌套作业文档之一与current false和公司name E
C# Elasticsearch NEST 无法转换 lambda 表达式

我遇到了与此处描述的完全相同的问题但未得到解答 ElasticSearch NEST 搜索 https stackoverflow com questions 24615676 elasticsearch nest search I us
如何在不更改设置的情况下不区分大小写排序

我的索引名称是 data new 下面是插入索引的代码 test id 1 name A professor Bill Cage accounting id 2 name AB professor Gregg Payne engineeri
在 ElasticSearch API 应用程序中找不到 NodeBuilder

我正在尝试实现 Elasticsearch API 我的系统接受 nodeBuilder 时出现错误这是代码 import org elasticsearch action index IndexResponse import org e
如何修复从 React 对 Elasticsearch 进行 API 调用时的“混合内容：”错误

我正在使用 firebase 的 elasticsearch 的 bitnami 版本我发现它只能连接到http并不是https当我使用邮递员尝试时我的create react app已部署到 firebase 我得到Mixed Con
弹性搜索 - search_after 参数

我读了这个doc https www elastic co guide en elasticsearch reference 5 0 search request search after html要理解 search after 并有两个
search_after 在弹性搜索中如何工作？

我一直在尝试在我们的应用程序中使用 Elasticsearch 但分页限制为 10k 对我们来说实际上是一个问题并且由于必须超时问题滚动 API 也不是推荐的选择我发现 Elasticsearch 有一个叫做 search after
从 node.js 创建对 AWS ES 实例的有效签名请求

我试图找到一个示例说明如何连接到 Node js 中的 AWS ES 实例然后通过一个简单的请求访问 ES 集群我正在尝试使用elasticsearch节点包 https www npmjs com package elasticse
Elasticsearch 关于“空索引”的查询

在我的应用程序中我使用了几个elasticsearch索引它们在初始状态下不包含索引文档我认为这可以称为空该文档的映射是正确且有效的该应用程序还有一个包含实体的关系数据库这些实体可能具有在 elasticsearch 中关联的
Elasticsearch Nest 通配符查询（带空格）

简洁版本我想使用 Nest 编写一个弹性搜索查询来获取完整的索引项 ContentIndexables在我的例子中作为我的自定义类型已被索引该查询受 some string 术语查询的约束即 String StartsWith 其中

随机推荐

如何在 PHP 中合并两个 JSON 字符串？

我有两个像这样的 JSON 字符串 json1 src 1 order 2 src 10 order 20 and json2 src 4 order 5 src 6 order 7 我正在尝试用它来合并它们 images array me
警告：“尝试更改冻结标题”

我们的网站 www seeing org 最近更改了其标题我们还决定增加其 Facebook 集成包括利用以下对象属性og title 但是在调试页面时我收到以下警告应修复的开放图警告尝试冻结标题改变看来您正在尝试更改属性
如何防止恶意使用我的套接字？

我正在制作一个基于玩家能够邀请其他玩家参加聚会的网页以及其他需要等待的事情我有你们队伍中聊天用户的基本发送接收更新唯一的问题是如何阻止某人坐在那里打开开发者控制台并继续 socket emit updateUsers Wein
Python 3.2 空闲与终端

在 OSX 下的 python 3 2 中如果我在 Idle 下运行 type sys stdin 我会得到一个奇怪的答案如下所示 gt gt gt type sys stdin
从 AVPlayer 中当前播放的视频中录制流音频

很多类似的问题但并不完全相同我目前的代码设置是通过 AVPlayer 播放视频我想要做的是以某种方式提取流视频的音频并最终与麦克风输入合并使用 AVAudioMixer 想想卡拉 OK 应用程序因此当用户播放录音时它将仅播放视频
Express js 中允许多个 CORS 域

如何以简化的方式允许 Express 中的 CORS 多个域 I have cors origin www one com app all function req res next res header Access Control Al
如何释放 WebAssembly 中公开的 Rust 代码分配的内存？

我有一个用 Rust 和 wasm bindgen 编写的 Web 应用程序需要存储状态状态存储如下 lazy static static ref ID TO DATA Mutex
UICollectionView PerformBatchUpdates：动画所有部分

我正在写一个自定义UICollectionViewFlowLayout我注意到initialLayoutAttributesForAppearingItemAtIndexPath and initialLayoutAttributesFor
变得致命：肮脏的存储库：有未提交的更改。使用 git ftp push 退出管道

我有一个管道设置可以自动处理构建 CSS 文件有时我在执行时会遇到此错误git ftp push 致命肮脏的存储库有未提交的更改正在退出 bitbucket pipelines yml image php 7 2 7 pipel
如何从 webviewclient 打开拨号器活动？

我正在使用 webviewclient 打开 html 页面 html 页面有一个锚标记当我单击锚标记时应该启动我的电话拨号器活动当我在外部浏览器 android 默认浏览器中单击此锚标记时它正在启动电话拨号器但因为我正在使用
在标题中使用 WordPress 短代码

我有一些短代码可以在 WordPress 帖子或页面中正常工作我可以在functions php中添加什么东西来使短代码能够在WordPress帖子标题中工作吗您可以尝试在标题中添加过滤器functions php文件如 add fil
Control.Select() 和 Control.Focus() 有什么区别？

在 WinForms 中要将焦点设置到特定控件我似乎总是最终调用Control Select and Control Focus 让它发挥作用有什么区别这是正确的方法吗 Focus 是实际设置焦点的低级函数 Select 是一个更高
更新 Snowflake 中的混合嵌套对象

我有一个雪花表其中有一个变体列 raw 该表中的每一行都是复杂的字典和数组并且是嵌套的多个层次结构我想做的是能够更新specific某个数组中的项目使用示例会更容易理解它因此将其视为表中的一行 id 1234 x id y i
最喜欢的性能调整技巧[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
RoboScript 无法在 Firebase Testlab 中单击“启用位置确定”按钮

我正在尝试在 Firebase TestLab 上使用 RoboScript 测试基于 Google 地图的 Android 应用程序默认情况下 TestLab 设备上禁用位置要启用它们我们需要模拟单击系统提示上的确定按钮但这种
为什么说TCP/IP协议族中的IP协议是无连接的？

为什么IP被称为无连接协议如果是的话那么面向连接的协议是什么 Thanks 更新 1 20 21 2010 12 26 我认为为了更好地回答我的问题最好从物理上和逻辑上解释连接的实际含义更新 2 9 59 AM 2 1 201
如何反序列化具有重复键的 JSON 而不丢失任何值？

我正在尝试反序列化一些具有重复键的 JSON 并且它们可能有任意数量 JSON 看起来像这样 abilities ability id 5134 ability level 3 ability id 5136 ability level 3
带有自定义分隔符的 Angularjs 静态数字过滤器

如何将 Angularjs 数字过滤器中的分隔符从逗号更改为自定义的分隔符 Now price number 回报1 000 00 我需要像这样1 000 00 我到底需要如何重写内置角度过滤器您不必弄乱 Angular 源代码或将语言环
Selenium Grid 支持 Selenium 2？

我读到计划在 2010 年年底为 Selenium 2 0 提供 Selenium Grid 支持显然这还没有发生有人知道这方面的任何更新吗 Selenium Grid 2 支持 Selenium 2 并向后兼容 Selenium 1
Elasticsearch 中的多个分组依据

我需要使用 ES 中的 3 个字段进行聚合分组我可以在 1 个查询中执行此操作还是需要对每一列使用构面迭代谢谢从1 0版本开始ElasticSearch 新的聚合 API http www elasticsearch org g

Elasticsearch 中的多个分组依据

Elasticsearch 中的多个分组依据 的相关文章

随机推荐

热门标签

Elasticsearch 中的多个分组依据的相关文章