分面搜索的后过滤器和全局聚合之间有什么区别？

2024-04-27

搜索界面中的一个常见问题是您想要返回结果的选择，但可能想返回有关所有文档的信息。（例如，我想查看所有红色衬衫，但想知道什么其他颜色可供选择）。

这有时被称为“多面结果”，或者 “多面导航”。这Elasticsearch 参考中的示例 https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-post-filter.html非常清楚地解释了为什么/如何，所以我用它作为这个问题的基础。

摘要/问题：看起来我可以为此使用后置过滤器或全局聚合。他们俩似乎以不同的方式提供完全相同的功能。我认为它们可能有优点或缺点没看到吗？如果是这样，我应该使用哪个？

我在下面提供了一个完整的示例，其中包含一些文档以及基于该示例的两种类型方法的查询在参考指南中。

选项 1：后置过滤器

see the Elasticsearch 参考中的示例 https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-post-filter.html

我们能做的是在我们的原始查询中获得更多结果，这样我们就可以聚合这些结果，然后过滤我们的实际结果。

这个例子解释的很清楚：

但也许您还想告诉用户有多少种其他颜色的 Gucci 衬衫。如果您仅在颜色字段上添加术语聚合，则只会返回红色，因为您的查询仅返回 Gucci 的红色衬衫。

相反，您希望在聚合过程中包含所有颜色的衬衫，然后仅将颜色过滤器应用于搜索结果。

请参阅下面的示例代码，了解其外观。

这样做的一个问题是我们无法使用缓存。这是在（5.1 尚未提供）弹性搜索指南 https://www.elastic.co/guide/en/elasticsearch/guide/master/_post_filter.html警告：

性能考虑仅当您需要差异化过滤搜索结果和聚合时才使用 post_filter。有时人们会使用 post_filter 进行常规搜索。

不要这样做！ post_filter 的本质意味着它在查询之后运行，因此过滤（例如缓存）的任何性能优势都将完全丧失。

post_filter 应该仅与聚合结合使用，并且仅在需要差分过滤时使用。

然而，还有一个不同的选择：

选项 2：全局聚合

有一种方法可以进行不受搜索查询影响的聚合。因此，我们不是得到很多，而是对其进行聚合，然后进行过滤，我们只是得到过滤后的结果，但对它们进行聚合一切。看一看在参考处 https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-global-aggregation.html

我们可以得到完全相同的结果。我没有读到任何关于缓存的警告，但看起来最后我们需要做大约相同数量的工作。所以这可能是唯一的遗漏。

由于我们需要子聚合（你不能有global and a filter于同一水平'）。

我读到的关于使用此查询的唯一抱怨是，如果您需要这样做，您可能必须重复自己对于几个项目。最后我们可以生成大多数查询，因此重复自己对于我的用例来说并不是什么问题，我并不认为这是与“无法使用缓存”同等的问题。

Question

看起来这两个功能至少有重叠，或者可能提供完全相同的功能。这让我很困惑。除此之外，我想知道其中一个是否有我没有看到的优势，以及这里是否有任何最佳实践？

Example

这很大程度上来自于后置过滤器参考页 https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-post-filter.html，但我添加了全局过滤器 https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-global-aggregation.html query.

地图和文件

PUT /shirts
{
    "mappings": {
        "item": {
            "properties": {
                "brand": { "type": "keyword"},
                "color": { "type": "keyword"},
                "model": { "type": "keyword"}
            }
        }
    }
}

PUT /shirts/item/1?refresh
{
    "brand": "gucci",
    "color": "red",
    "model": "slim"
}

PUT /shirts/item/2?refresh
{
    "brand": "gucci",
    "color": "blue",
    "model": "slim"
}


PUT /shirts/item/3?refresh
{
    "brand": "gucci",
    "color": "red",
    "model": "normal"
}


PUT /shirts/item/4?refresh
{
    "brand": "gucci",
    "color": "blue",
    "model": "wide"
}


PUT /shirts/item/5?refresh
{
    "brand": "nike",
    "color": "blue",
    "model": "wide"
}

PUT /shirts/item/6?refresh
{
    "brand": "nike",
    "color": "red",
    "model": "wide"
}

我们现在要求所有红色 gucci 衬衫（第 1 项和第 3 项），我们为这 2 件衬衫提供的衬衫类型（修身版和普通版），以及 gucci 有哪些颜色（红色和蓝色）。

首先，后置过滤器：获取所有衬衫，聚合红色 gucci 衬衫的型号和 gucci 衬衫的颜色（所有颜色），红色 gucci 衬衫的后置过滤器仅显示结果：（这与示例有点不同，因为我们尝试使其尽可能接近后置滤波器的清晰应用。）

GET /shirts/_search
{
  "aggs": {
    "colors_query": {
      "filter": {
        "term": {
          "brand": "gucci"
        }
      },
      "aggs": {
        "colors": {
          "terms": {
            "field": "color"
          }
        }
      }
    },
    "color_red": {
      "filter": {
        "bool": {
          "filter": [
            {
              "term": {
                "color": "red"
              }
            },
            {
              "term": {
                "brand": "gucci"
              }
            }
          ]
        }
      },
      "aggs": {
        "models": {
          "terms": {
            "field": "model"
          }
        }
      }
    }
  },
  "post_filter": {
    "bool": {
      "filter": [
        {
          "term": {
            "color": "red"
          }
        },
        {
          "term": {
            "brand": "gucci"
          }
        }
      ]
    }
  }
}

我们还可以获取所有红色 gucci 衬衫（我们的原始查询），然后对模型进行全局聚合（对于所有红色 gucci 衬衫）和颜色（适用于所有 gucci 衬衫）。

GET /shirts/_search
{
  "query": {
    "bool": {
      "filter": [
        { "term": { "color": "red"   }},
        { "term": { "brand": "gucci" }}
      ]
    }
  },
  "aggregations": {
    "color_red": {
      "global": {},
      "aggs": {
        "sub_color_red": {
          "filter": {
            "bool": {
              "filter": [
                { "term": { "color": "red"   }},
                { "term": { "brand": "gucci" }}
              ]
            }
          },
          "aggs": {
            "keywords": {
              "terms": {
                "field": "model"
              }
            }
          }
        }
      }
    },
    "colors": {
      "global": {},
      "aggs": {
        "sub_colors": {
          "filter": {
            "bool": {
              "filter": [
                { "term": { "brand": "gucci" }}
              ]
            }
          },
          "aggs": {
            "keywords": {
              "terms": {
                "field": "color"
              }
            }
          }
        }
      }
    }
  }
}

两者都将返回相同的信息，第二个仅因子聚合引入的额外级别而有所不同。第二个查询看起来有点复杂，但我认为这不是很有问题。现实世界的查询是由代码生成的，无论如何可能要复杂得多，它应该是一个很好的查询，如果这意味着复杂，那就这样吧。

我们使用的实际解决方案虽然不是问题的直接答案，但基本上是“两者都不是”。

From 这篇有弹性的博文 https://www.elastic.co/blog/found-optimizing-elasticsearch-searches我们得到了最初的提示：

有时，我会看到过于复杂的搜索，其目标是在尽可能少的搜索请求中执行尽可能多的操作。这些往往尽可能晚地使用过滤器，这完全与“首先过滤”中的建议相反。不要害怕使用多个搜索请求来满足您的信息需求。多搜索 API 允许您发送一批搜索请求。

不要将所有内容硬塞到单个搜索请求中。

这基本上就是我们在上面的查询中所做的：一大堆聚合和一些过滤。

事实证明，让它们并行运行要快得多。看一下多搜索API https://www.elastic.co/guide/en/elasticsearch/reference/current/search-multi-search.html#search-multi-search

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

分面搜索的后过滤器和全局聚合之间有什么区别？的相关文章

将 pandas 数据框索引到 Elasticsearch 中，无需使用 elasticsearch-py

我想将一堆大型 Pandas 数据帧大约数百万行和 50 列索引到 Elasticsearch 中在寻找如何执行此操作的示例时大多数人会使用elasticsearch py 的批量辅助方法 https elasticsearch p
如何在elasticsearch中使用冒号搜索模式？

我在 Elasticsearch 中有一个字段其值为 ft 05 08 2015 13 01 27 358 cgn 4189 当我想使用查询字符串 cgn 4189 进行搜索时我没有结果我尝试像 cgn 4189 一样转义冒号但有语
如何在弹性搜索（aws）中存储日期范围数据并搜索范围？

我正在尝试在弹性搜索中存储酒店房间可用性然后我需要搜索从某个日期到另一个日期可用的房间我想出了存储数据以确保可用性的两种方式如下这里可用性字典存储了所有日期每个日期键的值是 true 或 false 代表其可用那天与否 id
在elasticsearch中过滤facet

我有一个如下查询 query query query string query s q filter ids values list ids facets destination terms field destination en hot
在elasticsearch结果中显示不匹配的单词

我想显示返回文档的多单词查询不匹配哪些单词是否有查询类型或参数来实现此目的通常此类不匹配的单词会以删除线字体显示给用户我得到答案后的示例查询 POST posts search query bool should match nam
如何在弹性搜索中生成多个布尔查询的查询

我想使用 spring 框架在 elasticsearch 中动态生成多个布尔运算的查询我在elasticsearch中的数据就像 masterID
在 Elasticsearch 中对具有一个值的属性进行多个值查询

我正在尝试在这个查询的基础上进行一些构建我正在搜索的索引还有一个带有 id 的实体字段因此一些记录将具有实体 16 实体 156 等具体取决于实体的 ID 我需要以这样的方式扩展此查询以便可以传递数组或某些值列表例如 te
弹性搜索模糊匹配，精确匹配首先显示

我想在查询中使用模糊匹配但精确匹配显示在结果的顶部我已经尝试过以下方法 return this gt client gt search array index gt self INDEX type gt self TYPE body g
如何将2个匹配查询加入到elasticsearch的查询中？

我想查询以下数据user id is 1 and name is John 写一个常用的SQL很容易 select from t where user id 1 and name John 但对我来说进行elasticsearch的查询并不
随着索引和文档数量恒定，elasticsearch 批量索引会随着时间的推移而变慢

我遇到了使用 NET NEST 客户端和 ElasticSearch 进行批量索引的性能随着时间的推移索引数量和文档数量恒定而降低的情况我们正在奔跑ElasticSearch Version 0 19 11 JVM 23 5 b02在具
MongoDB 聚合查询与 MySQL SELECT field1 FROM 表

我对 MongoDB 完全陌生想要比较 NoSQL 数据模型相对于关系数据库对应部分的查询性能我将其写入 MongoDB shell Make 10 businesses Each business has 10 locations E
从 App Engine 连接到 Kubernetes 引擎

我们希望使用应用程序引擎灵活的流程来更新位于 Google Kubernetes Engine 上的 ElasticSearch 索引我们需要通过 http s 地址连接到 ElasticSearch 推荐的方法是什么我们不想将集群暴露
如何使用 django-haystack 和 elasticsearch 后端进行模糊搜索？

看起来好像elasticsearch支持模糊查询 http www elasticsearch org guide reference query dsl fuzzy query http www elasticsearch org gui
在 Elastic 搜索中加载示例数据集时出错

您好我正在尝试加载示例数据集参考弹性搜索文档 https www elastic co guide en elasticsearch reference current exploring your data html但是当我尝试运行指示
在弹性搜索中使用 GET/POST 时的不同结果

我正在通过 Elastic Search Head 插件尝试弹性搜索当我通过 POST 提交查询时结果符合预期但是当我使用 GET 尝试相同的查询时我总是会返回索引中的所有值那么如何通过 GET 将查询传递到弹性搜索服务器以
Nest Elastic - 构建动态嵌套查询

我必须使用 Nest 查询嵌套对象但是查询是以动态方式构建的下面的代码演示了以静态方式对嵌套书籍进行查询 QueryContainer qry qry new QueryStringQuery DefaultField name D
如何使用ElasticSearch来实现社交搜索？

我正在尝试使用 ElasticSearch 创建具有社交功能的商业搜索我有一个企业目录用户可以通过不同的方式与这些企业进行交互通过查看它们检查它们等当用户搜索商家时我希望能够在结果顶部向他们显示他们的朋友与之互动过的商家或根据
在 Elasticsearch 中删除文件后回收磁盘空间

当我从 Elasticsearch 中删除文档时为什么我的总大小保持不变尽管由于没有以前存储的数据而明显小得多我读过有关索引优化的内容但我不确定这是什么或如何做到这一点 Thanks 我确信 SO 和 Google 上都有大量与
从 node.js 创建对 AWS ES 实例的有效签名请求

我试图找到一个示例说明如何连接到 Node js 中的 AWS ES 实例然后通过一个简单的请求访问 ES 集群我正在尝试使用elasticsearch节点包 https www npmjs com package elasticse
Elasticsearch 数组必须和must_not

我的 elasticsearch 数据库中有一个如下所示的文档 tags gt tag 1 tag 2 tag 3 tag A created at gt 2013 07 02 12 42 19 UTC label gt Mon super

随机推荐

pandas 中的索引对象——为什么 pd.columns 返回索引而不是列表

来自 R 背景我发现非常高使用Indexpandas 中的对象有点令人不安例如如果train是一个pandas DataFrame 有什么特殊原因吗train columns应该返回一个Index而不是一个列表如果它是一个Ind
如何在 Android 上检测从 3g 到 H+ 的网络类型更改

通过连接管理器和广播接收器我能够获取连接和断开连接事件如下所述埃里克的帖子在这里 https stackoverflow com questions 1783117 network listener android 我想知道的是网络连接
IntelliJ IDEA 在项目 jar 中查找类

我看过一些关于通过在目录中搜索 jar 来查找类的帖子这让我认为 IntelliJ IDEA 中一定有一个工具可以做到这一点有人知道这样的工具以及如何使用它吗如果 jar 文件作为项目依赖项导入您可以键入cmd n然后搜索它
ROS中spin和rate.sleep的区别

我是 ROS 新手正在尝试了解这个强大的工具我很困惑spin and rate sleep功能谁能帮助我了解这两个功能之间的区别以及何时使用每个功能 ros spin and ros spinOnce 负责处理通信事件例如到达的消息
Java EE / Jakarta EE 支持 Java 模块系统吗？是否可以使用Java模块系统制作Web应用程序？

我正在使用 Java 11 和 Maven 3 6 1 构建我的第一个模块化应用程序我的IDE是IntellijIDEA 2019 1 3 我添加了一个模块 app 并添加module info java 但我很困惑因为即使我向应用程序
fork 和现有线程？

在linux系统上子进程查看现有线程的方式与父进程相同吗 int main create thread 1 int child pid fork if 0 child pid else 由于子进程复制了整个地址空间因此线程的状态会发生什
如何在节点中转义 shell 命令的字符串？

In nodejs http nodejs org 执行外部命令的唯一方法是通过 sys exec cmd 我想调用外部命令并通过标准输入为其提供数据在nodejs中似乎还没有一种方法可以打开命令然后将数据推送到它仅执行并接收其标准
查找游戏对象的子对象的子对象

我在场景中有一个预制件我想访问该预制件的子项该预制件的结构如下 PauseMenu UI Resume TextField TextField2 UI Side Back lt I need this child UI Home tra
如何 adb 提取 SD 卡中文件夹中的所有文件

我的 SD 卡中有一个文件夹 mnt sdcard Folder1 Folder2 Folder3 jpg 文件夹 1 和文件夹 2 的名称保持不变文件夹 2 内有文件夹 3 4 5 等我想使用 adb 将所有 jpeg 文件而不是所有
具有多个数据源的 Spring Boot + JNDI

我尝试创建一个 Spring Boot 应用程序它连接两个数据源我能够通过遵循 Spring 文档来实现这一目标但我面临的挑战是实现以下目标通过使用 Spring Boot DataSourceAutoConfiguration 通
Baqend 中的关系和 ACL

我试图弄清楚 baqend 是否可以做到这一点或者甚至是正确的方法我有很多用户使用 Baqend 附带的默认用户帐户系统其中一些用户将是公司的管理员一家公司将拥有 1 到 5 名管理员用户有一个单独的数据类其中包含公司的记录和
数据库连接未使用 jpaFlowExecutionListener 关闭

我正在使用 Spring Web Flow 来构建应用程序我正在利用Flow Managed Persistence Context因此实体管理器在流程执行期间保持打开状态我可以访问延迟加载的属性类似于OpenEntityManage
创建 QT 应用程序作为 Windows 上现有基于控制台的应用程序的 GUI

我正在尝试使用 Qt 为现有应用程序设置一个 GUI 该应用程序旨在在 Windows 命令行中运行这不仅仅是运行应用程序system 命令但我需要通过命令行与现有应用程序交互 The system 当我启动现有的可执行文件时命令会阻
sql 查询不适用于 order by

这是我原来有效的查询 Select FROM story st sentences s speaker sp WHERE st lesson id 1 AND st speaker id sp speaker id AND st sente
是否有一个排序的java集合可以处理重复项？

我需要一个行为类似于 C multimap 的集合但我还需要能够通过一系列键获取元素你可以看看谷歌收藏 http code google com p google collections 它有多种实现MultiMap
泛型和实体框架：如何根据列值返回不同的类型

我们有一个人员表其中存储不同类型的人员买方卖方代理人等我们的 ORM 是实体框架 CodeFirst CTP5 我们使用存储库模式来实现良好的 TDD 和模拟在 PersonRepository 中我想返回特定类型这样我就可
如何为 64 位 Windows 编译现有的 posix 代码？

我可以使用 Cygwin 或 MinGW 但我需要最终得到 64 位代码而不是 32 位这是因为我将从 64 位托管 C 调用 DLL 我似乎找不到关于设置这些工具来创建 64 位二进制文件的良好参考另外如果 GCC 是版本 4
将 jQuery 单击事件分配给正文中除少数 div 及其子元素之外的所有内容

当我按下页面上的 div 时会出现一个弹出窗口当您再次单击该 div 时弹出窗口就会消失当您单击 div 外部时弹出窗口就会消失到目前为止一切看起来都很好问题是当我单击弹出窗口时我希望弹出窗口及其子窗口可以单击它们是无序
在外语版本的 Excel 中从 vba 调用工作表函数

以下代码片段在英语版本的 Excel 中运行正常但是当尝试在葡萄牙语版本的 Excel 中的同一工作簿中运行此代码时会出错 Add color bars on every other row attempt to make list e
分面搜索的后过滤器和全局聚合之间有什么区别？

搜索界面中的一个常见问题是您想要返回结果的选择但可能想返回有关所有文档的信息例如我想查看所有红色衬衫但想知道什么其他颜色可供选择这有时被称为多面结果或者多面导航这Elasticsearch 参考中的示例 https ww

分面搜索的后过滤器和全局聚合之间有什么区别？

分面搜索的后过滤器和全局聚合之间有什么区别？ 的相关文章

随机推荐

热门标签

分面搜索的后过滤器和全局聚合之间有什么区别？的相关文章