Elasticsearch - 每个文档的匹配数

2024-03-05

我使用此查询来搜索字段中出现的短语。

"query": {
    "match_phrase": {
       "content": "my test phrase"
  }
 }

我需要计算每个文档的每个短语发生了多少次匹配（如果这可能的话？）

我考虑过聚合器，但认为它们不满足要求，因为它们会给我整个索引而不是每个文档的匹配数。

Thanks.

这可以通过使用来实现脚本字段 https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-script-fields.html /painless script.

您可以计算每个字段的出现次数并将其添加到文档中。

Example:

## Here's my test index with some sample values

POST t1/doc/1  <-- this has one occurence
{
  "content" : "my test phrase"
}

POST t1/doc/2    <-- this document has 5 occurences
{
   "content": "my test phrase ",
   "content1" : "this is my test phrase 1",
   "content2" : "this is my test phrase 2",
   "content3" : "this is my test phrase 3",
   "content4" : "this is my test phrase 4"

}

POST t1/doc/3
{
  "content" : "my test new phrase"
}

现在使用脚本我可以计算每个字段的短语匹配数。我对每个字段计数一次，但您可以修改脚本以每个字段进行多次匹配。

显然，这里的缺点是您需要提及脚本中文档中的每个字段，除非有一种方法可以循环我不知道的文档字段。

POST t1/_search
{
  "script_fields": {
    "phrase_Count": {
      "script": {
        "lang": "painless",
        "source": """
                             int count = 0;

                            if(doc['content.keyword'].size() > 0 && doc['content.keyword'].value.indexOf(params.phrase)!=-1) count++;
                            if(doc['content1.keyword'].size() > 0 && doc['content1.keyword'].value.indexOf(params.phrase)!=-1) count++;
                            if(doc['content2.keyword'].size() > 0 && doc['content2.keyword'].value.indexOf(params.phrase)!=-1) count++;
                            if(doc['content3.keyword'].size() > 0 && doc['content3.keyword'].value.indexOf(params.phrase)!=-1) count++;
                            if(doc['content4.keyword'].size() > 0 && doc['content4.keyword'].value.indexOf(params.phrase)!=-1) count++;

                            return count;
""",
        "params": {
          "phrase": "my test phrase"
        }
      }
    }
  }
}

这将为我提供每个文档的短语计数作为脚本字段

{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 3,
    "max_score" : 1.0,
    "hits" : [
      {
        "_index" : "t1",
        "_type" : "doc",
        "_id" : "2",
        "_score" : 1.0,
        "fields" : {
          "phrase_Count" : [
            5                 <--- count of occurrences of the phrase in the document
          ]
        }
      },
      {
        "_index" : "t1",
        "_type" : "doc",
        "_id" : "1",
        "_score" : 1.0,
        "fields" : {
          "phrase_Count" : [
            1
          ]
        }
      },
      {
        "_index" : "t1",
        "_type" : "doc",
        "_id" : "3",
        "_score" : 1.0,
        "fields" : {
          "phrase_Count" : [
            0
          ]
        }
      }
    ]
  }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

Elasticsearch - 每个文档的匹配数的相关文章

Elasticsearch - 合并多个文档中的字段

假设我有一堆这样的文档 foo 1 2 3 foo 3 4 5 对于针对这些文档运行的查询我正在寻找一种方法来返回所有值的数组foo 最好是唯一的值但重复也可以 foo 1 2 3 3 4 5 我研究了聚合 API 但我不知道如何实现这
如何在 Java 或 Python 中使用文件系统缓存？

A 最近关于 Elasticsearch 的博客文章 http www elasticsearch org blog elasticsearch 1 4 0 beta released 网站正在谈论他们新的 1 4 beta 版本的功能我
为什么路由不能与 ElasticSearch Bulk API 一起使用？

我正在向 ElasticSearch 设置批量请求并指定要路由到的分片但是当我运行它时文档会被发送到不同的分片这是 ElasticSearch 批量中的错误吗当我只索引单个文档时它就有效当我搜索时它有效但当我进行批量导入时则不然
Elasticsearch 中 -1 refresh_interval 到底是什么意思？

我读了很多关于 Elasticsearch 中索引刷新的文章我理解大于 0 的不同间隔的含义这是连续段刷新之间经过的时间使它们可用于搜索但是我不确定什么refresh interval 1确实如此根据我的理解这是禁用自动索引刷
Elasticsearch：在关闭数据节点之前撤出所有数据？

有没有办法告诉节点删除其所有数据将其分散回其他节点以便我可以将其关闭并且在其关闭后不处理重新平衡重新复制如果每个分片有 2 个副本并且删除了一个节点则某些分片现在只有 1 个实时副本必须重新复制如果可以的话我宁愿在任何一
在弹性中映射 geo_point 字段数组

我想将一些 JSON 持久保存到 elastic search 中看起来有点像这样 name value points lat 0 0 lon 0 0 lat 1 0 lon 1 0 点是弹性中 geo point 类型的列表因为它们是
Elasticsearch - 如何获取文档的流行词列表

我有一个临时索引其中包含我需要审核的文档我想按这些文档包含的单词对它们进行分组例如我有这些文件 1 aaa bbb ccc ddd eee fff 2 bbb mmm aaa fff xxx 3 hhhh aaa fff 所以我想
spring-data-elasticsearch 在多个索引上搜索

我的页面上有一个搜索字段该搜索字段应该搜索多个索引我可以毫无问题地搜索一个索引如 spring data elasticsearch 文档中所述但是如果我搜索例如 Foo 我希望得到以下列表作为按相关性排序的结果 title F
ElasticSearch Nest BulkAll 在收到无法从 _bulk 重试的失败后停止

Using BulkAll 批量插入时我收到这个奇怪的错误 BulkAll halted after receiving failures that can not be retried from bulk 但是当我检查异常时我仍然得到
如何将Spring boot日志直接摄取到elastic中

我正在研究将 Spring Boot 应用程序日志直接发送到 Elastic Search 的可行性不使用 filebeats 或logstash 我相信 Ingest 插件可能会对此有所帮助我最初的想法是使用 TCP 上的 logba
删除Elasticsearch中类型的文档

我想使用 HTTP REST api 删除 Elasticsearch 中某一类型中索引的所有文档但我不想删除该类型的映射如何在 URL 中构建查询来执行此操作执行命令前索引映射状态截图取自elasticsearch头插件网络界
范围过滤器不适用于“gt”运算符，但适用于“lt”

我正在使用弹性搜索来索引我的文档并希望根据特定属性过滤文档这是我的代码 filter push range audience ethnicity asian gt 50 它不适用于 gt 运算符发回不一致的结果但适用于 lt 运算符
elasticsearch中@timestamp和timestamp字段的区别

当我使用日志存储向弹性搜索记录一些请求时它将 timestamp 字段作为时间当我使用 NEST 记录这些请求并设置时间戳字段时它会放置时间戳字段当我使用 kibana 查看数据时这两个字段具有单独的名称他们之间有什么区别 ti
Elasticsearch 中的分析器有什么用？

我在理解弹性搜索分析器时遇到一些问题它的用途是什么以及如何使用它 From 本文 https www elastic co blog found text analysis part 1 有来自源文本的分词器和分词过滤器我是否无法理解来
如何在 Elasticsearch 中同时按父字段和嵌套字段排序？

我需要同时按父字段和嵌套字段在 Elasticsearch 中排序我的数据是这样的 id 1 rank 8 price 12 45 offers id 777 rank 12 price 45 75 id 2 rank 35 price
ElasticSearch：对聚合键进行排序，不区分大小写，并保持键的大小写

我想从汽车中获得不同的制造值并且制造值应该不区分大小写地按升序排序我使用的是elasticsearch版本2 4 4 颜色和制作字段的映射 color type string fields keyword type string ind
使elasticsearch中的所有对象嵌套对象

是否可以让elasticsearch中的所有嵌套对象自动映射到默认嵌套的类型而不是对象是的您可以使用以下方法来做到这一点动态模板 https www elastic co guide en elasticsearch referenc
分割多重多边形

我可以直接取出零件并把它们取出来作为它们自己的功能吗或者这会涉及更复杂的东西吗我正在尝试将其中一张地图拆分为较小的部分以对它们进行索引 https github com simonepri geo maps https github c
分面搜索的后过滤器和全局聚合之间有什么区别？

搜索界面中的一个常见问题是您想要返回结果的选择但可能想返回有关所有文档的信息例如我想查看所有红色衬衫但想知道什么其他颜色可供选择这有时被称为多面结果或者多面导航这Elasticsearch 参考中的示例 https ww
LogStash 无法从许可证中检索许可证信息。响应代码“401”通过 URL“http://elasticsearch:9200/_xpack”联系 Elasticsearch

我正在努力让 Docker LogStash 连接到 Docker ElasticSearch 并启用 xpack 安全性主要日志有 logstash 1 2020 05 20T22 41 03 950 WARN deprecation

随机推荐

C++ 中的记忆函子包装器

这是我为函数编写的通用记忆包装器它利用元组哈希 https stackoverflow com questions 7110301 generic hash for tuples in unordered map unordered se
HTTP 请求“...”中发现的 MAC 签名与任何计算出的签名不同

我在 Postman 中发送以下请求以从此 URL 的 Azure Blob 存储检索简单的 jpghttps steamo blob core windows net testcontainer dog jpg https steamo
将 iQueryable 转换为 IEnumerable

我下面的代码有什么问题即使数据库中存在匹配的记录它也不会返回任何项目如果错了我该如何转换我的IQueryable to IEnumerable public IEnumerable
将 Excel 流附加到 swiftmailer 消息中？

我正在尝试在 SwiftMailer 消息中附加 Excel 文件诀窍是我不想保存 Excel 文件然后附加它然后删除它而是我只想生成 Excel 并将其附加到消息中该函数允许附加一个OutputByteStream Creat
D3：更改轴标签的字体大小

我想为使用 D3 创建的时间轴标签指定字体大小我试过以下这个答案 https stackoverflow com a 19681335 5522601 with 这把小提琴 https jsfiddle net speedymcs o16
MongoDB - 命令失败，错误代码 13“未经 ***** 授权执行此命令”

因此由于某些奇怪的原因我的用户无权在 krimson 数据库中写入任何内容数据库连接成功但授予用户写入数据库的访问权限未按预期工作完全错误 Caused by com mongodb MongoCommandException C
有人可以提供使用 boost iostreams 查找、读取和写入 >4GB 文件的示例吗

我读到 boost iostreams 据说支持 64 位半便携式方式访问大文件他们的常见问题解答提到64 位偏移函数 http www boost org doc libs 1 39 0 libs iostreams doc faq h
为什么@AutoValue注解使用特定的整数1000003来计算哈希码？

Java 哈希码生成代码在计算中经常使用素数这样做有充分的理由如中所述为什么在 hashCode 中使用质数 https stackoverflow com questions 3613102 why use a prime numbe
JavaScript 中触发选项卡按键事件？

我正在尝试在 JavaScript 中模拟实际的 Tab 键按下我不想关注下一个元素或类似的东西我只是想让它看起来像 Tab 键已被按下原因是因为我正在构建一个表单 JavaScript 类我希望能够像 Tab 一样使用 Enter
“没有实例”错误

以下是一个例子http en wikibooks org wiki Haskell Beginning http en wikibooks org wiki Haskell Beginning Prelude gt let abs x if
jquery datepicker年份范围默认值

JQuery 有一点问题datePicker 我怀疑这只是我忽略或错误的设置问题如果你看这个简单的小提琴 JSFiddle http jsfiddle net w9fwL 2 您会看到我已经设置了年份范围因此默认情况下当您单击输入时
使用 python 脚本在同一选项卡中打开 HTML 文件

我正在尝试使用 python 脚本打开 HTML 页面使用以下脚本文件将在新的浏览器选项卡中打开我应该如何使其在同一选项卡中打开 import webbrowser import os import urllib chrome pat
有没有办法向管理员用户显示 Django 调试堆栈跟踪页面，即使设置中 DEBUG=False 也是如此？

场景我宁愿非技术同事直接通过电子邮件向我发送错误而不是通过 SSH 进入盒子来检索堆栈跟踪 Django 有没有办法或钩子来做这样的事情例如 def 500 error happened request psuedocode gt l
如何使用 pd.Grouper 按月对日期进行分组？

我搜索了 stackoverflow 以了解如何按月对 DateTime 进行分组由于某种原因即使在我传递数据帧之后我仍然收到此错误pd to datetime 类型错误仅对 DatetimeIndex TimedeltaIndex
Django 会话过期？

从 django 的文档中我的印象是调用 request session set expiry 300 从一种观点来看会导致会话在五分钟后过期不活动但是这不是我在 django trunk 中遇到的行为如果我从一个视图调用此方法
如何配置 ckeditor 不将内容换行到
块中？

我在用ckeditor http ckeditor com 在我的网站上让用户更容易输入 HTML 但是我从 ckeditor 返回的数据包含在 p p 块这是我不想要的是否有一些配置设置强制编辑器不将文本换行将以下内容添加到您的
GridLayout（不是GridView）如何均匀拉伸所有子项

我想要一个 2x2 的网格里面有一个按钮这只是 ICS 所以我尝试使用给出的新 GridLayout 这是我的布局的 XML
从 RxJS Observable 中过滤未定义的内容

是否有特定的习惯用法或实用程序用于过滤undefined从 RxJS 可观察到的这段代码具有我想要的行为 obs pipe filter x gt x undefined 一些替代方案是 obs pipe filter x gt x fo
脚本的布尔参数

在 Python 中我了解如何将 int 和 str 参数添加到脚本中 parser argparse ArgumentParser description Mydescription parser add argument l type
Elasticsearch - 每个文档的匹配数

我使用此查询来搜索字段中出现的短语 query match phrase content my test phrase 我需要计算每个文档的每个短语发生了多少次匹配如果这可能的话我考虑过聚合器但认为它们不满足要求因为它们会给我整个索

Elasticsearch - 每个文档的匹配数

Elasticsearch - 每个文档的匹配数 的相关文章

随机推荐

热门标签

Elasticsearch - 每个文档的匹配数的相关文章