ElasticSearch如何查询最长的任务

2024-01-09

我在 Elastic Search 中有以下格式的数据：

POST slots/slot/1
{
    taskId:1,
    datetime: "2020-05-10T08:45:44",
    status: "START",
}

POST slots/slot/2
{
    taskId:1,
    datetime: "2020-05-10T08:49:54",
    status: "STOP",
}
...

并想要找到一种方法如何检索前 3 个运行时间最长的任务（这意味着任务，同时存在 START 和 STOP json 对象，并且其 START/STOP 时间之间的差异是最长的） - 我想检索 taskId 和 runningTime （ = 任务运行了多长时间）。

在 ElasticSearch 中可以实现这个任务吗？ ElasticSearch 适合此类任务吗？

请宽容一点，我对 ElasticSearch 技术还很陌生。

这个很棘手。我们假设你有恰恰每个 2 个文档unique taskId，其中之一将是START和另一个STOP。在这种情况下，我们可以执行以下操作：

GET slots/_search
{
  "size": 0,
  "aggs": {
    "by_ids": {
      "terms": {
        "field": "taskId",
        "size": 10000,
        "min_doc_count": 2
      },
      "aggs": {
        "start_bucket": {
          "filter": {
            "term": {
              "status.keyword": "START"
            }
          },
          "aggs": {
            "datetime_term": {
              "max": {
                "field": "datetime"
              }
            }
          }
        },
        "stop_bucket": {
          "filter": {
            "term": {
              "status.keyword": "STOP"
            }
          },
          "aggs": {
            "datetime_term": {
              "max": {
                "field": "datetime"
              }
            }
          }
        },
        "diff_in_millis": {
          "bucket_script": {
            "buckets_path": {
              "start": "start_bucket.datetime_term",
              "stop": "stop_bucket.datetime_term"
            },
            "script": "return params.stop - params.start"
          }
        },
        "final_sort": {
          "bucket_sort": {
            "sort": [
              {
                "diff_in_millis": {
                  "order": "desc"
                }
              }
            ],
            "size": 3
          }
        }
      }
    }
  }
}

As per 这次讨论 https://github.com/elastic/elasticsearch/issues/32153,

需要注意的是，这会对最终的存储桶列表进行排序。因此，如果某个术语不在列表中，则不会对其进行排序。这与对术语 agg 本身进行排序相反，后者会更改列表的内容。

换句话说，我们需要设置顶层size任意高，这样我们所有的taskIDs得到聚合。和/或使用仅 2020 年或上个月等的日期过滤器来预过滤上下文，这样我们就可以减少覆盖范围并节省一些 CPU 关键时间。

如果一切顺利并且你的status has a .keyword字段（更多关于此here https://www.elastic.co/blog/strings-are-dead-long-live-strings）我们可以进行过滤，您最终会得到您需要的所有信息：

{
  ...
  "aggregations":{
    "by_ids":{
      "doc_count_error_upper_bound":0,
      "sum_other_doc_count":0,
      "buckets":[
        {
          "key":2,            <-- taskID (this one was added by myself)
          "doc_count":2,
          "start_bucket":{
            ...
          },
          "stop_bucket":{
            ...
          },
          "diff_in_millis":{
            "value":3850000.0        <-- duration in millis
          }
        },
        {
          "key":1,                  <-- task from the question
          "doc_count":2,
          "start_bucket":{
            ...
          },
          "stop_bucket":{
           ...
          },
          "diff_in_millis":{
            "value":250000.0        <-- duration in millis
          }
        }
      ]
    }
  }
}

编辑/更正：

"min_doc_count": 2是需要的，因为我们只对实际完成的任务感兴趣。如果您想包括那些已运行但尚未完成的任务，请创建另一个赏金任务；）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

ElasticSearch如何查询最长的任务的相关文章

如何使用elasticsearch进行分页？来自 vs 滚动 API

我使用elasticsearch作为数据库来存储大量日志数据我知道有两种方法可以进行分页使用大小并来自 API 使用滚动API 现在我使用 from 进行分页从前端和后端获取页面和大小参数 Java searchSourceBuild
如何将2个匹配查询加入到elasticsearch的查询中？

我想查询以下数据user id is 1 and name is John 写一个常用的SQL很容易 select from t where user id 1 and name John 但对我来说进行elasticsearch的查询并不
ElasticSearch 多滚动 Java API

我想从索引中获取所有数据由于项目数量对于内存来说太大我使用滚动很好的功能 client prepareSearch index setTypes myType setSearchType SearchType SCAN setScro
如何在不更改设置的情况下不区分大小写排序

我的索引名称是 data new 下面是插入索引的代码 test id 1 name A professor Bill Cage accounting id 2 name AB professor Gregg Payne engineeri
我们可以同时使用拼音标记和同义词吗？

我正在尝试同时启用语音分析器和同义词这似乎不起作用它们一起使用有错吗在下面的实现中我希望使用同义词转换搜索查询然后使用语音分析器来检索结果但我的同义词在这里完全被忽略了如果我在创建索引时删除语音分析器那么同义词就可以正常工作
search_after 在弹性搜索中如何工作？

我一直在尝试在我们的应用程序中使用 Elasticsearch 但分页限制为 10k 对我们来说实际上是一个问题并且由于必须超时问题滚动 API 也不是推荐的选择我发现 Elasticsearch 有一个叫做 search after
ElasticSearch 映射对分组文档进行折叠/执行操作的结果

有一个对话列表每个对话都有一个消息列表每条消息都有不同的字段和action场地我们需要考虑到在对话的第一条消息中使用了动作A 在几条消息之后有使用的动作A 1过了一会儿A 1 1等等有一个聊天机器人意图列表对对话的消息操作进行分组
NEST 1.0：请参阅 Fiddler 上的请求

我刚刚更新到 NEST 1 0 我在远程服务器不是本地主机上有 Elastic Search 通常我在使用 Fiddler 发送和接收请求时没有任何问题更新后 bammm 没有检测到任何请求但我的应用程序发出这些请求没有任何问题你
Elasticsearch Nest 通配符查询（带空格）

简洁版本我想使用 Nest 编写一个弹性搜索查询来获取完整的索引项 ContentIndexables在我的例子中作为我的自定义类型已被索引该查询受 some string 术语查询的约束即 String StartsWith 其中
如何使用scala获取elasticsearch中_delete_by_query api的状态

我正在 scala 中向 elasticsearch 发送 HTTP post Http s http elkIp 5051 indexName delete by query postData s query terms zip id k
设置 verify_certs=False 但 elasticsearch.Elasticsearch 因证书验证失败而引发 SSL 错误

self host KibanaProxy 自我端口 443 self user 测试 self password 测试我需要禁止证书验证使用选项时它与curl一起使用 k在命令行上但是在使用 Elasticsearch pytho
适用于elasticsearch 7.0.1 和 kibana 7.0.1 的 docker-compose.yml

我在 Windows 10 上将 Docker Desktop 与 Linux 容器结合使用并希望通过 docker compose 文件启动最新版本的 elasticsearch 和 kibana 容器使用 6 2 4 等旧版本时一切
Elasticsearch：预期的字段名称，但得到了 START_OBJECT

我一直在尝试运行以下查询但每次运行时都会收到以下错误 nested ElasticsearchParseException Expected field name but got START OBJECT field value fact
Elasticsearch 通过搜索返回拼音标记

我用语音分析插件 https www elastic co guide en elasticsearch plugins current analysis phonetic html由于语音转换从弹性搜索中进行一些字符串匹配我的问题是
我可以在 ids 过滤器或一般查询子句中指定的值数量的最大限制？

在elasticsearch中指定可以执行匹配的值数量的最大限制是多少我在某处读到它是 1024 但也是可配置的真的吗它如何影响性能 curl XPOST localhost 9200 my index search pretty d
用于全文搜索和 2 亿多条记录的数据库

我即将创建一个包含至少 2 亿个条目的庞大数据库数据库需要可使用全文进行搜索并且速度应该很快我的数据库从许多不同的数据源获取数据我需要定期导入新的或更新的数据将我的所有数据存储在像 mysql 这样的关系数据库中然后创建一个 n
如何在 Spring Boot 上针对 Openshift（基于云的 Kubernetes）部署的 Elasticsearch 实施带有自签名证书的 SSL

有谁知道如何在 Spring Boot 应用程序上使用 SSL 与以 https 形式部署在 Openshift 上的 ElasticSearch 连接我的 Spring Boot 应用程序中有一个 config java 如下所示 Co
在 ElasticSearch 中，我应该对单独但相关的实体使用多个索引吗？

添加索引的开销有详细记录但我无法找到有关何时针对要建立索引的各种文档类型使用多个索引的良好信息这是一个说明问题的通用示例假设我们有以下实体产品名称产品 ID 产品类别 ID 商店列表产品类别名称 ProductCategor
脚本参数不支持 ElasticSearch v7.3 更新脚本中的 START_ARRAY 类型的值

我正在尝试更新索引文档但通过 Postman 更新 API 脚本时出现以下错误 error root cause type x content parse exception reason 5 15 script params doesn
NEST 搜索整个文档 C# Elasticsearch

我想使用 Nest 在 Elasticsearch 中查询超过一百万个文档我的代码 var response client Search

随机推荐

从 AsyncTask 检索对象值

我正在创建异步任务检索字符串数据 View OnClickListener btnClk new View OnClickListener Override public void onClick View v if btnGetData
创建大于 23k x 23k 的巨大高分辨率位图

我想创建一个巨大的分辨率位图图像以便将其加载到内存中并根据用户手势进行转换我注意到限制为new Bitmap int32 int32 大约是 23000 但我需要 1159480 x 45920 位深度为 32 有人可以帮助我吗或者这
如何在 tkinter 中取消选择 ttk.Treeview 中的行

一旦我点击进入ttk Treeview 并选择一行我可以单击另一行但我无法UNSELECT所有行中始终至少会选择 1 行有没有一种聪明的方法可以取消选择最后选定的行更改我使用的变量名称treeview ttk Treeview 并
Docker API 无法应用 json 过滤器

根据https docs docker com engine reference api docker remote api v1 24 list tasks https docs docker com engine reference a
Rails 5.1 API - 如何允许嵌套 JSON 对象属性的参数

关于这个主题至少有 10 个问题但没有一个问题能回答这个特定问题许多问题都与 Rails 表单相关例如this https stackoverflow com questions 32529757 how can i get stro
我只需要“身份网址”吗？ - 开放ID

我只是想知道我是否需要的只是身份 url 以便理论上将 OpenID 帐户附加到用户的帐户我的身份网址如下所示 https www google com accounts o8 id id YGnyuGHMUmhUI98nuhUMhu98
如何使用 Yarn v3 安装本地包？

我尝试使用 Yarn v3 安装本地包结果撞到了墙上这是我尝试过的所有事情 Run yarn add file hardhat packager Run yarn add hardhat packager 手动添加 hardhat pa
为什么 constexpr 上下文会使编译器失败，而它却无法完美优化？

我玩过constexpr并实现了一些有趣的行为在某些情况下添加constexpr在函数前面启用GCC尝试更加努力地优化这会导致完全优化函数并仅提供计算值然而从一个调用这样一个完全优化的函数constexprcontext 会导致错误
如何在 iOS Swift 中获取应用程序的 CFBundleURLSchemes

我制作了一个演示项目 App1 其中添加了一个按钮该按钮会将我重定向到已安装的应用程序假设 App2 fitbit 我已经阅读了很多教程并且基本上通过第二个答案了解了如何做到这一点此应用程序不允许查询方案 cydia IOS9 错误
在 ng-repeat 之后执行 jQuery 函数

在此先感谢您的帮助我正在用这个标签管理器 http welldonethings com tags manager在我的网络应用程序中 jQuery 函数在此之前工作正常
具有多个模板参数包的部分模板专业化

继续我的可变参数模板世界之旅 https stackoverflow com q 4691657 20984 我又遇到了一个问题假设有以下模板类 template lt typename T gt struct foo default i
sqoop导入多个表

我们正在使用 Cloudera CDH 4 并且能够按预期将表从 Oracle 数据库导入到我们的 HDFS 仓库中问题是我们的数据库中有数十万张表而 sqoop 一次只支持导入一张表有哪些选项可用于将多个表导入 HDFS 或 Hiv
覆盖以切换 VS CODE 上的菜单栏

我想要实现的目标如下 Disable ALT显示菜单栏toggle menu bar完全地 gt 潜在的地图ALT to a NULL action 使用不同的快捷方式toggle menu bar 有办法实现这一点吗在 Ubuntu 上
页面加载时的随机 Div 顺序 [重复]

这个问题在这里已经有答案了我有一堆 ID 为 gallerycard 的 div 我需要它们在用户每次访问页面时以随机顺序加载 div div Akulina div div N A div div div div Martina div
如何处理 Doctrine2 SELECT 查询中 DateTime 类型的默认值？

我有以下 Doctrine2 实体
Angular - 在模块定义中使用动态变量

我有一个模块带有 NgModule 我需要导入一个模块 MqttModule forRoot environment MQTT SERVICE OPTIONS 问题是我不想从环境中获取值而是从配置文件中获取值我创建了一个从配置文件加载
文本过滤器对两个字符串，但排除一些可能性

我需要对字符串应用文本过滤Mod 其次是特定的一个字符 e g H 喜欢 Mod h Mod xxx H Module x H Mod H Model xx H 等等 But 结果中包含一些不需要的单元格因为它包含字符串 Moderate
Windows 的二元决策图库

尝试获得后jinc http www jossowski de projects jinc jinc html在 Windows 下编译并很快遇到数百个编译器错误我正在寻找将为 Windows 构建的高质量 BDD 库最好是 C 或 C
Laravel 5.2 身份验证 - 如何在每个页面中显示登录用户名和注销链接？

Laravel 5 2 身份验证我使用 Laravel 5 2 创建了一个新的身份验证脚手架 php artisan make auth 一切都很完美除了即使在我在途中登录后我也会收到登录注册链接但当我在途中时它会显示带有注销链接
ElasticSearch如何查询最长的任务

我在 Elastic Search 中有以下格式的数据 POST slots slot 1 taskId 1 datetime 2020 05 10T08 45 44 status START POST slots slot 2 taskI

ElasticSearch如何查询最长的任务

ElasticSearch如何查询最长的任务 的相关文章

随机推荐

热门标签

ElasticSearch如何查询最长的任务的相关文章