java中实现es count distinct

2023-11-14

需求

说一下最近项目中碰到的一个es方面的需求:在一个字段columnB里面,获取特定值0的总数据量,
然后在这些数据里面,再做另一个字段columnA的去重并得到该字段值的集合

方案

两种方案写成sql类似如下:

  1. 两次es查询:SELECT COUNT(columnA) from es where columnB = 0;
    SELECT DISTINCT columnA from es where columnB = 0;
  2. 一次es查询:SELECT columnA, COUNT(columnA) from es where columnB = 0 group by columnA,然后在代码中对COUNT(columnA)进行sum;

说实话,最初lz对es的聚合方法是不太熟悉的,只能借鉴前人的经验(Google、百度)去快速了解详情,于是有了以下:
cardinality:先去重再求和,显然不符合需求;
terms:group by,可以嵌套aggs进行stats统计;
stats:一次性获取count max min avg sum 5个值;
Extended stats:比stats多4个统计结果: 平方和、方差、标准差、平均值加/减两个标准差的区间。

可惜时间比较仓促,花了一两天时间也没有摸索出一次es查询相应的Java代码,所以按照两次查询(1.2+2.2)去实现的(幸好是es,查询速度不慢)
1.想要分组、或者说distict并count,有两种方法:
1.1 AggregationBuilders.terms方法(初看高精尖,类似于sql里的group by),配合以下使用获取count;
Terms.Bucket bucket = searchResponse.getAggregations().get(“自定义名字1”).getBucketByKey(0);
long count = bucket.getAggregations().get(“自定义名称2”).getCount();
1.2 QueryBuilders.matchPhraseQuery方法(不分词匹配,初看比较low,因为lz用过太多次)配合以下使用获取count;
long count = searchResponse.getHits().getHits().length

2.想要去重并得到字段值的集合,也有两种方法:top_hits(默认size<100)聚合和collapse(默认size<10000)
2.1 AggregationBuilders.terms(…).subAggregation(AggregationBuilders.topHits(…));
searchSourceBuilder.aggregation(aggregation);
—弊端:1.topHits中的字段都会被拿出来,并没有去重,如果总数据量很大,这样的结果是灾难性的;2.默认可以取出的数量100,可能将来达不到项目需求
2.2 CollapseBuilder collapseBuilder = new CollapseBuilder(字段名 + “.keyword”);// .keyword只针对"type": "keyword"的字段
searchSourceBuilder.collapse(collapseBuilder);
—弊端:1.只能跟第二种分组方法配合,并且要两次搜索(先count后DISTINCT);2.默认可以取出的数量10000应该能达到项目目前的需求

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

java中实现es count distinct 的相关文章

随机推荐

  • 光功率和光衰的单位_太阳能照明的功率、流明与照度的计算方法

    今天小编来给大家聊一聊太阳能照明应用中的一些实际问题 我们经常会收到这样的问题 我的院子100个平方 要选多大功率的太阳能灯 分别要多少个才够亮 本公司印度某地工程项目 这里有一个比较简单的估算公式推荐给大家 首先我们确定自已想要达到一个什
  • python怎么装_python如何安装pickle

    pickle是python语言的一个标准模块 安装python后已包含pickle库 不需要单独再安装 pickle模块实现了基本的数据序列化和反序列化 推荐学习 Python视频教程 通过pickle模块的序列化操作我们能够将程序中运行的
  • 大数据毕设项目 大数据实时疫情数据可视化系统 - flask python

    文章目录 1 课题背景 2 数据库设计实现 3 实现效果 4 Flask框架 5 爬虫 6 Ajax技术 7 Echarts 8 最后 1 前言 这两年开始毕业设计和毕业答辩的要求和难度不断提升 传统的毕设题目缺少创新和亮点 往往达不到毕业
  • 使用pytorch版faster-rcnn训练自己数据集

    使用pytorch版faster rcnn训练自己数据集 引言 faster rcnn pytorch代码下载 训练自己数据集 接下来工作 参考文献 引言 最近在复现目标检测代码 师兄强烈推荐FPN 但本文只针对Faster RCNN 大家
  • 小程序swiper动态数据不显示

    情景一 swiper的current不在第一页了 导致第一页的数据看不到 处理方法 在请求数据的时候重置current为0 即
  • C语言printf和scanf函数

    最近在敲c语言例子的时候 对于很多小知识点不清楚 这里主要根据例子来总结一下 一 printf函数 1 printf是格式输出函数 它的作用是想终端输出若干个任意类型的数据 一般格式如下 printf 格式控制 输出表列 例如 printf
  • (Java 基础知识) Java线程池

    ExecutorService 建立多线程的步骤 1 定义线程类 class Handler implements Runnable 2 建立ExecutorService线程池 ExecutorService executorServic
  • 配置logback 不打印日志

    今天尝试下logback 做测试
  • 【C++】 Qt-事件(下)(事件过滤、自定义事件)

    文章目录 事件过滤 自定义事件 事件过滤 event 函数是一个protected的函数 这意味着我们要想重写event 必须继承一个已有的组件类 重写其event 函数 event 函数的确有一定的控制 不过有时候我的需求更严格一些 我希
  • DB2数据库跨实例恢复

    DB2数据库也可以和Oracle一样 进行异机或跨实例进行备份集的恢复 原理与Oracle有几分类似 但DB2对表空间的处理有点特殊 分自动管理的表空间和非自动管理的表空间 经过测试 大致恢复过程如下 首先在线备份原数据库 包含原数据库的日
  • Windows 10 安装python到U盘并设计自动添加环境变量脚本

    1 在python官网正常下载python安装包 2 U盘插到电脑上 安装到U盘的版本如果和电脑上的完全相同 则需要暂时屏蔽python环境变量 未实验 我选择的是在U盘中安装的32位的python3 7 9 笔记本电脑上安装的是64位的p
  • 在qt项目中使用外部第三方字体库字体

    文章目录 一 第三方字体库字体 二 使用方法 1 直接代码添加 2 使用QSS进行添加 一 第三方字体库字体 在项目开发中 有时候我们可能会由于某些原因会用到qt所提供的字体库之外的字体 这个时候就不可以直接设置字体了 需要做一些操作才行
  • 转:在线HTML编辑器 CKEditor4 下载及使用说明。

    转 在线HTML编辑器 CKEditor4 下载及使用说明 这里是CKEditor4最新版本 演示实例 其它实例请下载后可查看源码 CKEditor4是FCKeditor之后重新开发的版本 是一款专门使用在网页上属于开放源代码的所见即所得文
  • 3.6设计模式————迪米特法则——面向对象设计原则

    迪米特法则的定义 迪米特法则 Law of Demeter LoD 又叫作最少知识原则 Least Knowledge Principle LKP 产生于 1987 年美国东北大学 Northeastern University 的一个名为
  • Postgresql:删除及查询字段中包含单引号的数据

    Postgresql 删除及查询字段中包含单引号的数据 1 假设pg表t info的属性att 值为固定的 test 2 假设值为不固定的 abcde 参考 1 假设pg表t info的属性att 值为固定的 test 删除可以用 用 转义
  • Java常用类(二):StringUtils类

    目录 1 什么是StringUtils类 2 StringUtils类的常用方法 2 1 isEmpty String str 2 2 isNotEmpty String str 2 3 isBlank String str 2 4 isN
  • C/C++库函数(tolower/toupper)实现字母的大小写转换

    C C 库函数 tolower toupper 实现字母的大小写转换 本文将介绍库函数实现字母的大小写转换 常用到的是在ctype h C 中是cctype 库文件下定义的函数方法 首先来看一下C下tolower toupper函数实现原型
  • latex:圆周率如何表示

    2019独角兽企业重金招聘Python工程师标准 gt gt gt pi 转载于 https my oschina net letiantian blog 316387
  • Python常见排序之冒泡排序(详解)

    一 为啥叫冒泡排序呢 因为越小的元素会经由交换慢慢 浮 到数列的顶端 升序或降序排列 就如同碳酸饮料中co2的气泡最终会上浮到顶端一样 故名 冒泡排序 二 排序思路 1 相邻元素之间的比较 如果第一个元素比第二个元素大 则他们两个进行交换
  • java中实现es count distinct

    需求 说一下最近项目中碰到的一个es方面的需求 在一个字段columnB里面 获取特定值0的总数据量 然后在这些数据里面 再做另一个字段columnA的去重并得到该字段值的集合 方案 两种方案写成sql类似如下 两次es查询 SELECT