Elasticsearch：从索引中删除重复项

2024-03-11

我有一个包含多个重复条目的索引。它们具有不同的 id，但其他字段具有相同的内容。

例如：

{id: 1, content: 'content1'}
{id: 2, content: 'content1'}
{id: 3, content: 'content2'}
{id: 4, content: 'content2'}

删除重复项后：

{id: 1, content: 'content1'}
{id: 3, content: 'content2'}

有没有一种方法可以删除所有重复项并仅保留一个不同的条目，而无需手动比较所有条目？

这可以通过多种方式来完成。下面我概述了两种可能的方法：

1）如果你不介意生成新的_id值并将所有文档重新索引到一个新集合中，然后您可以使用 Logstash 和指纹 https://www.elastic.co/guide/en/logstash/current/plugins-filters-fingerprint.html过滤器从您尝试去重复的字段生成唯一的指纹（哈希），并使用该指纹作为_id用于将文档写入新集合中。自从_id字段必须是唯一的，任何具有相同指纹的文档都将写入相同的指纹_id并因此进行重复数据删除。

2）您可以编写一个在索引上滚动的自定义脚本。阅读每个文档时，您可以根据您认为定义唯一文档的字段创建一个哈希（在您的情况下，content场地）。然后使用这个散列作为字典（也称为散列表）中的键。与此键关联的值将是文档的所有内容的列表_id生成相同哈希值的 s。一旦你拥有了所有的哈希值和相关的列表_ids，您可以对除其中一个之外的所有对象执行删除操作_id与每个相同的哈希相关联。请注意，第二种方法不需要将文档写入新索引来消除重复，因为您可以直接从原始索引中删除文档。

我写了一篇博客文章和代码，在以下 URL 中演示了这两种方法：https://alexmarquardt.com/2018/07/23/deduplicate-documents-in-elasticsearch/ https://alexmarquardt.com/2018/07/23/deduplicating-documents-in-elasticsearch/

免责声明：我是 Elastic 的一名咨询工程师。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

Elasticsearch：从索引中删除重复项的相关文章

elasticsearch中@timestamp和timestamp字段的区别

当我使用日志存储向弹性搜索记录一些请求时它将 timestamp 字段作为时间当我使用 NEST 记录这些请求并设置时间戳字段时它会放置时间戳字段当我使用 kibana 查看数据时这两个字段具有单独的名称他们之间有什么区别 ti
Titan 加载弹性搜索问题

我使用以下代码来加载泰坦 TitanFactory Builder config TitanFactory build config set storage backend berkeleyje config set storage dir
如何在 Elasticsearch NEST 中序列化 JToken 或 JObject 类型的属性？

我正在将 Elasticsearch 引入 C API 项目我想利用现有的 API 模型作为搜索文档其中许多模型允许添加自定义数据点这些是使用JObject https www newtonsoft com json help htm
Elasticsearch 过滤器/计算嵌套字段

我有带有嵌套字段的文档如下所示 results id 1234 name asdf id 5678 name jkl ip 1 2 3 4 嵌套字段的映射如下所示 results type nested properties id typ
Elasticsearch批量设置_id

当我使用 id 设置将文档添加到 elasticsearch 时我得到 Field id is a metadata field and cannot be added inside a document Use the index AP
Elastic Search 5.x 嵌套多个查询 C#

我将 C 与这些 nuget 包一起使用
LogStash 无法从许可证中检索许可证信息。响应代码“401”通过 URL“http://elasticsearch:9200/_xpack”联系 Elasticsearch

我正在努力让 Docker LogStash 连接到 Docker ElasticSearch 并启用 xpack 安全性主要日志有 logstash 1 2020 05 20T22 41 03 950 WARN deprecation
在 ElasticSearch 7+ 中，如何搜索所有文本字段？

我想在 Elasticsearch 7 3 中存储的文档中搜索单词我希望在以前版本的 Elasticsearch 上运行的一个示例是 query bool must match all oliver must not should fro
match_none 有什么用？

我浏览了docs https www elastic co guide en elasticsearch reference current query dsl match all query html query dsl match no
Elasticsearch 中的嵌套与对象

有人可以解释 Elasticsearch 文档中对象和嵌套字段之间的区别吗我知道默认情况下字段被定义为对象我还知道我可以用这样的点访问对象字段 my field name my field title 等对象的文档 http
如何使用elasticsearch进行分页？来自 vs 滚动 API

我使用elasticsearch作为数据库来存储大量日志数据我知道有两种方法可以进行分页使用大小并来自 API 使用滚动API 现在我使用 from 进行分页从前端和后端获取页面和大小参数 Java searchSourceBuild
在 Elastic 搜索中加载示例数据集时出错

您好我正在尝试加载示例数据集参考弹性搜索文档 https www elastic co guide en elasticsearch reference current exploring your data html但是当我尝试运行指示
C# Elasticsearch NEST 无法转换 lambda 表达式

我遇到了与此处描述的完全相同的问题但未得到解答 ElasticSearch NEST 搜索 https stackoverflow com questions 24615676 elasticsearch nest search I us
ElasticSearch 定义自定义映射与默认“_doc”映射冲突

尝试创建自定义映射类型时会发生此问题为第一个插入弹性创建自定义映射后想要创建 doc映射类型和冲突就发生在这里第一步我创建一个映射 mappings properties field1 type keyword field2 type
将 ElasticSearch SearchResponse 对象转换为 JsonObject

我想将elasticsearch搜索结果转换为Json对象我还没有找到任何直接转换的正确方法 SearchResponse response client prepareSearch index setExplain true execu
Nest Elastic - 构建动态嵌套查询

我必须使用 Nest 查询嵌套对象但是查询是以动态方式构建的下面的代码演示了以静态方式对嵌套书籍进行查询 QueryContainer qry qry new QueryStringQuery DefaultField name D
无法使用 java 8 在 Windows 10 上安装 elasticsearch 5.1.1

我正在尝试在安装了 java 8 111 的 Windows 10 笔记本电脑上安装 ElasticSearch 5 1 1 当我尝试安装 Elastic search 时触发错误 C Users 用户名 Downloads elastic
如何增加vm.max_map_count？

我正在尝试在 Ubuntu EC2 计算机 t2 medium 中运行弹性搜索但我收到消息最大虚拟内存区域 vm max map count 65530 太低至少增加到 262144 我怎样才能增加vm max map count v
ElasticSearch 映射对分组文档进行折叠/执行操作的结果

有一个对话列表每个对话都有一个消息列表每条消息都有不同的字段和action场地我们需要考虑到在对话的第一条消息中使用了动作A 在几条消息之后有使用的动作A 1过了一会儿A 1 1等等有一个聊天机器人意图列表对对话的消息操作进行分组
即使禁用安全性，OAuth 令牌 API 也无法在 Elastic Search 中工作

我是 Elastic search 新手使用 Elastic search 版本 7 7 1 我想通过以下方式生成 OAuth 令牌弹性搜索文档 https www elastic co guide en elasticsearch re

随机推荐

赋值运算符真的“只是”一个运算符吗？

我的问题是由this https stackoverflow com questions 63228851 does assignment precede logical operator in ruby 63230036 noredire
驱动程序如何成为操作系统的一部分？

我知道操作系统内核是由驱动程序组成的但是驱动程序是如何成为操作系统的一部分的是内核自己反编译然后添加驱动程序并重新编译自己吗或者驱动程序是内核的插件有人告诉我对于大多数操作系统驱动程序实际上成为内核的一部分但是每当我编译c程
pycharm看不到python3.7解释器

我在 Linux Mint 19 Tara Xfce 上使用 Pycharm Community 2018 1 4 它与 Python 3 5 解释器配合良好我安装了 Python 3 7 作为系统上默认的 Python 解释器 pyth
修改LD_LIBRARY_PATH

在 UNIX 中我正在尝试修改LD LIBRARY PATH为了使其包含一些库我无法添加到系统的常规库中我没有根权限它是大学服务器此时我已经使用了很多我在网络上找到的方法执行此操作但无法修改它我也看不到是什么PATH 我尝试过使
反转 ResourceManager

如果执行 ResourceManager GetString Key 则可以获得资源中项目的值有没有办法进行反向查找以从给定值的资源中获取密钥本质上是反翻译您应该能够获取 ResourceSet 并迭代它的值如果它们相等则返回键请
CUDA 标量和 SIMD 视频指令的效率

SIMD指令的吞吐量低于32位整数运算如果是 SM2 0 仅标量指令版本则低 2 倍如果是 SM3 0 则低 6 倍什么情况下适合使用它们如果您的数据已经以 SIMD 视频指令本机处理的格式打包则需要多个步骤对其进行解包以便可
如何让树视图重新考虑是否需要水平滚动条？

考虑以下非常简单的单元 Unit1 pas unit Unit1 interface uses Windows Classes Controls Forms ComCtrls type TForm1 class TForm TreeView
使用内部/外部传播包

我想在我的模拟中放置一个系统组件类似于Modelica Fluid System and Modelica Mechanics MultiBody World 所有其他组件都可以从中访问Medium包以便在整个流程图中仅设置一次工作
matplotlib 交互式绘图（在图表上手动绘制线条）

我已经使用 matplotlib 成功绘制了一组日期排序数据 X 轴是日期但是我希望能够manually在绘制的图表上从一个 date1 y1 到另一个 date2 y2 绘制线条我似乎找不到任何例子来说明如何做到这一点或者实际上是
如何为 Ionic 4（android / ios）应用程序创建 google pay？

我使用以下方法创建了 google pay for web URL Google 网络付费 https developers google com pay api web guides tutorial 我想为 ionic 4 应用程序创建
转换为 UCS2

Vb net 或C 中是否有任何函数可以对UCS2中的字符串进行编码 Thanks 使用以下函数以 UCS2 格式对 unicode 字符串进行编码 gt Used to encoding GSM message as UCS2 publi
Data.table：连接 ID 和日期键，但希望第一个表中的日期键之前（或等于）最接近的日期

我真的很感谢对这个问题的一些帮助我找不到足够接近的例子我有两个 data tables 第一个称为customer table 包含特定于时间戳 AsOfDate 第二个表称为activity table描述发送给该客户的营销活动Act
MonoDevelop - 转换行结束对话框

我经常在 Linux 上的 MonoDevelop 和具有相同代码库的 VS2010 之间切换因此我永远不得不单击不转换行结尾 MonoDevelop 中是否有一个选项可以设置默认答案以防止弹出此对话框找到了编辑 gt 首选项 gt
无法更改 root 帐户的密码 ansible

我有以下错误 failed true invocation module args append privs false check implicit admin true config file root my cnf connect t
Unicorn Rails - 在生产模式下启动时占用 100% CPU

我们使用 Unicorn Rails nginx 它在我的系统中的开发模式和生产模式下运行良好 4GB RAM Intel R Core TM 2 Duo CPU P8600 2 40GHz 我可以在本地系统中启动 10 个工作人员但在生
如何使用Android传感器计算旋转角度？

我正在做一个 Opengl 应用程序如果 Android 设备沿 Z 轴旋转倾斜我必须旋转相机我尝试过SensorManager getOrientation R orientVals 使用磁性和加速度传感器但数值波动很大我的设
UpgradeableApp API 不断给出“无效的 OAuth 消费者密钥”

给出以下 ruby 代码 consumer OAuth Consumer new consumer key consumer secret site https www googleapis com resp consumer reques
在python中获取方阵的上三角形或下三角形的所有元素

numpy scipy 中是否有一个函数可以返回方阵的一个三角形上或下的所有元素 e g matrix 1 2 3 4 5 6 7 8 9 三角形上下 up 1 2 3 5 6 9 down 1 4 5 7 8 9 or up 1
如何使画布文本可选择？

任何建议都将受到高度赞赏文本选择有很多组成部分有些是视觉的有些是非视觉的首先使文本可选择您必须保留一个数组其中包含文本的位置文本是什么以及使用的字体您将通过 Canvas 函数measureText 使用此信息通过使用m
Elasticsearch：从索引中删除重复项

我有一个包含多个重复条目的索引它们具有不同的 id 但其他字段具有相同的内容例如 id 1 content content1 id 2 content content1 id 3 content content2 id 4 conten

Elasticsearch：从索引中删除重复项

Elasticsearch：从索引中删除重复项 的相关文章

随机推荐

热门标签

Elasticsearch：从索引中删除重复项的相关文章