如何在mongodb中删除具有特定条件的重复项？

2023-12-01

例如，我的收藏中有以下文档：

{
    "_id" : "GuqXmAkkARqhBDqhy",
    "beatmapset_id" : "342537",
    "version" : "MX",
    "diff_approach" : "5",
    "artist" : "Yousei Teikoku",
    "title" : "Kokou no Sousei",
    "difficultyrating" : "3.5552737712860107"
}
{
    "_id" : "oHLT7KqsB7bztBGvu",
    "beatmapset_id" : "342537",
    "version" : "HD",
    "diff_approach" : "5",
    "artist" : "Yousei Teikoku",
    "title" : "Kokou no Sousei",
    "difficultyrating" : "2.7515676021575928"
}
{
    "_id" : "GbotZfrPEwW69FkGD",
    "beatmapset_id" : "342537",
    "version" : "NM",
    "diff_approach" : "5",
    "artist" : "Yousei Teikoku",
    "title" : "Kokou no Sousei",
    "difficultyrating" : "0"
}

这些文件具有相同的密钥beatmapset_id我想删除所有重复项，但保留最多的文档difficultyrating.

I tried db.collection.ensureIndex({beatmapset_id: 1}, {unique: true, dropDups: true})但它留下了一个随机文件，我想要上面的条件。

我怎样才能做到这一点？

首先您需要更新您的文件并更改difficultyrating and beatmapset_id为浮点数。为此，您需要使用循环遍历每个文档.forEach方法并更新每个文档"Bulk"操作以实现最高效率..

var bulk = db.collection.initializeOrderedBulkOp();
var count = 0;
db.collection.find().forEach(function(doc) { 
    bulk.find({ '_id': doc._id }).update({ 
        '$set': { 
            'beatmapset_id': parseFloat(doc.beatmapset_id), 
            'difficultyrating': parseFloat(doc.difficultyrating) 
        } 
    });
    count++; 
    if(count % 100 == 0) {     
        bulk.execute();     
        bulk = db.collection.initializeOrderedBulkOp(); 
    } 
})

if(count > 0) { 
    bulk.execute(); 
}

自 MongoDB 2.6 起，用于创建索引的“dropDups”语法已被“弃用”，并在 MongoDB 3.0 中被删除。这就是删除重复项的方法。

这里的主要思想是首先对文档进行排序difficultyrating按降序排列。

bulk  = db.collection.initializeUnorderedBulkOp();
count = 0;
db.collection.aggregate([
    { '$sort': { 'difficultyrating': -1 }}, 
    { '$group': { '_id': '$beatmapset_id', 'ids': { '$push': '$_id' }, 'count': { '$sum': 1 }}}, 
    { '$match': { 'count': { '$gt': 1 }}}
]).forEach(function(doc) {
    doc.ids.shift();
    bulk.find({'_id': { '$in': doc.ids }}).remove(); 
    count++; 
    if(count === 100) { 
        bulk.execute(); 
        bulk = db.collection.initializeUnorderedBulkOp();
    }
})

if(count !== 0) { 
    bulk.execute(); 
}

This answer涵盖该主题以获取更多详细信息。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MongoDB

mongodbquery

aggregationframework

如何在mongodb中删除具有特定条件的重复项？的相关文章

Java/MongoDB 按日期查询

我将一个值作为 java util Date 存储在我的集合中但是当我查询以获取两个特定日期之间的值时我最终得到的值超出了范围这是我的代码插入 BasicDBObject object new BasicDBObject objec
无法对 mongo 进行身份验证，“身份验证失败”

我使用以下说明为 mongo 创建了一个管理员用户 http docs mongodb org manual tutorial add user administrator http docs mongodb org manual tuto
减少从 MongoDB 加载大熊猫数据帧所使用的内存

我有一个大型数据集包含 4000 万条记录总大小约为 21 0G 存储在 MongoDB 中我花了几个小时将其加载到 pandas 数据框中但总内存大小增加到约 28 7G 加载之前约为 600Mb cursor mongocoll
Express中间件修改请求

我目前有一个正在运行的服务器前端使用nodejs mongo express 和 W2UI W2ui 请求来自包含所有参数的记录数组记录名称 foo 我想编写一个中间件在请求到达路由之前对其进行编辑和更改您可以创建自己的中间件来处
MongoDB：javascript执行失败：无法在 src/mongo/shell/collection.js 保存 DBQuery 对象

在 MongoDb 中当我尝试修改集合中的现有文档时它会生成以下异常 javascript execution failed can t save a DBQuery object at src mongo shell collecti
Android 上的 SQLite 和 MongoDB 具有同步功能

是否可以在 Android 上使用 SQLite 在服务器上使用像 MongoDB 这样的 NoSQL 数据库并在两者之间进行 2 路数据复制同步或者最好在两端使用 SQL 或者在两端使用 NoSQL 但不要混合使用有几种不同的方法
Cosmos DB Mongo API 如何管理“请求率很大”情况

我有以下代码 async function bulkInsert db collectionName documents try const cosmosResults await db collection collectionName
了解新的 mongo id 并将其与 Iron-router 一起使用

我有一个简单的帖子路线来寻找帖子 id 问题是pathFor助手创建这样的路径 ObjectID 52e16453431fc2fba4b6d6a8 我猜 mongoDB 插入已更改现在 id对象在其内部包含另一个对象称为 str 这是我
使用 KeystoneJs 的 Mongoose 二级种群 [重复]

这个问题在这里已经有答案了我需要用 Mongoose Keystone 填充两层但遇到了障碍我有 3 个模型地区国家和城市地区包含国家国家包含城市我的模型型号区域 var Region new keystone List
MongoDb 注册类映射

我有以下代码我希望 MiscellaneousData 覆盖抽象的 MiscellaneousDataBase 然而 IdMemberMap 总是出现空值使用独立的正常类是可行的 if BsonClassMap IsClassMap
在 MongoDB 上，当我的回调位于“find”内部时，如何限制查询？

我在 MongoDB 中有这个查询 db privateMessages find or fromId userId toId socket userId fromId socket userId toId userId function
mongodb 获取最后插入的文档

此 Meteor 代码尝试查找集合中的最后一个文档 find userId this userId sort createdAt 1 limit 1 但由于所有文档都是按时间顺序排列的我想删除createdAt字段所以一旦被删除是否
在 Google App Engine 上连接 Mongoose

我已在 Google App Engine 上成功部署了自定义 Node js 应用程序但是我在启动应用程序时遇到问题因为猫鼬在尝试连接时超时令人沮丧的是猫鼬在我的本地计算机上以完全相同的参数连接得很好我的 MongoDb UR
如何在 Nodejs - mongodb 搜索中对结果进行排序，但是，通过调用动态方法

我正在 Nodejs 中开发一个 Web 应用程序通过 mongo 本机连接器连接到 mongodb 在我的一个 js 文件中我有一个通用方法来调用 find 或 findOne 操作以从 mongodb 集合中检索我需要的任何内容如
猫鼬和部分选择/更新

在node js中当我使用Mongoose时是否可以只获取大对象的部分值是否可以只更新部分值要仅获取某些字段请将字段名称字符串作为第二个参数传递给find Include the first and last properties
MongoDB C# 驱动程序检查身份验证状态和角色

这是我使用 MongoDB 身份验证机制登录 MongoDB 的代码 try var credential MongoCredential CreateMongoCRCredential test admin 123456 var sett
为什么我的多螺纹嵌件比单螺纹嵌件性能更好？

我调查了并发性 http docs mongodb org manual faq concurrency how granular are locks in mongodb在 MongoDB 中显然它使用了数据库级锁定系统我认为这意味着
Mongoose 查询执行后回调函数从未被调用

以下是我的代码 mongoose connect mongodb localhost mydatabase var db mongoose connection db on error console error bind console
MongoDB中批量FindAndModify的解决方案

我的用例如下我在 mongoDB 中有一组文档我必须发送这些文档进行分析文件格式如下 id ObjectId 517e769164702dacea7c40d8 日期 1359911127494 状态可用其他字段我有一个阅读器进程
GSON 将带有日历的对象反序列化为带有 Mongo 日期的 json 并返回

我有一些实体其中包含一些日历属性我想以将它们存储为 GSON 序列化 JSON 中的日期的方式对其进行序列化因为 Mongo 可以将 date 存储为 new ISODate 我们通常通过使用 ExclusionStrategy 忽略

随机推荐

tf.where 的 TensorFlow 梯度在不应该返回 NaN 时返回 NaN

下面是可重现的代码如果运行它您将看到在第一次 sess 运行中结果为 nan 而第二种情况给出了正确的梯度值 0 5 但根据指定的 tf where 和条件它们应该返回相同的值我也根本不明白为什么 tf where 函数梯度在 1
显示日志文件更新时的内容

我有外部程序例如 ffmpeg 和 gstreamer 在后台运行并写入日志文件我想用我的 Flask 应用程序显示此日志的内容以便用户可以观看日志更新例如tail f job log会在终端做我尝试使用指向日志文件但未能显示数
pyspark中的DataFilter是什么？

我看到一个叫做DataFilter在我的查询执行计划中 FileScan parquet product id 12 price 14 Batched true DataFilters isnotnull product id 12 For
计时器：如何在后台保持计时器处于活动状态

在我的 iPhone 定时器应用程序中其中计时器应在后台运行所以我已经在 appdelegate 中设置了通知它工作得很好这样我就可以从视图控制器调用方法这使得计时器处于活动状态看一些代码应用程序委托 void applic
h2混合模式连接问题

我在 servlet 上下文侦听器中启动 h2 数据库 public void contextInitialized ServletContextEvent sce org h2 Driver load String apprealPath
如何使用 proguard 获取发布构建 apk 文件

我正在尝试使用ProGuard为了为我的项目制作发布 apk 文件显然我正在使用许多第三方库我只需要使用其中的几个类我真的很想得到一些关于此的解释我的调试版本超过20 MB 所以我想通过使用来减少它shrinking用于progua
NDB 查询 fetch() 和 ContextOptions

我想仅在我的一个查询中禁用上下文缓存我想我可以这样做 MyModel query ancestor user key fetch 100 options ContextOptions use cache False use memcach
HTML5 的 History.js - 需要进行黑客攻击才能不破坏 IE7

我的目标是仅支持 HTML5 浏览器的 AJAX 历史记录但是我希望我的网站能够使用 HTML4 浏览器但没有 AJAX 历史记录许多 History js 示例在执行任何操作之前都包含以下检查 if History enabled
mailto链接多条正文线

无法在 mailto 链接中使多行正常工作就我而言我正在使用 Outlook 默认邮件阅读器对其进行测试以下内容放入锚点 href 中 mailto email protected subject test body type 20y
如何防止 XmlSerialzer 转义“嵌套 XML”？

我正在使用 XmlSerializer 来序列化反序列化复杂对象一个属性包含一个 XML 字符串应将其写入字符串属性而不进行反序列化示例可在 LinqPad 中执行 XmlRoot RootObject Serializable
从日期时间获取日期名称

如何从 Python 中的日期时间对象获取日期名称例如星期一星期二星期三星期四星期五星期六和星期日所以举例来说 datetime 2019 9 6 11 33 0 应该给我 Friday import datetime no
覆盖单个文件的编译标志

我想使用一组全局标志来编译项目这意味着我在顶级 CMakeLists txt 文件中指定了 ADD DEFINITIONS Wall Weffc pedantic std c 0x 但是对于子目录中的特定文件假设为 foo cpp 我
用于重复数据删除的 Kafka 压缩

我试图了解 Kafka 压缩的工作原理并有以下问题 kafka 是否保证启用压缩的主题中存储的消息的键的唯一性 Thanks 简短的回答是否定的 Kafka 不保证启用主题保留时存储的密钥的唯一性在 Kafka 中有两种类型cleanu
如何在android中的fragment中添加选项卡？

我尝试在片段内添加选项卡我可以添加但特定选项卡的内容与选项卡重叠 MainFragmentActivity java public class MainActivity extends FragmentActivity Override
这是什么网页效果

当你在堆栈溢出时达到 1000 声望时你将获得一张消耗性用户卡当您将鼠标悬停在卡片上时我怎样才能重现这种效果怎么称呼我的猜测是它是一个 Jquery 方法但如果是的话有人可以指出我正确的方向因为我寻找它但无法准确得到我需要的
从 Android 中的 url 加载图像，仅当图像很小时

我在用着BitmapFactory decodeStream从 Android 中的 url 加载图像我只想下载低于特定尺寸的图像我目前正在使用getContentLength检查这个然而我被告知getContentLength并不
java.lang.IllegalArgumentException：未知实体

我有一个试驾 package com chinalbs service RunWith SpringJUnit4ClassRunner class ContextConfiguration locations classpath appli
简单页面应用程序路由到相同视图或控制器 SailsJS

如何将多个 url 路由到同一控制器或视图以使用 Angular 单页应用程序我可以做到这一点但我觉得很丑 view homepage login view homepage register view homepage troller
PHP - 使用简单 XML 复制 XML 节点

我需要使用简单 XML 加载 XML 源复制现有节点及其所有子节点然后在渲染 XML 之前自定义此新节点的属性有什么建议吗 SimpleXML 不能做到这一点所以你必须使用DOM 好消息是 DOM 和 SimpleXML 是同一枚硬
如何在mongodb中删除具有特定条件的重复项？

例如我的收藏中有以下文档 id GuqXmAkkARqhBDqhy beatmapset id 342537 version MX diff approach 5 artist Yousei Teikoku title Kokou no

如何在mongodb中删除具有特定条件的重复项？

如何在mongodb中删除具有特定条件的重复项？ 的相关文章

随机推荐

热门标签

如何在mongodb中删除具有特定条件的重复项？的相关文章