使用 Mongoose 更新 MongoDB 中的许多记录的正确方法是什么

2024-01-25

我使用 Mongoose 从 MongoDB 中提取一些记录,将它们导入到另一个系统中,然后我想将所有这些文档的状态(文档属性)设置为processed.

我可以找到这个解决方案:通过id集更新多个文档。猫鼬 https://stackoverflow.com/questions/20096885/update-multiple-documents-by-id-set-mongoose

我想知道这是否是正确的方法,建立一个由所有文档 ID 组成的标准,然后执行更新。还请考虑到这将是很多文档的事实。

(更新查询的限制是多少?到处都找不到。官方文档:http://mongoosejs.com/docs/2.7.x/docs/updating-documents.html http://mongoosejs.com/docs/2.7.x/docs/updating-documents.html)


建立一个由所有文档 ID 组成的标准,然后执行更新的方法必然会导致潜在的问题。当您迭代文档列表并为每个文档发送更新操作时,在 Mongoose 中,您面临着服务器崩溃的风险,尤其是在处理大型数据集时,因为您在继续下一个数据集之前不会等待异步调用完成迭代。您实际上将构建一个未解决的操作的“堆栈”,直到这导致问题 - Stackoverflow。

举个例子,假设您有一个文档 ID 数组,您想要更新状态字段上的匹配文档:

const processedIds = [
  "57a0a96bd1c6ef24376477cd",
  "57a052242acf5a06d4996537",
  "57a052242acf5a06d4996538"
];

您可以在哪里使用updateMany() https://mongoosejs.com/docs/api/model.html#model_Model.updateMany method

Model.updateMany(
  { _id: { $in: processedIds } }, 
  { $set: { status: "processed" } }, 
  callback
);

或者对于非常小的数据集,您可以使用forEach() https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Global_Objects/Array/forEach数组上的方法来迭代它并更新您的集合:

processedIds.forEach(function(id)){
  Model.update({ _id: id}, { $set: { status: "processed" } }, callback);
});

以上对于小数据集来说是可以的。但是,当您面临数千或数百万个文档需要更新时,这就会成为一个问题,因为您将在循环内重复调用异步代码的服务器。

要克服这个问题,请使用异步之类的东西eachLimit https://github.com/caolan/async/blob/master/README.md#eachLimit并迭代数组,为每个项目执行 MongoDB 更新操作,同时绝不执行超过 x 个并行更新。


最好的方法是使用批量 API,这在批量处理更新方面非常有效。与对众多文档中的每一个文档调用更新操作相比,性能上的差异在于,批量 API 不是在每次迭代时向服务器发送更新请求,而是每 1000 个请求(批量)发送一次请求。

对于猫鼬版本>=4.3.0支持 MongoDB 服务器3.2.x, 您可以使用bulkWrite() https://docs.mongodb.org/manual/reference/method/db.collection.bulkWrite/用于更新。以下示例展示了如何执行此操作:

const bulkUpdateCallback = function(err, r){
  console.log(r.matchedCount);
  console.log(r.modifiedCount);
}

// Initialize the bulk operations array
const bulkUpdateOps = [], counter = 0;

processedIds.forEach(function (id) {
  bulkUpdateOps.push({
    updateOne: {
      filter: { _id: id },
      update: { $set: { status: "processed" } }
    }
  });
  counter++;

  if (counter % 500 == 0) {
    // Get the underlying collection via the Node.js driver collection object
    Model.collection.bulkWrite(bulkUpdateOps, { ordered: true, w: 1 }, bulkUpdateCallback);
    bulkUpdateOps = []; // re-initialize
  }
})

// Flush any remaining bulk ops
if (counter % 500 != 0) {
  Model.collection.bulkWrite(bulkOps, { ordered: true, w: 1 }, bulkUpdateCallback);
}

对于猫鼬版本~3.8.8, ~3.8.22, 4.x支持 MongoDB 服务器>=2.6.x,您可以使用批量 API,如下所示

var bulk = Model.collection.initializeOrderedBulkOp(),
    counter = 0;

processedIds.forEach(function(id) {
    bulk.find({ "_id": id }).updateOne({ 
        "$set": { "status": "processed" }
    });

    counter++;
    if (counter % 500 == 0) {
        bulk.execute(function(err, r) {
           // do something with the result
           bulk = Model.collection.initializeOrderedBulkOp();
           counter = 0;
        });
    }
});

// Catch any docs in the queue under or over the 500's
if (counter > 0) {
    bulk.execute(function(err,result) {
       // do something with the result here
    });
}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Mongoose 更新 MongoDB 中的许多记录的正确方法是什么 的相关文章

随机推荐

  • 混合运行时是可行的解决方案吗?

    在我的公司 我们最近从 VC9 切换到 VC10 我们迁移了我们的项目 但是负责人告诉我们 我们必须在我们的生产机器上保留一些用 VC9 编译的基本通用 DLL 一段时间 这些 DLL 使用自定义结构 其中一些包含std vector st
  • 在 C++ 的条件或控制语句中声明和初始化变量

    在斯特鲁斯特鲁普的C 编程语言 特别版 第 3 版 Stroustrup 写道 在控制语句的条件中声明和初始化变量不仅是允许的 而且是鼓励的 他写道 他鼓励这样做 因为它将变量的范围缩小到仅需要它们的范围 所以像这样的事情 if int i
  • 依赖 Windows 句柄的类型作为指针可以吗?

    Windows 句柄有时很烦人 需要记得在之后进行清理 使用创建的笔和画笔执行 GDI 就是一个很好的例子 RAII 解决方案很棒 但是为每种不同类型的手柄制作一个完整的 五规则 RAII 类真的那么好吗 当然不是 我能看到的最好的结果是一
  • 为什么 gcc 4.1 + gcov 报告 100% 分支覆盖率,而较新的(4.4、4.6、4.8)报告“p = new class;”为 50%线?

    当 gcc 4 1 使用 gcov 下一行时 p new Class 据报告 分支覆盖率为 100 为什么使用 gcc 4 4 及更高版本同一行报告为 p new Class 50 branch coverage 我可以为较新的 gcc 版
  • 用一个简单的句子来说,出口和引用出口有什么区别?

    出口是否连接到子视图 引用出口是否连接到内容 是这样吗 术语 引用出口 是指引用或指向当前对象的另一个对象中的出口 举个例子 假设您有一个笔尖 其中有一个文件所有者和一个 UITableView 等 为了使 tableview 工作 它有一
  • 如何重新排列弦方程?

    我需要开发一个程序来求解线性方程 节目 首先读取一个整数n这是方程的数量 然后程序读取n包含方程的行 例如 程序的输入如下 3 2x1 3x2 4x3 16 1x1 2x2 1x3 8 3x1 1x2 2x3 13 任何操作都应该首先将每个
  • JavaScript 碰撞检测

    我正在尝试用 javascript 制作一个贪吃蛇游戏 但我在碰撞检测方面遇到了困难 到目前为止 我已经尝试了各种方法 但在绝望中 我决定存储每帧片段的所有位置 然后在制作下一帧动画之前检查是否有重复项 不幸的是 这种方法也没有被证明是成功
  • 列表列,将列表转换为字符串作为新列

    我有一个包含一列列表的数据框 可以使用以下命令创建 import pandas as pd lists 1 1 2 12 6 ABC 2 1000 4 z a create test dataframe df pd DataFrame fr
  • 我可以在redmine中创建跨项目源参考吗?

    如果您有两个以某种方式连接的独立项目 如何引用其他项目的来源 为了引用您自己的项目的源代码 您可以使用 source some file 但由于我想引用另一个项目中的代码 我的想法是我可以编写如下内容 other project sourc
  • Kotlin 中的 IntArray 与 Array

    我不确定有什么区别IntArray and an Array
  • C# 中的跨线程事件处理

    我正在使用一个框架 该框架在单独的线程中运行自己的事件调度程序 该框架可能会生成一些事件 class SomeDataSource public event OnFrameworkEvent void FrameworkCallback T
  • log4net %属性不起作用

    我有一个小型测试项目 代码如下 class Program static void Main string args log4net GlobalContext Properties logFileName log txt log4net
  • 如何使用 cURL 获取 JavaScript 加载的网页内容?

    我正在尝试从网站上获取分数表 问题是该网站正在使用显然加载的 javascriptdocument ready 因此 我似乎没有成功获取表格 我得到的只是该页面顶部的按钮 关于如何解决这个问题有什么建议或想法吗 cURL 只会为您提供页面的
  • quarto_render 从 .bat / .cmd 文件中损坏

    这有点复杂 但我认为其他人也可能遇到这个问题 四开本很棒 但一直面临一个问题 其中一个功能 quarto render 无法呈现通过 bat cmd 文件访问的脚本中的文档 如果我从 RStudio IDE 运行 R 脚本 没有问题 但通过
  • Cairo 示例适用于 Python 2.7,但不适用于 Python 3

    最简单的例子 我们通过 Gtk 创建一个窗口 添加 Gtk DrawingArea 的绘图区域 并在其上通过 Cairo 绘制文本 Example usr bin env python from gi repository import G
  • 如何获取 JSON.Net 中 JsonProperty 的名称?

    我有一堂课是这样的 JsonObject MemberSerialization OptIn public class foo JsonProperty name in json public string Bar get set etc
  • 将接口传递给 ASP.NET MVC 控制器操作方法

    在我的 ASP NET MVC 应用程序中 我有一个界面 充当多个不同视图模型的模板 public interface IMyViewModel Client Client1 get set Client Client2 get set V
  • 移动分配与标准复制和交换不兼容

    测试新的移动语义 我刚刚询问了我在使用移动构造函数时遇到的问题 但正如评论中所表明的那样 问题实际上是当您使用标准的 复制和交换 习惯用法时 移动赋值 运算符和 标准赋值 运算符发生冲突 这是我正在使用的类 include
  • 如何在 IONIC 3 中使用路由

    我正在开发一个 Ionic 3 应用程序 现在我正在使用NavController用于路由和切换页面 Ex this navCtrl push DetailsPage 但我现在需要使用 Angular 路由 我发现类似的question h
  • 使用 Mongoose 更新 MongoDB 中的许多记录的正确方法是什么

    我使用 Mongoose 从 MongoDB 中提取一些记录 将它们导入到另一个系统中 然后我想将所有这些文档的状态 文档属性 设置为processed 我可以找到这个解决方案 通过id集更新多个文档 猫鼬 https stackoverf