MongoDB shell中无序批量更新记录

2024-03-18

我有一个包含数百万个文档的集合，类似于以下内容：

{
    _id: ObjectId('...'),
    value: "0.53"
    combo: [
        {
            h: 0,
            v: "0.42"
        },
        {
            h: 1,
            v: "1.32"
        }
    ]
}

问题是这些值存储为字符串，我需要将它们转换为浮点/双精度。

我正在尝试这个并且它正在工作，但是考虑到数据量，这将需要几天的时间才能完成：

db.collection.find({}).forEach(function(obj) { 
    if (typeof(obj.value) === "string") {
        obj.value = parseFloat(obj.value);
        db.collection.save(obj);
    }

     obj.combo.forEach(function(hv){
         if (typeof(hv.value) === "string") {
            hv.value = parseFloat(hv.value);
            db.collection.save(obj);
         }
     });
});

我在阅读 Mongo 文档时遇到了批量更新，我正在尝试这样做：

var bulk = db.collection.initializeUnorderedBulkOp();
bulk.find({}).update(
    { 
      $set: { 
                "value": parseFloat("value"), 
            }
    });
bulk.execute();

它运行...但我得到一个 NAN 作为值，这是因为它认为我正在尝试将“值”转换为浮点数。我尝试过不同的变体，例如this.value and "$value"但无济于事。另外，这种方法仅尝试更正另一个对象中的值，而不是数组中的值。

我将不胜感激任何帮助。提前致谢！

通过以下方式弄清楚了：

1）为了在文档级别进行转换，我遇到了这个帖子 https://stackoverflow.com/questions/30027608/mongodb-slow-update-loop马库斯的回复为我的解决方案铺平了道路：

var bulk = db.collection.initializeUnorderedBulkOp()
var myDocs = db.collection.find()
var ops = 0
myDocs.forEach(

  function(myDoc) {

    bulk.find({ _id: myDoc._id }).updateOne(
        { 
          $set : {
                "value": parseFloat(myDoc.value),
            } 
        }
    );

    if ((++ops % 1000) === 0){
      bulk.execute();
      bulk = db.collection.initializeUnorderedBulkOp();
    }

  }
)
bulk.execute();

2）第二部分涉及更新数组对象值，我在接受的答案中发现了这样做的语法这个帖子 https://stackoverflow.com/questions/16750391/mongodb-update-property-of-subarray-just-updates-the-first-element。就我而言，我知道有 24 个值，我与第一个查询分开运行，结果如下所示：

var bulk = db.collection.initializeUnorderedBulkOp()
var myDocs = db.collection.find()
var ops = 0
myDocs.forEach(

  function(myDoc) {

    bulk.find({ _id: myDoc._id }).update(
        { 
          $set : { 
                "combo.0.v": parseFloat(myDoc.combo[0].v),
                "combo.1.v": parseFloat(myDoc.combo[1].v),
                "combo.2.v": parseFloat(myDoc.combo[2].v),
                "combo.3.v": parseFloat(myDoc.combo[3].v),
                "combo.4.v": parseFloat(myDoc.combo[4].v),
                "combo.5.v": parseFloat(myDoc.combo[5].v),
                "combo.6.v": parseFloat(myDoc.combo[6].v),
                "combo.7.v": parseFloat(myDoc.combo[7].v),
                "combo.8.v": parseFloat(myDoc.combo[8].v),
                "combo.9.v": parseFloat(myDoc.combo[9].v),
                "combo.10.v": parseFloat(myDoc.combo[10].v),
                "combo.11.v": parseFloat(myDoc.combo[11].v),
                "combo.12.v": parseFloat(myDoc.combo[12].v),
                "combo.13.v": parseFloat(myDoc.combo[13].v),
                "combo.14.v": parseFloat(myDoc.combo[14].v),
                "combo.15.v": parseFloat(myDoc.combo[15].v),
                "combo.16.v": parseFloat(myDoc.combo[16].v),
                "combo.17.v": parseFloat(myDoc.combo[17].v),
                "combo.18.v": parseFloat(myDoc.combo[18].v),
                "combo.19.v": parseFloat(myDoc.combo[19].v),
                "combo.20.v": parseFloat(myDoc.combo[20].v),
                "combo.21.v": parseFloat(myDoc.combo[21].v),
                "combo.22.v": parseFloat(myDoc.combo[22].v),
                "combo.23.v": parseFloat(myDoc.combo[23].v)
          }
        }
    );

    if ((++ops % 1000) === 0){
      bulk.execute();
      bulk = db.collection.initializeUnorderedBulkOp();
    }

  }
)
bulk.execute();

只是为了提供有关性能的想法，forEach每分钟检查大约 900 个文档，实际上，对于 1500 万条记录来说，这需要几天时间！不仅如此，这只是在文档级别转换类型，而不是数组级别。为此，我必须循环遍历每个文档并循环遍历每个数组（1500 万次 x 24 次迭代）！通过这种方法（并行运行两个查询），它在 6 小时内完成了这两个查询。

我希望这对其他人有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MongoDB

mongoshell