使用-jsonArray时mongoimport的速度非常慢

2024-02-05

我有一个 15GB 文件，包含超过 2500 万行，采用以下 json 格式（mongodb 接受该格式导入：

[
    {"_id": 1, "value": "\u041c\..."}
    {"_id": 2, "value": "\u041d\..."}
    ...
]

当我尝试使用以下命令将其导入 mongodb 时，我得到的速度仅为每秒 50 行，这对我来说真的很慢。

mongoimport --db wordbase --collection sentences --type json --file C:\Users\Aleksandar\PycharmProjects\NLPSeminarska\my_file.json -jsonArray

当我尝试使用 python 和 pymongo 将数据插入集合中时，速度甚至更差。我还尝试提高进程的优先级，但没有任何区别。

我尝试的下一件事是同样的事情，但没有使用-jsonArray虽然我的速度有了很大的提高（~4000/秒），但它表示提供的 JSON 的 BSON 表示太大了。

我还尝试将文件拆分为 5 个单独的文件，并将它们从单独的控制台导入到同一个集合中，但所有文件的速度均降低至约 20 个文档/秒。

当我在网上搜索时，我发现人们的速度超过 8K 文档/秒，我看不出我做错了什么。

有没有办法加快这件事，或者我应该将整个 json 文件转换为 bson 并以这种方式导入它，如果是这样，哪一种是进行转换和导入的正确方法？

非常感谢。

我对 160Gb 转储文件也有完全相同的问题。我花了两天时间才加载了原始文件的 3%-jsonArray15 分钟完成这些更改。

首先，去掉初始的[和尾随]人物：

sed 's/^\[//; s/\]$/' -i filename.json

然后导入不带-jsonArray option:

mongoimport --db "dbname" --collection "collectionname" --file filename.json

如果文件很大的话sed会花费很长时间，也许您会遇到存储问题。你可以改用这个 C 程序（不是我写的，所有荣耀归于@guillermobox）：

int main(int argc, char *argv[])
{
    FILE * f;
    const size_t buffersize = 2048;
    size_t length, filesize, position;
    char buffer[buffersize + 1];

    if (argc < 2) {
        fprintf(stderr, "Please provide file to mongofix!\n");
        exit(EXIT_FAILURE);
    };

    f = fopen(argv[1], "r+");

    /* get the full filesize */
    fseek(f, 0, SEEK_END);
    filesize = ftell(f);

    /* Ignore the first character */
    fseek(f, 1, SEEK_SET);

    while (1) {
        /* read chunks of buffersize size */
        length = fread(buffer, 1, buffersize, f);
        position = ftell(f);

        /* write the same chunk, one character before */
        fseek(f, position - length - 1, SEEK_SET);
        fwrite(buffer, 1, length, f);

        /* return to the reading position */
        fseek(f, position, SEEK_SET);

        /* we have finished when not all the buffer is read */
        if (length != buffersize)
            break;
    }

    /* truncate the file, with two less characters */
    ftruncate(fileno(f), filesize - 2);

    fclose(f);

    return 0;
};

P.S.：我无权建议迁移这个问题，但我认为这可能会有所帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

json

performance

MongoDB

import

bson

使用-jsonArray时mongoimport的速度非常慢的相关文章

将类转换为 JSONObject

我有好几堂这样的课我想将类转换为 JSONObject 格式 import java io Serializable import com google gson annotations SerializedName public cla
Mongoose 查找 array.length 大于 0 的所有文档并对数据进行排序

我正在使用 mongoose 对 MongoDB 执行 CRUD 操作这就是我的架构的样子 var EmployeeSchema new Schema name String description type String default
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
如何使用 Jersey 将嵌套列表封送为 JSON？我得到一个空数组或一个包含数组的单元素字典数组

我正在开发一个使用 Jersey 将对象转换为 JSON 的项目我希望能够写出嵌套列表如下所示 data one two three a b c 我想要转换的对象首先将数据表示为 gt gt 我认为 Jersey 会做正确的事情以上输
检查 JSON 模式中不同的嵌套属性

有没有办法在嵌套 JSON 模式中实现相当于 CHECK 约束的 Postgres 假设我们有具有两个属性的数据每个属性都有嵌套属性 JSON Schema 如何使第一个对象所需的内容依赖于第二个对象我的真实案例场景是为 GeoJSON
优化 CSS 交付 - Google 的建议

谷歌建议在 head 中使用非常重要的 CSS 内联并在内部使用其他 CSS
NodeJS：将 JSON 保存到 MongoDB

我正在尝试从 API 获取 JSON 并将其存储到 MongoDB 数据库中显然这是行不通的我的应用程序似乎停留在我尝试将数据保存到数据库的位置请告知该怎么做这是我的代码 var express require express v
Rails：format.js 或 format.json，或两者？

可能很明显但我仍然缺乏基本知识那么在控制器内部两者都可以使用还是总是 Javascript 所以两者是相同的 json and js是两种不同类型的响应它们在 Rails 中被定义为不同的 MIME 类型 Mime Type re
Mongo C# 驱动程序更新嵌套数组中的特定元素

如何在 Mongo C 驱动程序中修改嵌套属性数组中的单个元素而不检索整个文档 public class Element public int Value get set public string Name get set publ
为什么 System.nanoTime() 比 System.currentTimeMillis() 慢（性能）？

今天我做了一个快速基准测试来测试速度性能System nanoTime and System currentTimeMillis long startTime System nanoTime for int i 0 i lt 1000000
使用 ActiveAndroid 库存储 HashMap

我有一堂课 Table name Control public class Control extends Model Column private String name Column private Map
（节点：20732）[DEP0018] DeprecationWarning：未处理的承诺拒绝已被弃用。未来在nodejs中

我正在尝试在我的应用程序中生成确认链接虽然它工作正常并且也生成链接但是当我访问该链接时它在 Chrome 控制台中显示 POST http localhost 3000 api auth confirmation 400 Bad Re
我如何在 C# .NET（win7 手机）中使用“DataContractJsonSerializer”读入“嵌套”Json 文件？

我有一个问题如果我的 json 文件看起来像这样 Numbers 45387 Words 空间桶我可以很好地阅读它但是如果它看起来像这样 Main Numbers 45387 Words 空间桶某事数字 12345 单词克兰斯基
无法从 JSON 请求获取数据，尽管我知道它已返回

我试图获取从 getJSON 返回的数据但我无法让它工作我已经在 search twitter API 上尝试了相同的代码效果很好但它不适用于其他网站我知道数据已返回因为我在使用检查器时可以找到它我通过检查器找到的值是 id
将 pandas 数据帧拆分为子数据帧列表的最快方法

我有一个大数据框df我有完整的清单indices中的独特元素df index 我现在想创建一个由元素索引的所有子数据帧的列表indices 具体来说 list df df loc x for x in indices 运行这个命令需要很长时
Mongodb $push 嵌套数组

我想向我的嵌套数组添加新数据我的文档是 username erkin email email protected cdn cgi l email protection password b playlists id 58 name asd
查询 MongoDB 集合中的字段。

我正在尝试查询 mongodb 集合中的特定字段这是我的代码和输出 Mongo m new Mongo DB db m getDB mydb DBCollection coll db getCollection student addin
JSONP 使用 JQuery 从 HTTPS 协议获取 JSON

我正在尝试获取从 https 安全站点发送的 JSON 客户端希望不要使用任何服务器端语言全部都是 Javascript 我读到当使用 Jquery 中的 ajax 函数时我必须使用 JSONP 才能从安全站点加载 JSON 我的第一
使用 Express.js 和 NodeJS，您可以通过响应正文中的重定向发送 JSON

我正在尝试通过 302 重定向发送 JSON 在 ExpressJS 中这可能吗 API 声明可以添加主体res json 例如 res json 302 name larry 在接收端重定向的目的地主体是空的这是一些示例代码发送应
Java/MongoDB 按日期查询

我将一个值作为 java util Date 存储在我的集合中但是当我查询以获取两个特定日期之间的值时我最终得到的值超出了范围这是我的代码插入 BasicDBObject object new BasicDBObject objec

随机推荐

仍然对 Objective-C 的动态绑定感到困惑

这个问题来自我刚刚添加到答案中的评论这个问题 https stackoverflow com questions 6608551 question about dynamic binding objective c and methods
看起来我正在实例化这个 SpeechAPI 接口。这怎么可能？

我在我的项目中使用 Microsoft 文本到文本语音功能但我对此有一个问题实际上不是直接的问题所以通常程序员在创建接口时他们会将 I 作为接口名称的前缀如 IReadable IEnumerator 等但我遇到过一些让我震惊
Unity 2D：区域颜色反转效果

我正在尝试创建一个 GameObejct 如果处于活动状态则会反转其后面任何内容的颜色理想情况下当该游戏对象出现变为活动状态时它会从其中心点扩展到一定大小的半径因此想象一个圆其比例在 1 或 2 秒内逐渐从 x 0 和 y
如何排除模板文字类型的子字符串？

我想从模板文字类型自 TypeScript 4 1 起可用中排除一些子字符串但我不知道是否可能 Example 我可以定义一个类型说这个字符串是一个包含 2 个或更多元素的元组即类似的东西 string number 使用这个文字
Symfony 2 - 在 ROLE_USER 下添加用户角色

我正在尝试在 Symfony 2 中的默认 USER ROLE 下创建一个新角色该角色对某些功能的写访问权限有限我正在使用 FOSUserBundle 到目前为止我已经编写了以下安全设置但我的 ROLE DEMO 用户仍然获得 RO
Rails 时区问题

这是我的控制台 irb main 048 0 gt Time now gt 2011 04 13 00 51 50 0200
Python ctypes 和动态链接

我正在用 C 编写一些库其中包含我想通过 ctypes 从 Python 调用的函数我已经在另一个库中成功完成了此操作但是该库只有非常普通的依赖项即fstream math malloc stdio stdlib 我正在开发的另一个
如何要求 XSD.exe 为我生成正确的类，以便我可以创建良好的 XML

我从 Visual Studio 2010 创建了一个 XSD 文件然后我用xsd c mydemo xsd为我生成类以便我可以在运行时创建 XML 文件但是当我使用该类填充一些值并序列化该对象时 XML 文件对我来说看起来不太好
如何以最少的时间损失，根据数组中指定的字母表对一个大数组进行排序？

如何以最少的时间浪费有效地按数组中指定的字母对具有百万个值的数组进行排序 letters array 按特定键对数组进行排序的简单函数维护索引关联该函数还对数组进行排序但不是按我的字母表排序而是按英文字母表排序在英文字母中效果更好
如何在 Mac 上安装 python3.4-dev？

我已经尝试过 pip 和 homebrew pip search python3 4 dev并且brew search python并且在其中任何一个中都找不到 python3 4 dev 有任何想法吗 Pip 本身不会安装 Python
使用 GDK 启动应用程序时嵌套多个语音触发器的方法

使用 GDK 在 Google Glass 上启动应用程序时是否可以嵌套语音触发器例如不要只是说好吧玻璃 gt 它的功率水平是多少我想让应用程序提供一个选项例如好的玻璃 gt 它的功率是多少 gt 超过 9000 或低于
Rails 3.1 资产管道供应商/资产文件夹组织

我正在使用jQuery 工具 http flowplayer org tools 我的 Rails 3 1 站点中的可滚动库各种资源放置在供应商资产文件夹中效果很好我的问题是关于组织供应商资产下的各种文件的最佳方式组织供应商资
为什么我的 PHP 电子邮件表单会吸引垃圾邮件？

我建立了一个网站我想在网页上有一个电子邮件联系表以便有人可以向我发送消息我正在使用该网站的代码 http www w3schools com php php secure mail asp http www w3schools com
如何使 Google Drive Java SDK 读取/写入“我的云端硬盘”而不是其他地方？

我正在使用最新的 Google Drive Java SDK 1 9 0 rev 155 并且我已经成功地使其能够上传文件列出文件创建目录这非常困难以及其他各种操作但是我上传的内容在Web界面中是不可见的同样Web界面中的内容对
函数存储在变量中？ JavaScript

有人可以解释一下 JavaScript 中的这个表示法吗函数 d 在做什么在这个程序中 x 似乎是由以下调用的但我不知道这意味着什么提前致谢 x function d return d x width mx later x x 9
查看网站是否已关闭的代码？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在尝试复制类似的网站http w
JNA鼠标钩子的工作示例

谁能给我提供一个 JNA 鼠标钩子的工作示例它能够在我的 Java Swing 应用程序之外跟踪鼠标移动单击提前致谢是的这是代码 public class CWMouseHook public final User32 USER3
React 16.7 Hooks：`react.useState` 不是一个函数

我正在尝试带有react 16 7的钩子的功能组件出现错误 src 组件页脚 index js function Footer const selectedTab setSelectedTab useState redTab const
Pandas：索引更新和更改按位置访问的值

我有两个关于 Python Pandas 数据框的索引相关问题 import pandas as pd import numpy as np df pd DataFrame id range 1 9 B one one two three
使用-jsonArray时mongoimport的速度非常慢

我有一个 15GB 文件包含超过 2500 万行采用以下 json 格式 mongodb 接受该格式导入 id 1 value u041c id 2 value u041d 当我尝试使用以下命令将其导入 mongodb 时我得到的速度

使用-jsonArray时mongoimport的速度非常慢

使用-jsonArray时mongoimport的速度非常慢 的相关文章

随机推荐

热门标签

使用-jsonArray时mongoimport的速度非常慢的相关文章