Elasticsearch 数据二进制文件内存不足

2023-12-05

我尝试将 800GB 文件上传到 Elasticsearch,但我不断收到内存错误,告诉我数据二进制文件内存不足。我的系统有 64GB RAM 和 3TB 存储空间

curl -XPOST 'http://localhost:9200/carrier/doc/1/_bulk' --data-binary @carrier.json

我想知道配置文件中是否有一个设置可以增加内存量,以便我可以上传到他的文件

thanks


一次性发送 800GB 是相当大的,ES 必须将所有内容放入内存中才能处理它,所以这对于您拥有的内存量来说可能太大了。

解决此问题的一种方法是将文件分成几个文件,然后逐个发送。您可以使用如下所示的一个小型 shell 脚本来实现它。

#!/bin/sh

# split the main file into files containing 10,000 lines max
split -l 10000 -a 10 carrier.json /tmp/carrier_bulk

# send each split file
BULK_FILES=/tmp/carrier_bulk*
for f in $BULK_FILES; do
    curl -s -XPOST http://localhost:9200/_bulk --data-binary @$f
done

UPDATE

如果你想解释 ES 响应,你可以通过将响应管道传输到一个小的 python 单行代码来轻松完成,如下所示:

curl -s -XPOST $ES_HOST/_bulk --data-binary @$f | python -c 'import json,sys;obj=json.load(sys.stdin);print "    <- Took %s ms with errors: %s" % (obj["took"], obj["errors"])';
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Elasticsearch 数据二进制文件内存不足 的相关文章

  • JSON 解析器从大型 JSON 文件中逐条读取

    我有一个巨大的 JSON 文件 1GB 它基本上是以下格式的对象数组 x y p q x1 y1 p1 q1 我想解析这个文件 这样所有的数据都不会加载到内存中 基本上我想获取例如 数组中的前 1000 个对象进行内存处理 然后将接下来的
  • for 循环内存不足

    嘿 所以我认为如果我制作一个生成随机密码的小应用程序 然后让该应用程序运行所有可能性并尝试查看密码是什么 告诉我它尝试了多少次 那会很酷 有时应用程序可以工作 有时会崩溃 具体取决于密码是什么 我想知道是否可以采取任何措施来防止它因占用大量
  • 语法错误:elasticdump 中的exports.runInThisContext (vm.js:53:16) 处出现意外标记 {

    我试图使用elasticdump 将elasticsearch 数据从一台服务器移动到另一台服务器 当我给予 elasticdump input http 192 168 0 122 9200 my index output http lo
  • Rails Searchkick / Elasticsearch has_many 和belongs_to 关联

    我尝试使用 Searchkick 运行搜索并基于多个模型返回 我的书本模型包含这个 class Book lt ActiveRecord Base searchkick has many book subjects has many sub
  • 如何解决内存碎片

    我们偶尔会遇到这样的问题 长时间运行的服务器进程 在 Windows Server 2003 上运行 由于内存分配失败而引发异常 我们怀疑这些分配由于内存碎片而失败 因此 我们一直在寻找一些可能对我们有帮助的替代内存分配机制 我希望有人能告
  • 调整巨大数组的大小

    我正在我的应用程序中处理巨大的数组 需要调整它们的大小 假设您有一个 2Gb 的阵列 并且想要将其大小调整为 3Gb 有没有办法在暂时不需要 5Gb 的情况下调整它的大小 例如 给定一个 1Gb 堆 使用 Xmx1G flag public
  • Elasticsearch 前缀匹配消失且未添加 (QueryString)

    结转自Elasticsearch QueryStrings 部分匹配 NOT 查询 https stackoverflow com questions 40100006 elasticsearch querystrings partiall
  • 为什么 CUDA 内存复制速度会这样,有一些恒定的驱动程序开销?

    在我的旧 GeForce 8800GT 上使用 CUDA 内存时 我总是会遇到奇怪的 0 04 毫秒开销 我需要将 1 2K 传输到设备的常量内存中 处理其中的数据并从设备中仅获取一个浮点值 我有一个使用 GPU 计算的典型代码 alloc
  • PhantomJS 网页内存消耗?

    是否有一种编程方式 因为我想在运行时自动执行 方式来查看网页在通过 PhantomJs 运行时使用了多少内存 我也在使用 casperjs 如果这有帮助的话 我已经搜索了很多但没有找到任何方法 PhantomJs 使用 QtWebKit 因
  • 使用正则表达式、kibana 搜索数组中的元素

    我正在搜索包含数组字段的记录payload params 我想显示包含该字符串的所有字段aabb 例子 payload params 3raabb 44aabb66 grgeg 展示 3raabb 44aabb66 如何在数组上使用正则表达
  • 如何为单集群(独立集群)ElasticSearch 配置单节点

    我在本地计算机上安装了elasticsearch 我想将其配置为集群中唯一的一个节点 独立服务器 这意味着每当我创建新索引时 它只能用于我的服务器 它将无法被其他人的服务器访问 我当前的情况是 这些索引可供其他服务器使用 这些服务器形成在集
  • MATLAB 列含义的内存分析

    我正在使用 MATLAB 配置文件来使用命令观察内存 profile memory on profile clear my code profile report and i got this table 1 我想问一下什么意思 已分配内存
  • 如何通过Elasticsearch模糊匹配电子邮件或电话?

    我想通过 Elasticsearch 对电子邮件或电话进行模糊匹配 例如 匹配所有以以下结尾的电子邮件 gmail com or 匹配所有电话开头136 我知道我可以使用通配符 query wildcard email gmail com
  • 使用自定义堆的类似 malloc 的函数

    如果我希望使用自定义预分配堆构造类似 malloc 的功能 那么 C 中最好的方法是什么 我的具体问题是 我有一个可映射 类似内存 的设备 已将其放入我的地址空间中 但我需要获得一种更灵活的方式来使用该内存来存储将随着时间的推移分配和释放的
  • 使用字符串文字处理 char * initd 时崩溃,但使用 malloc 则不会崩溃

    今天我在读一本关于C的书 其中提到以下内容是正确的 我很好奇为什么要做这个程序来验证 然后最终将其发布在这里 以便比我聪明的人可以教我为什么这两种情况在运行时不同 与差异相关的问题的具体情况在运行时根据 char 是否指向作为文字创建的字符
  • 0xffff0 和 BIOS

    当电脑第一次启动时 它开始在物理地址 0xffff0 处执行 该地址包含一条到 BIOS 的 jmp 指令 现在对于我的问题 我总是假设物理地址映射到 RAM 如果 RAM 最初包含垃圾值 那么究竟是什么将 jmp 指令放入 0xffff0
  • ES 无法在 Win x64 Java SE 8 u 171/2 上启动

    我有 Win 10 x64 我更新到 Java 8 Update 171 尝试使用此命令行运行 ES cd bin elasticsearch bat Ecluster name ABTest Cluster 00 Enode name A
  • JavaScript 中局部变量的内存释放

    我有一个 JS 函数 每隔几秒就会在页面上调用一次 这是一个 AJAX 更新的事情 作为一个函数 我声明局部变量 由于各种原因 我不想使用闭包或全局变量 我从来没有考虑过这一点 但是我是否需要在函数末尾释放 清除变量来释放内存 还是 JS
  • 从哪个 Linux 内核/libc 版本开始,Java Runtime.exec() 在内存方面是安全的?

    在工作中 我们的目标平台之一是运行 Linux 的资源受限的迷你服务器 内核 2 6 13 基于旧 Fedora Core 的自定义发行版 该应用程序是用 Java Sun JDK 1 6 04 编写的 Linux OOM Killer 配
  • 缓存寻址:索引长度、块偏移、字节偏移和标记?

    假设我知道以下值 W Word length 32 bits S Cache size in words B Block size in words M Main memory size in words 如何计算需要多少位 Index B

随机推荐

  • 如何处理 Android 6 及更高版本上的卸载意图?

    背景 On my 应用程序管理器 应用程序 我处理了卸载意图 以便用户可以使用 root 在后台卸载应用程序 问题 到 Android 5 x 为止 一切都很顺利并且工作正常 但似乎从 Android 6 开始 情况发生了变化 即使日志显示
  • Android 总是使用“tinyALSA”吗?

    今天我发现我可以写一个libaudio so并将其放入我的 Android 文件夹 system library 中以进行自定义音频处理 我的设备是配备 Android 4 2 的 Galaxy Nexus 正在使用tinyAlsa并有一个
  • DataAnnotations.DisplayAttribute.Order 属性是否不适用于 ASP.NET MVC 2?

    我为订单属性 of the 显示属性在我的模型元数据中 MetadataType typeof OccasionMetadata public partial class Occasion private class OccasionMet
  • SQLite 1.0.94 未出现在 EDM 提供程序上

    我注意到这也是 1 0 93 的问题 但似乎也适用于 1 0 94 进一步来说 计算机运行 Windows 8 1 x64 Visual Studio 2013 从 SQLite 官方网站安装 sqlite netFx451 setup b
  • 使用 getComputedStyle().getPropertyValue() 获取边框值? (Mozilla、FF)

    在某些浏览器 即 Firefox 中getComputedStyle getPropertyValue 不报告任何简写 CSS 的内容 例如border 是否有一种非特定代码的方式来获取这些速记 CSS 值 我考虑过制作一个速记 CSS 及
  • 为什么用户代理样式表是最后一个要应用的样式表?

    我见过一个answer 讨论了样式表在网页中的应用顺序 我正在学习认证 我遇到了这个问题 问题 您正在使用 HTML5 和 CSS3 创建应用程序 风格 页面源自五个样式表 款式不是 正确应用于应用程序中的页面 你需要 确定样式表应用的顺序
  • Tweepy 跟踪多个术语

    我正在对推文进行内容分析 我使用 tweepy 返回与某些术语匹配的推文 然后将 N 条推文写入 CSv 文件进行分析 创建文件和获取数据不是问题 但我想减少数据收集时间 目前我正在迭代文件中的术语列表 一旦达到 N 例如 500 条推文
  • 以编程方式在scale_fill_manual ggplot调用中指定颜色

    我想根据特定列中给出的值对 ggplot2 分面图的背景进行着色 利用我之前提出的问题的答案 我能够将我需要的东西拼凑在一起 joran 的回答this问题特别有用 因为它说明了创建单独的数据框以传递给 ggplot 的技术 This al
  • MySQL Group by - 获取计数为零的列

    我尝试谴责其他答案 但没有运气 因此提出了要求 我有一张桌子 还有几张与其他年份类似的桌子 这是表结构 STATUS Year Company Name Certified 2010 Google Cert Denied 2010 Goog
  • 预期第一层具有 x 尺寸,但得到形状为 y 的数组

    我刚刚在节点上启动tensorflow js 我一直在网上上下搜索答案 混乱我有来自的图像数据image1 tf fromPixels img 我尝试将其与其他图像数据一起输入xs tf tensor image1 image2 困惑在于无
  • 获取请求IP的正确方法是什么[重复]

    这个问题在这里已经有答案了 我发现了一些在 servlet 中获取 ip 的不同方法 但我不知道哪一个是正确的以及为什么 1 request getHeader X Real IP 2 String ip request getHeader
  • BETWEEN 查询返回零或一

    我有这样的疑问 SELECT fecha BETWEEN 1390950000 AND 1391126400 GROUP CONCAT CONCAT WS idItem nombreItem cantidad diferencia ORDE
  • mod_rewrite:从 URL 中删除查询字符串?

    我正在尝试使用 htaccess 进行以下重定向 301 page 1 重定向到 其中 是通配符 基本上 我只是想阻止任何人访问 URL 末尾带有 page 1 的页面 而是将他们定向到相同的 url 减去 page 1 有没有快速的方法来
  • 如何在单页网站的导航中实现活动状态

    我正在开发一个一页网站 在这个网站中 我希望在导航栏中的活动部分或 页面 带有下划线 目前 我点击链接后会显示带下划线的链接 但是 当我单击转到另一个活动 页面 时 它仍然带有下划线 以下是在 HTML 中设置导航的方式 div class
  • 有没有办法将 @mention 插入到使用 pyfacebook 发布的 Facebook 状态更新中?

    我的应用程序中有一些如下代码 message Hi John Doe postID fb stream publish message loader render to string wall post phtml message mess
  • /dev 与 /exec 文档和错误处理

    让我们从没有太多文档的事实开始 dev vs exec端点 如果你有一些我找不到的有价值的信息 我非常乐意看到它 没有讽刺 据我所知 dev 是当前的编辑版本 exec 是脚本的最后发布版本 或者如果您选择旧版本 这告诉我 我应该能够编辑我
  • 如何让 Z3 返回最小模型?

    如果我给 Z3 一个像 p 这样的公式q 我希望 Z3 返回 p true q dont care 或者 p 和 q 切换 但它似乎坚持为 p 和 q 赋值 即使我没有完成转换 通话时亮起Eval 除了对此感到惊讶之外 我的问题是如果 p
  • 如何扩展或重写 CakePHP 核心助手的功能/方法

    This Cakephp 覆盖 HtmlHelper link问了一个非常相似的问题 但没有完整的答案 也许现在 随着 蛋糕2 的推出 就会有 我想创建一个自定义助手 它是 Cake 的 Paginator Helper 的子类 我希望我的
  • iPhone sdk - 使用自定义相机

    我正在开发一个需要连续拍摄两张照片的应用程序 我目前正在使用 iPhone 相机 但是 我不想取消 左下角的按钮 我不想预览我的照片 蓝色 按钮 使用 我应该怎么办 我应该自己制作相机吗 我找不到只有 拍照 按钮的自定义相机的简单教程 创建
  • Elasticsearch 数据二进制文件内存不足

    我尝试将 800GB 文件上传到 Elasticsearch 但我不断收到内存错误 告诉我数据二进制文件内存不足 我的系统有 64GB RAM 和 3TB 存储空间 curl XPOST http localhost 9200 carrie