使用 PyE 的 Elasticsearch 批量索引

2023-12-13

我有一个简单的 python 脚本，用于索引包含 100 万行的 CSV 文件：

import csv
from pyes import *

reader = csv.reader(open('data.csv', 'rb'))

conn = ES('127.0.0.1:9200', timeout=20.0)

counter = 0
for row in reader:
        try:
                data = {"name":row[5]}
                conn.index(data,'namesdb',counter, bulk=True)
                counter += 1
        except:
                pass

这种方法效果很好，但当我们数量达到数千时，速度就会呈指数级下降。

我猜如果我把索引分成更小的块，ES 会表现得更好。

有没有更有效的方法来做到这一点？ sleep() 延迟会有帮助吗？或者有没有一种简单的方法可以通过编程将 csv 分成更小的块？

Thanks.

您可以在创建ES实例时调整批量大小。像这样的东西：

conn = ES('127.0.0.1:9200', timeout=20.0, bulk_size=100)

默认批量大小为 400。也就是说，当您批量收到 400 个文档时，pyes 会自动发送批量内容。如果您想在达到bulk_size之前发送批量（例如：退出之前），您可以调用 conn.flush_bulk(forced=True)

我不确定在每个第 N 个文档处手动刷新索引是否是最好的选择。 Elasticsearch 默认情况下每秒自动执行一次。你能做的就是增加这个时间。像这样的东西：

curl -XPUT localhost:9200/namesdb/_settings -d '{
    "index" : {
        "refresh_interval" : "3s"
    }
}'

或者，您可以手动刷新，就像 Dragan 建议的那样，但在这种情况下，通过将间隔设置为“-1”来禁用 Elasticsearch 的自动刷新可能是有意义的。但你不需要刷新每个X文档，你可以在插入完所有文档后刷新。

更多详细信息请参见此处：http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/indices-update-settings.html

请注意，刷新非常昂贵，根据我的经验，您最好选择以下任一方法： - 让 Elastisearch 在后台进行刷新 - 完全禁用刷新并在插入整堆文档后重新启用它

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 PyE 的 Elasticsearch 批量索引的相关文章

python future 和元组解包

实现像使用 future 进行元组解包这样的事情的优雅惯用的方法是什么我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货理想情况下我想写一些类似的东西 a b c ex submit f x y
如何在序列化器创建方法中获取 URL Id？

我有以下网址 url r member P
如何正确地将 MIDI 刻度转换为毫秒？

我正在尝试将 MIDI 刻度增量时间转换为毫秒并且已经找到了一些有用的资源 MIDI Delta 时间刻度到秒 http www lastrayofhope co uk 2009 12 23 midi delta time ticks
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
Facet从elasticsearch中的对象获取所有键

假设我有以下文档 title Some Title options key5 1 key3 0 key1 1 title Some Title options key2 0 key3 0 key5 1 我想从中获取所有钥匙options使用
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

OpenGLException：禁用数组缓冲区对象时无法使用偏移。在调用 glEnable(GL_ARRAY_BUFFER) 后的一行上？

我不断收到此异常 Exception in thread main org lwjgl opengl OpenGLException Cannot use offsets when Array Buffer Object is disabl
如何将自定义字体添加到react-native v0.61.x？

如何在react native 0 61 x 中添加自定义字体 0 60 添加自动链接后我不知道如何链接自定义字体当我执行这个命令时 react native link 这会产生一些额外的链接从而产生额外的错误那么我如何才能仅链接f
如何用这些列的中位数替换数值列中的 NA？ [复制]

这个问题在这里已经有答案了我正在处理具有多种数据类型的数据框我只想替换 NA 值数字列与该特定列的中位数我见过关于替换为的问题很多但不是中位数我的 df 类似于以下代码 my groups lt c rep A 5 rep B 5
带有条件包含的 EF 查询

我有两个表一个 WorkItem 表和一个 WorkItemNote 表如何返回一个 WorkItem 以及满足特定条件的所有 WorkItemNotes 我认为这应该很简单几乎就像一个条件包含对吗我一直在计划写作a tip对此
ZF2 Doctrine 2 ObjectSelect 具有不同的字段

为了填充我的表单我使用字段集方法对于一个给定的表单字段我将使用选择选项直接来自这样的实体 this gt add array type gt DoctrineModule Form Element ObjectSelect name
如何防止 Visual Studio Code 总是重新打开以前的文件或文件夹？

Visual Studio Code 似乎总是会记住我的会话并重新打开上次使用它时打开的文件和或项目当从命令行运行提供的文件或文件夹时它显然表现正确但是当从任务栏快捷方式打开时我希望它默认为空环境有什么办法可以改变这种行为吗您
如何使用 ServiceStack Funq IoC 解析类型

我正在尝试编写一个 JobActivatorHangFire using 服务栈IoC 和我在解析类型时遇到问题我确信对于具有更多泛型经验的人来说这将是一个简单的答案我传入的容器来自 HostContext Container usi
将 WooCommerce 运输方式完整标签中的零成本替换为“免费”

要在运费等于零时显示运费我使用以下代码因为 woocommerce 隐藏了零成本的运输方式 add filter woocommerce cart shipping method full label custom add zero c
Firebase Cloud Functions 立即删除节点，而不是 2 小时后删除

我正在使用 Cloud Functions 在 firebase 上 2 小时后删除节点但是当我添加节点时它在数据库内创建后就会立即被删除我的index js const functions require firebase fun
在 Shiny for R 中，为什么 Sys.Date() 在 dateInput 中返回昨天的日期？

我有一个dateInput in my ui R如下 dateInput asOfDateTime label As Of value Sys Date max Sys Date For 2015 05 15 这给出了dateInput默认
如何在 Linux 上安装 Python 包，以便可以通过已经运行的 PostgreSQL 13 plpython3u 扩展找到它？

分拆我试图抓住这个想法在 plpython3u 过程中导入 Python 包时出现找不到模块我不知道如何使用那里接受的答案使其在 Linux 上运行通常这里应该是重复的但如果使用的路径与 MacOS 存在差异则可能适合新问题
“失败：无法读取未定义的属性‘isPresent’”

it should be able to create a task for a product as a CTA function browser sleep 6222 browser sleep 6222 console log ss
在 KineticJS 中使用 mousedown 事件创建一个矩形

我正在尝试使用 KineticJS 与 mousedown 和拖动事件创建一个矩形形状但运气不佳有人做过类似的事情吗 http jsfiddle net AYHSM 6 var stage new Kinetic Stage conta
如何在 Highcharts 中使用自定义样式更改标记符号和数据标签

我们如何在悬停时自定义数据标签和标记符号请参考下图将标记内的符号作为图像 url 链接添加到系列中的最后一个数据叉小提琴探索它 series data 29 9 71 5 106 4 129 2 144 0 176 0 135 6
如何在 Symfony2 中正确启用 twig 的沙箱扩展？

在 Symfony2 中默认禁用一些 Twig 模块其中之一是调试扩展它添加了 debug 标签在开发环境中有用要启用它没有什么难的您可以将此服务添加到您的配置中 debug twig extension class Twig
将 .sh 命令转换为 .bat 等效命令

我正在按照本教程运行 jmx exporterwith卡桑德拉 https www robustperception io monitoring cassandra with prometheus 我发现而不是改变JVM OPTS in c
如何通过 jquery POST 单选按钮值

我有这个示例代码 while row mysql fetch object result1 echo
SQL SERVER 2008 在创建表时触发

在 SQL SERVER 2008 的数据库中创建表时有没有办法运行一些函数例如触发器是的这就是所谓的 DDL 触发器的文档CREATE TRIGGER有一个样本DROP SYNONYM 对于一个例子来说这是一个非常值得怀疑的选
客户端未经授权使用此方法检索访问令牌 Gmail API C#

当我尝试使用服务帐户授权 gmail api 时出现以下错误客户端无权使用此方法检索访问令牌 static async Task MainAsync sstageEntities db new sstageEntities UserCr
使用 PyE 的 Elasticsearch 批量索引

我有一个简单的 python 脚本用于索引包含 100 万行的 CSV 文件 import csv from pyes import reader csv reader open data csv rb conn ES 127 0 0 1

使用 PyE 的 Elasticsearch 批量索引

使用 PyE 的 Elasticsearch 批量索引 的相关文章

随机推荐

热门标签

使用 PyE 的 Elasticsearch 批量索引的相关文章