将 pandas 数据框索引到 Elasticsearch 中，无需使用 elasticsearch-py

2024-04-20

我想将一堆大型 Pandas 数据帧（大约数百万行和 50 列）索引到 Elasticsearch 中。

在寻找如何执行此操作的示例时，大多数人会使用elasticsearch-py 的批量辅助方法 https://elasticsearch-py.readthedocs.io/en/master/helpers.html#elasticsearch.helpers.bulk，传递一个实例Elasticsearch 类的 https://elasticsearch-py.readthedocs.io/en/master/api.html#elasticsearch它处理连接以及创建的字典列表使用 pandas 的 dataframe.to_dict(orient='records') 方法 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_dict.html。元数据可以作为新列预先插入到数据框中，例如df['_index'] = 'my_index' etc.

但是，我有理由不使用 elasticsearch-py 库，并想与Elasticsearch 批量 API https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-bulk.html直接，例如通过requests http://docs.python-requests.org/en/master/或另一个方便的 HTTP 库。除了，df.to_dict()不幸的是，在大型数据帧上速度非常慢，并且将数据帧转换为字典列表，然后由 elasticsearch-py 序列化为 JSON，当存在类似情况时，听起来像是不必要的开销dataframe.to_json() http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_json.html即使在大型数据帧上，这也相当快。

将 pandas 数据帧转换为批量 API 所需的格式的简单快捷方法是什么？我认为朝着正确方向迈出的一步是使用dataframe.to_json()如下：

import pandas as pd
df = pd.DataFrame.from_records([{'a': 1, 'b': 2}, {'a': 3, 'b': 4}, {'a': 5, 'b': 6}])
df
   a  b
0  1  2
1  3  4
2  5  6
df.to_json(orient='records', lines=True)
'{"a":1,"b":2}\n{"a":3,"b":4}\n{"a":5,"b":6}'

现在这是一个以换行符分隔的 JSON 字符串，但是，它仍然缺少元数据。将其放入其中的执行方式是什么？

edit:为了完整起见，元数据 JSON 文档如下所示：

{"index": {"_index": "my_index", "_type": "my_type"}}

因此，最终批量 API 期望的整个 JSON 看起来像这（在最后一行之后有一个额外的换行符）：

{"index": {"_index": "my_index", "_type": "my_type"}}
{"a":1,"b":2}
{"index": {"_index": "my_index", "_type": "my_type"}}
{"a":3,"b":4}
{"index": {"_index": "my_index", "_type": "my_type"}}
{"a":5,"b":6}

与此同时，我发现了多种可能性，如何以至少合理的速度做到这一点：

import json
import pandas as pd
import requests

# df is a dataframe or dataframe chunk coming from your reading logic
df['_id'] = df['column_1'] + '_' + df['column_2'] # or whatever makes your _id
df_as_json = df.to_json(orient='records', lines=True)

final_json_string = ''
for json_document in df_as_json.split('\n'):
    jdict = json.loads(json_document)
    metadata = json.dumps({'index': {'_id': jdict['_id']}})
    jdict.pop('_id')
    final_json_string += metadata + '\n' + json.dumps(jdict) + '\n'

headers = {'Content-type': 'application/json', 'Accept': 'text/plain'}
r = requests.post('http://elasticsearch.host:9200/my_index/my_type/_bulk', data=final_json_string, headers=headers, timeout=60)

而不是使用熊猫'to_json()方法，也可以使用to_dict()如下。在我的测试中这稍微慢一些，但也慢不了多少：

dicts = df.to_dict(orient='records')
final_json_string = ''
for document in dicts:
    metadata = {"index": {"_id": document["_id"]}}
    document.pop('_id')
    final_json_string += json.dumps(metadata) + '\n' + json.dumps(document) + '\n'

在大型数据集上运行此程序时，可以通过替换 Python 的默认值来节省几分钟json图书馆与ujson https://pypi.python.org/pypi/ujson or 快速JSON https://github.com/kenrobbins/python-rapidjson通过安装它，然后import ujson as json or import rapidjson as json，分别。

通过将步骤的顺序执行替换为并行执行，可以实现更大的加速，以便在请求等待 Elasticsearch 处理所有文档并返回响应时读取和转换不会停止。这可以通过线程、多处理、异步、任务队列等来完成，但这超出了这个问题的范围。

如果您碰巧找到一种更快地进行 json 转换的方法，请告诉我。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 pandas 数据框索引到 Elasticsearch 中，无需使用 elasticsearch-py 的相关文章

缺少 python 配置

我正在安装一个程序需要安装 python config 唯一的问题是我目前没有 python config 而且我似乎不知道如何获取它经过搜索后我应该可以通过以下方式安装它 yum install python devel 然而这样
以类似字典的方式将新项目添加到某些结构化数组中

我想扩展 numpy 中的结构化数组对象以便我可以轻松添加新元素例如对于一个简单的结构化数组 gt gt gt import numpy as np gt gt gt x np ndarray 2 dtype names A B fo
将新形状传递给“np.reshape”

Within numpy ndarray reshape https docs scipy org doc numpy reference generated numpy ndarray reshape html the shape参数是一
在 django 中构建动态表单

我正在尝试根据存储在数据库中的字段及其定义动态构建一个表单在我的数据库中我定义了 1 个带有一些标签的复选框和 1 个带有一些标签的文本字段如何根据数据库中的数据在我的视图中动态构建表单 Thanks 以下是我在 EuroDjango
如何在cvxpy中编写多个约束？

我想在 cvxpy 下的优化问题中添加许多约束在 matlab 中我可以通过添加一行 subject to 然后使用 for 循环来生成约束我怎样才能在 cvxpy 中做同样的工作因为 cvxpy 中没有服从概念有什么建议吗
使用 asyncore 读取网站

我想异步阅读一个网站据我所知这是不可能的 urllib 现在我尝试使用普通套接字进行阅读但是 HTTP 给我带来了麻烦我遇到了各种时髦的编码例如传输编码分块必须手动解析所有这些东西我现在想编码 C 而不是 python 难道
python: X 服务器上的致命 IO 错误 11（资源暂时不可用）：0.0

我正在尝试读取一些图像稍后打算对它们执行一些任务同时将图像读入内存我想显示动画 gif 图像为此我必须使用线程现在它给出错误 python Fatal IO error 11 Resource temporarily unava
使用 Pandas 滚动差异

您好我正在尝试使用 Pandas 滚动函数来计算下表中的滚动差异我正在尝试生成每月可用项目列中的值但没有得到任何结果请帮忙 Item Adds Subtracts Month Monthly Available items A
将图像转换为二进制流

我的应用程序有两个方面一方面我使用 C 来使用 Pleora 的 EBUS SDK 从相机读取帧当第一次接收到该流时在将缓冲区转换为图像之前我能够一次读取 16 位流以便对每个像素执行一些计算即每个像素都存在一个 16 位数据块
导入错误：无法导入名称 urandom

我正在构建一个新的 Linux 环境并在 Python 上看到以下错误 python c import random Traceback most recent call last File
python中remove方法的安全使用

我从列表继承了一个 UserList 类并实现了以下方法来删除标记为已删除的条目 def purge deleted self for element in list iter self if ele mark deleted lt 1 s
设置区域设置和字符串模块

这个简单的脚本 from locale import LC ALL setlocale print setlocale LC ALL from string import letters print letters 给我这个输出 tr TR
Python 对象属性 - 访问方法

假设我有一个具有某些属性的类在 Pythonic OOP 中如何访问这些属性是最好的就像obj attr 或者也许编写 get 访问器此类事物可接受的命名风格是什么 Edit 您能否详细说明使用单下划线或双前导下划线命名属性的最佳实
为什么在 python 控制台中对 SparkSession.builder.getOrCreate() 的调用被视为命令行 Spark-submit？

代替python console我正在尝试创建一个Spark Session 我没有使用pyspark以隔离依赖关系为什么是spark submit命令行提示并生成错误 NOTE SPARK PREPEND CLASSES is set
调试 python Web 服务

我正在使用找到的说明here http www diveintopython net http web services user agent html 尝试检查发送到我的网络服务器的 HTTP 命令但是我没有看到按照教程中的建议在控制
带回溯的 Dijkstra 算法？

In a 相关主题 https stackoverflow com questions 28333756 finding most efficient path between two nodes in an interval graph
Tensorflow：提要字典错误：您必须为占位符张量提供值

我有一个错误我无法找出原因这是代码 with tf Graph as default global step tf Variable 0 trainable False images tf placeholder tf float32
是否可以使用 Python 中的密码安全地加密然后解密数据？

我在 python 程序中有一些数据我想在使用密码写入文件之前对其进行加密然后在使用它之前读取并解密它我正在寻找一些可以根据密码进行加密和解密的安全对称算法这个问题 https stackoverflow com questions
elasticsearch查询字符串分析器针对不同字段使用不同的分析器

当对具有不同分析器 stem ngram等的多个字段执行查询时 elasticsearch是否对每个字段的查询字符串执行特定的分析是的除非您在查询中指定分析器这请求参数 http www elasticsearch org guid
用于获取有关 SVN 存储库信息的 Python 库？

我正在寻找一个可以从 SVN 存储库中提取至少以下信息的库 not工作副本修订号及其作者和提交消息每个修订版中的更改添加删除修改文件有Python库可以做到这一点吗对于作者和提交消息我可以解析 db revprops 0

随机推荐

Next js 子组件的父路由组件

让我们想象一下我们有admin有几个页面的模块定制 settings account 这些页面中的每一个都应该有一些通用的布局 sidebar 对于标准 React 应用程序我将做下一步来实现应用程序的这一部分我会创建父路线 admin
防止任务窗格在保存期间关闭（异步）

我们使用 OfficeJs REST API 进行加载项开发要使用此 API 需要一个 accesstoken 我们通过调用来请求该 accesstokenOffice mailbox getCallbackTokenAsync isRe
如何在 Python 中对两个列表进行异或？ [复制]

这个问题在这里已经有答案了我有两个列表例如 a hello world b hello world im steve 如果我想创建第三个列表其中仅包含两个列表中都不包含的元素 c im steve 如果元素的顺序很重要我该怎么做我
添加连续颜色渐变图例条以进行绘图

我正在使用以下数据和代码来绘制barplot ddf structure list VAR structure 1 9 Label c aaa bbb ccc ddd eee fff ggg hhh iii class factor VAL
无法将字符串转换为 ZonedDateTime：DateTimeParseException

我尝试将字符串从 JSON 转换为 ZonedDateTime 就像 static String getWatchTime JSONObject aJson JSONObject bJson long difference 0 try St
如何正确使用通过转发引用传递的可调用对象？

我习惯将 lambda 函数和其他可调用函数传递给模板函数并使用它们如下所示 template
Xcode 8 beta 4：构建失败，并显示“以下二进制文件使用不兼容的 Swift 版本：”错误

与新Xcode 8 beta 4我们开始遇到以下错误CopySwiftLibs构建阶段 Effective srcDirs
什么是 EF 默认 ID 命名约定 Code First？

我正在使用 EF 代码优先方法我开始制作映射文件我来自 nihbernate 背景但发现你真的不需要它们除非你需要做一些更改我想知道我的 ID 的命名约定将使用什么那将会Product Id or ProductId Edit
当前上下文中不存在名称“数据库”？

当我尝试使用 WebMatrix 启动我的网站时收到此错误我有一个可以调用的 cs 文件var db Database Open dbase 我的项目中有一个名为 dbase 的数据库我没有 web config 文件也没有使用 We
仅保留 DataFrame 中有关某些字段的重复项

我有这个火花数据框 ID ID2 Number Name Opening Hour Closing Hour ALT QWA 6 null 08 59 00 23 30 00 ALT AUTRE 2 null 08 58 00 23 29
R 中的圆形堆积条形图

我发现了这个很棒且相对简单的包可以创建漂亮的极坐标形式的归一化堆积条形图like so http chrisladroue com wp content uploads 2012 02 polarHistogramFudged png 我希
SQL Azure 是否支持“FOR XML”（RAW、AUTO、PATH）

MS SQL Server 支持使用 FOR XML RAW AUTO PATH 提取关系数据 SQL Azure 支持此功能吗如果没有有没有人尝试过解决方法提前谢谢你的帮助是的我用FOR XML PATH and FOR XML
C# 中的多行字符串文字

有没有一种简单的方法可以在 C 中创建多行字符串文字这是我现在所拥有的 string query SELECT foo bar FROM table WHERE id 42 我知道 PHP 有 lt lt
颤动中闪闪发光的动画

我想在flutter中制作一个闪闪发光的动画如何在颤振中做到这一点我建议采用定制油漆方法我的 awswer 是高度可定制的我只更改innerOuterRadiusRatio 和速度您可以更改颜色或不透明度星形的边数旋转 ang
检索从扭曲图像中获取的像素的原始坐标

我有四个角从源图像 src vertices 0 corners upperLeft src vertices 1 corners upperRight src vertices 2 corners downLeft src vertice
Spark VectorAssembler 错误 - PySpark 2.3 - Python

我正在使用 pySpark 2 3 0 并创建了一个非常简单的 Spark 数据框来测试 VectorAssembler 的功能这是较大数据框的子集其中我只选择了一些数字双精度数据类型列 gt gt gt cols index ho
YouTube v3 CORS 不考虑返回的“Access-Control-Allow-Origin”

我有一个客户端和一个服务器我的工作流程如下服务器使用 API v3 将片段上传到 youtube 并获取可恢复的 url Youtube v3 API for resumable uploads https developers goo
SQL Server 删除超过 10 分钟的所有行

如何删除 SQL Server 中 10 分钟后创建的所有行谢谢假设您有一个存储时间戳的列名称 Date column 你可以这样尝试其中 mi 是分钟的缩写 DELETE FROM Table name WHERE Date col
如何在AngularJS控制器中调用API？

我需要在 AngularJS 控制器中执行这些 API 调用任何例子都会有帮助 app post user auth users auth app get user logout helpers isAuthenticated users
将 pandas 数据框索引到 Elasticsearch 中，无需使用 elasticsearch-py

我想将一堆大型 Pandas 数据帧大约数百万行和 50 列索引到 Elasticsearch 中在寻找如何执行此操作的示例时大多数人会使用elasticsearch py 的批量辅助方法 https elasticsearch p

将 pandas 数据框索引到 Elasticsearch 中，无需使用 elasticsearch-py

将 pandas 数据框索引到 Elasticsearch 中，无需使用 elasticsearch-py 的相关文章

随机推荐

热门标签