如何将 Spark Dataframe 推送到 Elastic Search (Pyspark)

2024-03-24

初学者 ES 问题在这里

将 Spark Dataframe 推送到 Elastic Search 的工作流程或步骤是什么？

根据研究，我相信我需要使用Spark.newAPIHadoopFile() https://spark.apache.org/docs/1.5.1/api/python/pyspark.html方法。

然而，通过挖掘弹性搜索文档 https://www.elastic.co/guide/en/elasticsearch/reference/current/docs.html, and 其他堆栈问答 https://stackoverflow.com/questions/39559121/python-spark-dataframe-to-elasticsearch我仍然对参数需要采用什么格式以及为什么有点困惑

请注意，我使用的是 pyspark，这是 ES 的一个新表（尚无索引），并且 df 为 5 列（2 个字符串类型、2 个长类型和 1 个整数列表），约有 350 万行。

这对我有用 - 我的数据在df.

df = df.drop('_id')
df.write.format(
    "org.elasticsearch.spark.sql"
).option(
    "es.resource", '%s/%s' % (conf['index'], conf['doc_type'])
).option(
    "es.nodes", conf['host']
).option(
    "es.port", conf['port']
).save()

我使用这个命令来提交我的工作 -/path/to/spark-submit --master spark://master:7077 --jars ./jar_files/elasticsearch-hadoop-5.6.4.jar --driver-class-path ./jar_files/elasticsearch-hadoop-5.6.4.jar main_df.py.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何将 Spark Dataframe 推送到 Elastic Search (Pyspark) 的相关文章

基于 Pandas 中的管道分隔列创建多个新列

我有一个 pandas 数据框其中有一个管道分隔的列其中包含任意数量的元素称为零件这些管道串中的元素数量从 0 到超过 10 个不等所有管道串中包含的唯一元素的数量并不比行数小很多这使得我无法在创建新列对于每一行我想创建一
从 len 18000 的 Dask 数据帧中采样 n= 2000 会生成错误当“replace=False”时，无法获取比总体更大的样本

我有一个从 csv 文件创建的 dask 数据框 len daskdf 返回 18000 但当我ddSample daskdf sample 2000 我收到错误 ValueError Cannot take a larger sample
查找其他列表项中列表项的列表索引

我有一个长字符串列表我想获取与另一个列表中的字符串子字符串匹配的列表元素的索引使用列表理解可以轻松检查列表项是否包含列表中的单个字符串例如这个问题 https stackoverflow com questions 4843158 c
从 Spark-Shell (pyspark) 查询 Spark 流应用程序

我正在关注这个example http cdn2 hubspot net hubfs 438089 notebooks spark2 0 Structured 20Streaming 20using 20Python 20DataFrame
在 ReportLab 中向画布元素添加超链接的最简单方法是什么？

我正在使用 ReportLab 使用 Python 制作 pdf 我想向画布添加一个形状并让该形状充当超链接使以下示例中的矩形链接到 google com 的最简单方法是什么 from reportlab pdfgen import c
在 Python 中打开文本文件时出现问题

这看起来应该很简单 f open C Users john Desktop text txt r 但我收到此错误 Traceback most recent call last File
使用 QtDesigner 的 pyQt 信号/槽

我正在尝试编写一个与 QGraphicsView 交互的程序我想在 QGraphicsView 中发生事件时收集鼠标和键盘事件例如如果用户单击 QGraphicsView 小部件我将获得鼠标位置类似的东西我可以很容易地对其进行硬
Pytorch CUDA 错误：没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下命令 import torch import sys print A sys version print B torch version print C torch cuda is available print D torc
在 virtualenv 中安装 Python-Dbus

我正在虚拟环境中运行一个应用程序需要访问 DBus 主要是与网络管理器交互我尝试使用 easyinstall 和 pip 安装 Dbus Python 但都失败了当我尝试这样做时 myvirtualenv borrajax borra
读取Excel文件时的Pandas数据框和字符编码

我正在阅读一个包含多个数值和分类数据的 Excel 文件 name string 列包含外语字符当我尝试查看 name string 列的内容时我得到了我想要的结果但外来字符在 Excel 电子表格中正确显示以错误的编码显示这是
重命名 TensorFlow 中保存模型的变量范围

是否可以在张量流中重命名给定模型的变量范围例如我根据教程创建了 MNIST 数字的逻辑回归模型 with tf variable scope my first scope NUM IMAGE PIXELS 784 NUM CLASS B
如何更新 certifi 的根证书？

我正在使用 certifi python 模块来验证 ssl 连接我查看了 certifi python2 7 site packages certifi cacert pem 中包含的根证书其中一些证书已过期我如何更新这些证书我尝
将数据导入 Django 的好方法

我想定期将数据导入 Django 项目我需要告诉我的数据提供者我想要以什么格式接收数据我应该以 Json XML CSV 格式请求吗在 Django 中通常如何处理这个问题 Django 有一个用于导入数据的完整框架称为 Fixtu
如何提取数字（以及比较形容词或范围）

我正在用 Python 开发两个 NLP 项目它们都有类似的任务提取数值和比较运算符来自句子如下所示 greater than 10 weight not more than 200lbs height in 5 7 feets fas
如何使用python将下载的音频文件扩展名重命名为mp3

目前我正在尝试根据艺术家姓名和歌曲标题将 YouTube 音乐视频下载为音频文件下载所有视频后我尝试将所有音频文件从 webm 或 mp4 扩展名重命名为 mp3 但似乎我在将文件名和扩展名更改为 mp3 时遇到了一些错误我的代码基
如何在 Python 中将列表变量传递给 subprocess.call 命令

我有一个清单 apps apps append wq35a5huqlja45jsyukrpmwuiayovrmh apps append q7mimvgduueernwvw4y22t5huemykntw apps append pmudbp
在 python matplotlib 中格式化损坏的 y 轴

我正在 matplotlib 中处理一个相当复杂的条形图它包含来自多个源的摘要数据每个源都沿 x 轴标记 y 轴上有一系列结果许多结果都是异常值我尝试使用断开的 y 轴来显示这些结果而不会使用以下组合来扭曲整个图表这个方法 h
在matplotlib中绘制曲线连接点

所以我试图绘制曲线来连接点这是我正在使用的代码 def hanging line point1 point2 a point2 1 point1 1 np cosh point2 0 np cosh point1 0 b point1 1
错误：线条魔术函数

我正在尝试使用 python 读取文件但不断收到此错误 ERROR Line magic function user vars not found 我的代码非常基本 names read csv Combined data csv nam
如何在 nltk 中使用 hunpos 标记文本文件？

有人可以帮我解决在 nltk 中标记语料库的 hunpos 语法吗我要导入什么hunpos HunPosTagger module http nltk googlecode com svn trunk doc api nltk tag h

随机推荐

如何轻松更改PNG图像的颜色？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有代表扑克牌的 PNG 图像它们是标准颜色梅花和黑桃是空白方块和红心是红色我想通过将梅花转换为绿色将方块转换为蓝色来创建
使用 php 从给定 URL 下载文件，通过传递用户名和密码进行 http 身份验证

我需要使用 php 代码下载文本文件该文件具有 http 身份验证我应该为此使用什么程序我应该使用fsocketopen或卷曲或有其他方法可以做到这一点吗我正在使用 fsocketopen 但它似乎不起作用 fp fsockopen
OSX：如何从 IOUSBDeviceInterface 或位置 id 获取卷名称（或 bsd 名称）

我正在尝试编写一个应用程序将特定的 USB 字符串描述符 USB 大容量存储设备与其卷或 bsd 名称相关联因此代码会遍历所有连接的 USB 设备获取字符串描述符并从其中之一提取信息我想获取这些 USB 设备的卷名我找不到合适
android:noHistory="true" 是如何工作的？

假设我有一个带有菜单的基本活动当我单击菜单项 A 时它会转到活动 A 我再次打开菜单然后转到 B 从 B 返回到 A 这样来回一会儿所以堆栈将是 A B A B A B 当我按下后退按钮时它会按预期向后浏览堆栈然而假设我不想要
v-bind 错误：v-bind' 是未声明的前缀

我正在 asp net 中使用 Orckestra CMS 在 Composite 之前和 Razor 模板并尝试使用 Vue 框架使用 option text 时一切都很好
Jtable 编辑单元格的外观和感觉

有一个JTable with DefaultTableModel 有桌子的setforeground setbackground and setselectioncolor方法另外当您编辑单元格时您有table setDefaultE
获取图像的特定部分（图片）

我想剪切图片的特定部分并用它来将裁剪后的图像与硬盘中存储的另一图像进行比较问题是我不知道如何获取源图像的特定部分我知道要裁剪的图像的位置 X Y 这将加载原始文件并创建一个从 0 0 开始尺寸为 64x64 的裁剪版本 Bitma
MVVM 中的故事板动画

我试图淡入然后淡出文本块以在 MVVM 中显示成功消息但我无法让它再次淡出我看了这个 WPF MVVM 属性更改动画 https stackoverflow com questions 1649828 wpf mvvm property
错误：LaTeX 中缺少 \begin{document} [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我的 LaTeX 文档中有错误运行我的文件时出现错误 LaTeX Error Missing begin document 和这个标签
如何跟踪语速

我正在开发一个跟踪语速的 iPhone 应用程序并希望使用 Nuance Speechkit https developer nuance com public Help DragonMobileSDKReference iOS Spee
在另一个角上绘制一个图形

我应该如何在 R 中的另一个图的角落呈现一个小图我知道这个问题已经结束了但我要把这个例子留给后代一旦掌握了基础知识您就可以使用基本的网格包轻松地进行这样的自定义可视化这是我使用的一些自定义函数的快速示例以及绘制数据的演示自定
ListView 保持选中状态？

我有一个充满项目的列表视图在用户选择一个项目后它会亮起然后恢复正常有没有办法让用户在 ListView 中选择一个项目时它保持选中状态并突出显示显然消失的选择是有意设计的这是一种叫做触摸模式 http developer a
Spring Boot 使用 SpringPhysicalNamingStrategy 实现多数据源

需要配置多个数据源的 Spring boot 应用程序多个数据源配置正在使用单独的datasource entityManager and transactionManager 此外休眠命名配置还可以使用具有以下配置的单个数据源 spr
Git：如何提交未跟踪的内容？

概要 git status 给出未暂存提交的更改使用 git add 来更新将承诺什么使用 git checkout 来丢弃工作目录的更改提交或丢弃未跟踪的或修改子模块中的内容修改的修改内容未跟踪内容 In case g
Delta Lake 回滚

需要一种优雅的方式将 Delta Lake 回滚到以前的版本我目前的方法如下 import io delta tables val deltaTable DeltaTable forPath spark testFolder spark
Pow() 计算错误？

我需要在我的 C 程序中使用 pow 如果我调用pow 这样运行 long long test pow 7 e Where e 是一个整数值值为 23 我总是得到821077879因此如果我用Windows计算器计算它我得到273687
奇怪的@IBAction 冲突或错误？（迅速）

所以我得到了我的简单 iOS 应用程序的代码当我按下 touchPressed 按钮时该按钮应该在屏幕上获得一个新的随机位置并且 labelScore 应该根据按钮触摸的次数进行自我更新我的一个朋友在 Objective C 中尝试
如何使用 HTTPClient 设置 HTTP 请求标头“身份验证”？

我想在向服务器发送 POST 请求时设置 HTTP 请求标头授权我该如何在 Java 中做到这一点 HttpClient 有支持吗 http www w3 org Protocols HTTP HTRQ Headers html z9
ExpandableTextView 中的复制功能在更改方向时会产生错误

我在片段中创建了一些可扩展的文本视图但没有启用复制功能即使我改变方向这也能正常工作但当我给android textIsSelectable true 在 xml TextView 中我面临的问题是当改变方向时所有 TextVi
如何将 Spark Dataframe 推送到 Elastic Search (Pyspark)

初学者 ES 问题在这里将 Spark Dataframe 推送到 Elastic Search 的工作流程或步骤是什么根据研究我相信我需要使用Spark newAPIHadoopFile https spark apache org

如何将 Spark Dataframe 推送到 Elastic Search (Pyspark)

如何将 Spark Dataframe 推送到 Elastic Search (Pyspark) 的相关文章

随机推荐

热门标签