结构化流Kafka 2.1->Zeppelin 0.8->Spark 2.4：spark不使用jar

2024-01-10

我有一个 Kafka 2.1 消息代理，想要对 Spark 2.4 中的消息数据进行一些处理。我想使用 Zeppelin 0.8.1 笔记本进行快速原型设计。

我下载了结构化流所需的spark-streaming-kafka-0-10_2.11.jar（http://spark.apache.org/docs/latest/structed-streaming-kafka-integration.html http://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html）并将其作为“依赖项工件”添加到 Zeppelin 的“spark”解释器中（也处理 %pyspark 段落）。我重新启动了这个解释器（还有齐柏林飞艇）。

我还在笔记本的第一个段落中加载了 jar（我首先认为这应该是没有必要的......）：

%dep z.load("/usr/local/analyse/jar/spark-streaming-kafka-0-10_2.11.jar")
res0: org.apache.zeppelin.dep.Dependency = org.apache.zeppelin.dep.Dependency@2b65d5

所以，我没有收到错误，所以加载似乎有效。现在，我想做测试，kafka服务器使用这个端口在同一台机器上运行，并且还有一个主题“测试”：

%pyspark
# Subscribe to a topic
df = spark \
  .readStream \
  .format("kafka") \
  .option("kafka.bootstrap.servers", "localhost:9092") \
  .option("subscribe", "test") \
  .load()

但我得到了错误

无法执行第 6 行：.option("subscribe", "test") \ Traceback （最近一次调用最后一次）：文件 “/usr/local/analysis/spark/python/lib/pyspark.zip/pyspark/sql/utils.py”， 63号线，装饰风格返回 f(*a, **kw) 文件“/usr/local/analysis/spark/python/lib/py4j-0.10.7-src.zip/py4j/protocol.py”, 第 328 行，在 get_return_value 中 format(target_id, ".", name), value) py4j.protocol.Py4JJavaError: 调用 o120.load 时发生错误。： org.apache.spark.sql.AnalysisException：找不到数据源：卡夫卡。请按照部署部分部署应用程序《结构化流+Kafka集成指南》。；在 org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:652) 在 org.apache.spark.sql.streaming.DataStreamReader.load(DataStreamReader.scala:161) 在 sun.reflect.NativeMethodAccessorImpl.invoke0(本机方法) 处 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 在 java.lang.reflect.Method.invoke(Method.java:498) 处 py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244) 在 py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357) 在 py4j.Gateway.invoke(Gateway.java:282) 在 py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132) 在 py4j.commands.CallCommand.execute(CallCommand.java:79) 处 py4j.GatewayConnection.run(GatewayConnection.java:238) 在 java.lang.Thread.run(Thread.java:748)

在处理上述异常的过程中，又出现了一个异常：

回溯（最近一次调用最后一次）：文件 “/tmp/zeppelin_pyspark-312826888257172599.py”，第 380 行，在 exec(code, _zcUserQueryNameSpace) 文件“”，第 6 行，在文件中 “/usr/local/analysis/spark/python/lib/pyspark.zip/pyspark/sql/streaming.py”， 400号线，负载中返回 self._df(self._jreader.load()) 文件“/usr/local/analysis/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py”，第 1257 行，在call答案，self.gateway_client，self.target_id，self.name）文件“/usr/local/analysis/spark/python/lib/pyspark.zip/pyspark/sql/utils.py”， 69号线，装饰风格 raise AnalysisException(s.split(': ', 1)[1], stackTrace) pyspark.sql.utils.AnalysisException: '未能找到数据源: 卡夫卡。请按照部署部分部署应用程序 “结构化流+ Kafka 集成指南”。;'

我想知道至少其中一项调整（解释器配置或直接加载）应该有效。

我还在控制台上尝试了spark-submit --jar /usr/local/analysis/jar/spark-streaming-kafka-0-10_2.11.jar，但这似乎只有在我提交程序时才有效。

因此，我还将spark-streaming-kafka-0-10_2.11.jar复制到/usr/local/analysis/spark/jars/，其中所有其他spark jar都在其中。但在重新启动（火花和齐柏林飞艇）后，我总是遇到同样的错误。

与此同时，我发现我可以在网络浏览器中查看spark的环境变量，并且在“Classpath Entries”部分中找到spark-streaming-kafka-0-10_2.11.jar，源为“System Classpath”也作为“由用户添加”（似乎是 Zeppelin 解释器部分中的工件）。所以看来我的前两次尝试应该有效。

第一个问题是您已经下载了 Spark Streaming 包，但尝试创建一个结构化流对象（使用readstream()）。请记住，Spark 流和 Spark 结构化流是两个不同的东西，需要区别对待。

对于结构化流媒体，您需要下载软件包Spark-SQL-Kafka-0-10_2.11 https://mvnrepository.com/artifact/org.apache.spark/spark-sql-kafka-0-10_2.11/2.4.0及其依赖项卡夫卡客户端 https://mvnrepository.com/artifact/org.apache.kafka/kafka-clients/2.0.0, slf4j-api https://mvnrepository.com/artifact/org.slf4j/slf4j-api/1.7.16, snappy-java https://mvnrepository.com/artifact/org.xerial.snappy/snappy-java/1.1.7.1, lz4-java https://mvnrepository.com/artifact/org.lz4/lz4-java/1.4.0 and unused https://mvnrepository.com/artifact/org.spark-project.spark/unused/1.0.0。您的依赖项部分应如下所示以加载所有必需的包：

z.load("/tmp/spark-sql-kafka-0-10_2.11-2.4.0.jar")
z.load("/tmp/kafka-clients-2.0.0.jar")
z.load("/tmp/lz4-java-1.4.0.jar")
z.load("/tmp/snappy-java-1.1.7.1.jar")
z.load("/tmp/unused-1.0.0.jar")
z.load("/tmp/slf4j-api-1.7.16.jar")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

结构化流Kafka 2.1->Zeppelin 0.8->Spark 2.4：spark不使用jar 的相关文章

我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
通过 python 中的另外两个修改数组[重复]

这个问题在这里已经有答案了假设我们有三个一维数组 A 长度为 5 B 长度相同示例中为5 C 更长比如长度为 100 C最初用零填充 A给出索引C应更改的元素它们可能会重复以及B给出应添加到初始零的值C 例如如果A 1 3 3
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
Flask 失败并显示“错误：导入‘X’时，引发了 ImportError”，但不显示错误。如何找到错误的根源？

当使用以下命令启动 Flask 应用程序时 flask run 我收到错误 Error While importing wsgi an ImportError was raised Usage flask OPTIONS COMMAND A
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
在linux上安装python ssl模块，无需重新编译

是否可以在已经安装了 OpenSSL 的 Linux 机器上安装 python 的 SSL 模块而无需重新编译 python 我希望它就像复制几个文件并将它们包含在库路径中一样简单 Python版本是2 4 3 谢谢是否可以在已经安装了
ValueError：数据必须为正（boxcox scipy）

我正在尝试将我的数据集转换为正态分布 0 8 298511e 03 1 3 055319e 01 2 6 938647e 02 3 2 904091e 02 4 7 422441e 02 5 6 074046e 02 6 9 265747e
正在使用 PIL 保存损坏的图像

我遇到一个问题操作图像像素导致保存损坏的图像因此我使用 PIL 打开图像然后将其转换为 NumPy 数组 image Image open myimage png np image np asarray image 然后我转置图像
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
Python-验证我的文档 xls 中是否存在工作表

我正在尝试在空闲时间设计一个小程序加载 xls 文件然后在要扫描的文档中选择一张纸步骤1 用户导入 xls文件导入程序后检查文件是否存在我能做到的第 2 步我要求用户提供要分析的文档表 xls 的名称这就是它停止的地方该程
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
pandas.read_fwf 忽略提供的数据类型

我正在从文本文件导入数据框我想指定列的数据类型但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S
使用 pandas 单元格中列表的长度选择行[重复]

这个问题在这里已经有答案了我有一张表 df a b c 1 x y x 2 x z c d 3 x t e f g 只是想知道如何使用 c 列的长度选择行 such as df loc len df c gt 1 我知道这是不对的正确的
为boost python编译的.so找不到模块

我正在尝试将 C 代码包装到 python 中只需一个类即可导出两个函数我编译为map so 当我尝试时import map得到像噪音一样的错误 Traceback most recent call last File

随机推荐

Android fastboot 等待设备

我正在尝试在我的 NVIDIA 测试 git 上加载自定义内核我输入了fastboot boot myImage之后我得到
为什么我不能从 ruby 中选定的键创建新的哈希值？

这已经困扰我一段时间了这不是一件困难的事情但我不知道为什么已经没有简单的方法可以做到这一点我敢打赌有但我没有看到它我只想进行哈希处理如下所示 cars bob gt Pontiac fred gt Chrysler lisa g
从文本文件读取数据到 numpy 数组

我有一个包含一些元数据的文件然后是一些由两列和标题组成的实际数据在 numpy 中使用 genfromtxt 之前是否需要分离两种类型的数据或者我可以以某种方式分割数据吗将文件指针放在标题上方的行尾然后从那里尝试 genfromt
Android - 双击WebView检测

我正在创建一个带有 WebView 和页面顶部菜单的应用程序我使该菜单不可见并且仅在单击按钮时才会出现这工作正常但该按钮无法很好地适应任何地方因此我没有单击按钮而是在双击屏幕时出现菜单所以问题就在这里双击仅适用于空白区域但
除了 Haxe 之外，还有其他针对 PHP 的编程语言吗？

PHP 并没有得到太多的喜爱但在易于部署对于廉价托管方面仍然是赢家有没有任何编程语言除了Haxe http haxe org 那个目标 PHP 用这种语言编写应用程序然后将其翻译成 PHP 就像某些语言以 C 作为中间语言一样
如何使用 NHibernate 插入或更新（或覆盖）记录？

我需要将一行写入数据库无论它是否已经存在在使用 NHibernate 之前这是通过存储过程完成的该过程将尝试更新如果没有行被修改它将回退到插入这很有效因为应用程序并不关心记录是否存在对于 NHibernate 我发现的解决
如何访问 Galaxy S5 心率传感器？

In the 三星的编程指南 http img developer samsung com contents cmm SHealth SDK Package ProgrammingGuide 2 Bio Physiology eng v1
如何使用数组包含元素创建 NSPredicate

我只是有Address有财产的实体favourites类型的 String Address objc Address class Address NSManagedObject Observer NSManaged var favourit
在反应中一次导入多个图像文件的任何简单方法

我输入以下内容来导入图像需要一个简短的方法来做到这一点 import banner1 from imgs Banners banner1 jpg import banner2 from imgs Banners banner2 jpg i
通过提升业力重用已解析的变量

我有一个与下面的代码相当的代码库我尝试生成一个文本文件其内容是变量的两倍我觉得答案在于语义动作以及 a 和 val 但即使有文档也无法完成您将如何做才能拥有 str 中的 toto 和输出托托一些东西托托即如何在业力中重用已解析
检测设备是否正在充电

我找不到任何明确的用途我最喜欢的工具 http www google com 不过我想我会把它放在这里有没有办法使用 iPhone SDK 让应用程序检测设备是否处于通电状态充电底座等如果设备正在通电否则它是用户指定的设置我希望
Rails 迁移变更列

We have script generate migration add fieldname to tablename fieldname datatype用于向模型添加新列的语法在同一行上我们是否有一个脚本生成来更改列的数据类型
timessince 过滤器的格式

有没有办法使用 date timesince 过滤器但不是有两个相邻的单元而是只显示一个例如我的模板当前显示 18 小时 16 分钟我怎样才能让它显示 18小时这里不考虑四舍五入谢谢我想不出一个简单的内置方法来做到这一点这
JavaScript 如何创建稀疏数组？

虽然我不知道这个功能的名称 a a 57 test console log a length console log a 57 console log a 我很敬畏这是可能的由于具有 C 背景这种行为与分配内存之类的行为非常不同那么几
Elasticsearch-Kibana docker-compose - 禁止使用“elastic”值

我想使用 docker compose 运行 elasticsearch 和 kibana 这是我的 docker compose yml 我使用 docker compose env file dev env up 运行 Docker 组
如何运行 NDK 示例？

很抱歉问这样一个菜鸟问题但是 NDK 文档是错误的 r7b 如果您使用 ADT 在 Eclipse 中进行开发请使用新建项目向导使用导入为每个示例创建一个新的 Android 项目从现有源选项并从以下位置导入源
如何在 CMake 中检查列表是否包含特定条目？

我想检查列表是否包含特定条目如以下代码片段所示 macro foo if ARGN contains bar endif endmacro CMake 不提供contains 获得所需结果的最佳最简单方法是什么在CMake的wiki
如何在 UWP 应用中隐藏/折叠标题栏？

有没有办法以某种方式隐藏折叠使 UWP 应用程序中的标题栏暂时不可见但不能完全禁用我知道可以使应用程序全屏显示然后标题栏自动折叠但我需要在可调整大小的桌面窗口中实现它我还知道您可以自定义标题栏的外观例如颜色等原因我的应用
CMSIS & STM32，如何开始？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想在 STM32 上使用 CMSIS 启动项目网上一搜没找到具体的教程有些使用 SPL 开始项
结构化流Kafka 2.1->Zeppelin 0.8->Spark 2.4：spark不使用jar

我有一个 Kafka 2 1 消息代理想要对 Spark 2 4 中的消息数据进行一些处理我想使用 Zeppelin 0 8 1 笔记本进行快速原型设计我下载了结构化流所需的spark streaming kafka 0 10 2 1

结构化流Kafka 2.1->Zeppelin 0.8->Spark 2.4：spark不使用jar

结构化流Kafka 2.1->Zeppelin 0.8->Spark 2.4：spark不使用jar 的相关文章

随机推荐

热门标签