pyspark.sql.utils.AnalysisException：找不到数据源：kafka

2023-11-23

我正在尝试使用 pyspark 从 kafka 读取流。我在用Spark 版本 3.0.0-preview2 and 火花流-kafka-0-10_2.12在此之前，我只是统计了zookeeper、kafka并创建了一个新主题：

/usr/local/kafka/bin/zookeeper-server-start.sh /usr/local/kafka/config/zookeeper.properties 
/usr/local/kafka/bin/kafka-server-start.sh /usr/local/kafka/config/server.properties
/usr/local/kafka/bin/kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 1 --partitions 1 --topic data_wm

这是我的代码：

import pandas as pd
import os
import findspark
findspark.init("/usr/local/spark")
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("TestApp").getOrCreate()
df = spark \
  .readStream \
  .format("kafka") \
  .option("kafka.bootstrap.servers", "localhost:9092") \
  .option("subscribe", "data_wm") \
  .load() 
value = df.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)")

这就是我运行脚本的方式：

sudo --preserve-env=pyspark /usr/local/spark/bin/pyspark --packages org.apache.spark:spark-streaming-kafka-0-10_2.12:3.0.0-preview

作为这个命令的结果，我有这个：

: resolving dependencies :: org.apache.spark#spark-submit-parent-0d7b2a8d-a860-4766-a4c7-141a902d8365;1.0
        confs: [default]
        found org.apache.spark#spark-streaming-kafka-0-10_2.12;3.0.0-preview in central
        found org.apache.spark#spark-token-provider-kafka-0-10_2.12;3.0.0-preview in central
        found org.apache.kafka#kafka-clients;2.3.1 in central
        found com.github.luben#zstd-jni;1.4.3-1 in central
        found org.lz4#lz4-java;1.6.0 in central
        found org.xerial.snappy#snappy-java;1.1.7.3 in central
        found org.slf4j#slf4j-api;1.7.16 in central
        found org.spark-project.spark#unused;1.0.0 in central :: resolution report :: resolve 380ms :: artifacts dl 7ms
        :: modules in use:
        com.github.luben#zstd-jni;1.4.3-1 from central in [default]
        org.apache.kafka#kafka-clients;2.3.1 from central in [default]
        org.apache.spark#spark-streaming-kafka-0-10_2.12;3.0.0-preview from central in [default]
        org.apache.spark#spark-token-provider-kafka-0-10_2.12;3.0.0-preview from central in [default]
        org.lz4#lz4-java;1.6.0 from central in [default]
        org.slf4j#slf4j-api;1.7.16 from central in [default]
        org.spark-project.spark#unused;1.0.0 from central in [default]
        org.xerial.snappy#snappy-java;1.1.7.3 from central in [default]

但我总是出现这个错误：

d> f = Spark \ ... .readStream \ ... .format("kafka") \ ...

.option("kafka.bootstrap.servers", "localhost:9092") \ ...
.option("subscribe", "data_wm") \ ... .load() 回溯（大多数最近的调用最后）：文件“”，第 5 行，在文件中 “/usr/local/spark/python/pyspark/sql/streaming.py”，第 406 行，加载中返回 self._df(self._jreader.load()) 文件“/usr/local/spark/python/lib/py4j-0.10.8.1-src.zip/py4j/java_gateway.py”，第 1286 行，在call文件 “/usr/local/spark/python/pyspark/sql/utils.py”，第 102 行，装饰风格引发转换后的 pyspark.sql.utils.AnalysisException：无法找到数据源：kafka。请按照以下方式部署应用程序《结构化流+Kafka集成》的部署部分指导”。;

我不知道这个错误的原因，请帮忙

我已在 Spark 3.0.1 上成功解决了此错误（使用 PySpark）。

我会保持简单并通过提供所需的包--packages争论：

spark-submit --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.0.1 MyPythonScript.py

注意参数的顺序，否则会引发错误。

Where MyPythonScript.py has:

KAFKA_TOPIC = "data_wm"
KAFKA_SERVER = "localhost:9092"

# creating an instance of SparkSession
spark_session = SparkSession \
    .builder \
    .appName("Python Spark create RDD") \
    .getOrCreate()

# Subscribe to 1 topic
df = spark_session \
    .readStream \
    .format("kafka") \
    .option("kafka.bootstrap.servers", KAFKA_SERVER) \
    .option("subscribe", KAFKA_TOPIC) \
    .load()
print(df.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)"))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pyspark.sql.utils.AnalysisException：找不到数据源：kafka 的相关文章

sqlite3-ruby gem：无法构建 gem 本机扩展

Update 看看这个后续问题 Windows 上的 Gem 更新它坏了吗 https stackoverflow com questions 134581 gem update on windows is it broken 在 Win
ListItem 附加自定义值

我在asp net中使用dropdownlist 它有代表下拉列表项目的ListItem集合每个ListItem只有两个字段来保存数据 Value和Text字段但这些还不够我想保存更多数据对于每个项目假设附加字段中有 Text1 和
Excel 2013 数据透视表不会更改当前页面，除非手动导航到

我们有一小段 VBA 代码多年来一直完美运行本质上是 Me PivotTables APivot PivotFields AField CurrentPage Some text 这种方法一直有效直到 Excel 2013 该行将失败
将带有星号的注册表项传递给测试路径

我想通过以下方式运行此注册表路径Test Path在 PowerShell 中但它包含一个星号该星号在注册表中有效但在 Windows 路径中无效问题是当我通过它时 Test Path将星号视为通配符因此这需要非常非常长的时间
如何在 iOS 中注册自定义文件类型

我目前正在创建一个应用程序我想让用户在其中备份他们的文件 plist m4a 我压缩文件并将扩展名更改为自定义扩展名专门针对我的应用程序例如 MyBackup 然后用户可以通过电子邮件或 iTunes 文件共享进行导出我已经阅读过
如何将变量插入 PHP 数组？

我在网上查了一些答案但都不是很准确我希望能够做到这一点 id result id info array id Example echo info 0 这有可能吗您需要的是不推荐 info array id Example varia
javax.persistence.Table.indexes()[Ljavax/persistence/Index 中的 NoSuchMethodError

我有一个 Play Framework 应用程序并且我was使用 Hibernate 4 2 5 Final 通过 Maven 依赖项管理器检索我决定升级到 Hibernate 4 3 0 Final 成功重新编译我的应用程序并运行它
如何更改 aptana studio 的背景颜色？

如何将 Aptana IDE 或整个主题的黑色背景更改为其他背景例如蓝色正如 gyozo 在评论中提到的对于蓝色主题请使用窗口 gt 首选项 gt Aptana Studio gt 主题并选择 Eclipse 主题
如何将十六进制字符串转换为无符号长整型？

我有以下十六进制值 CString str str T FFF000 如何将其转换为unsigned long 您可以使用strtol作用于常规 C 字符串的函数它使用指定的基数将字符串转换为 long long l strtol str
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import
Swagger/Openapi-Annotations：如何使用 $ref 生成 allOf？

我正在生成 Rest 端点包括添加OpenAPI Swagger对生成的代码进行注释虽然它对于基本类型运行得很好但我在自定义类方面遇到了一些问题现在我有很多自定义类的重复架构条目使用 Schema 实现 MyClass class
我可以将 MongoDB 与实体框架一起使用吗？

实体框架有可能支持MongoDB数据库吗有人写过实体框架MongoDB Provider吗简短的回答不这肯定是可能的但不合理 MongoDB 是文档数据库不支持集合之间的任何物理关系 EF 非常适合 SQL MySQL 等关系数
Biopython 可以执行 Seq.find() 来解释歧义代码吗

我希望能够在 Seq 对象中搜索考虑歧义代码的子序列 Seq 对象例如以下内容应该是正确的 from Bio Seq import Seq from Bio Alphabet IUPAC import IUPACAmbiguousDNA
使用 VBA 通过 Access 导航网页/操作 IE

你好 StackOverflow 社区我有一个关于使用 Access VBA 操作 IE 的问题本质上我正在尝试编写代码使用 IE 打开特定网页在该页面中搜索特定链接目标链接的名称将取决于用户的情况通过以编程方式单击该链接导航
我可以让 swagger-php 在查询字符串上使用数组吗？

我使用 Swagger php 当我定义查询字符串上的参数时它可以是一个数组但据我所知它不支持这种查询字符串 https api domain tld v1 objects q 1 q 5 q 12 我相信这会被设定in the co
如何将容器管理事务 (CMT) 与 JBoss AS 6、Hibernate 3.6、JPA、JTA 和 EJB3 结合使用

我正在尝试使用 CMT 设置网络应用程序我已经让它在 Eclipse 中独立运行了现在我尝试使用 Struts 1 0 让它在 Jboss AS 6 中工作我选择 CMT 是因为我读过的 doco 暗示它是最好的并且使用起来最简单
使用 IIS 发布：找不到服务器 DNS

我正在尝试使用 IIS 发布我的项目我能够通过 Visual Studio 发布它 La aplicaci n web se public correctamente file D www plataformafantasy com Co
OpenCV SIFT 描述符关键点半径

我正在深入研究OpenCV的SIFT描述符提取的实现 https github com Itseez opencv blob master modules nonfree src sift cpp 我发现了一些令人费解的代码来获取兴趣点邻域
窗口未定义 - Next.js 13 - 服务器组件中的客户端组件 - [重复]

这个问题在这里已经有答案了 Leaflet 被导入到一个导入到客户端组件的文件中那么为什么服务器运行它并抛出此错误呢它实际上在重试后确实有效并最终使网站正常运行我尝试在内部使用动态导入useEffect 没有骰子 Reference
谓词对于列表中的所有元素都必须为 true

我有一组事实 likes john mary likes mary robert likes robert kate likes alan george likes alan mary likes george mary likes har

随机推荐

测试训练好的 LSTM 模型后如何预测实际的未来值？

我通过将数据集分为训练和测试来训练我的股价预测模型我还通过将有效数据与预测数据进行比较来测试预测并且该模型运行良好但我想预测actual未来的价值我需要在下面的代码中更改什么我如何做出截至特定日期的预测actual future
在 Rmarkdown 中添加内嵌图像

我找不到在使用 RStudio 生成的 Markdown 文档中插入内联图像的方法看起来像 RmarkDown 风格备忘单 https www rstudio com wp content uploads 2016 03 rmarkdow
使用 Python 持久更改环境变量

是否可以使用 Python 3 5 在 Windows 和 Linux 中创建和更新环境变量以便它们得到持久化目前我使用这个 import os os environ MY VARIABLE TRUE 然而这似乎并没有持久地存储环
有没有办法将 pandas 数据帧信息 - df.info() 导出到 Excel 文件中？

我本地有一个 csv 文件我正在用 pandas 读取文件我想将 df info 结果移至 Excel 中看起来 df info to excel 不起作用因为它不受支持有什么办法可以做到这一点吗我尝试过 df info to
如何在 ZFS 中设置文件创建时间？

我刚刚有一台运行 ZFS 的 NAS 我想在将文件传输到其中时保留创建时间 linux ext4 数据现在所在的位置和 zfs 都存储创建时间或出生时间对于 zfs 甚至可以通过 stat 命令来报告但我一直无法弄清楚如何设置文件的创
Android 性能 API 级别 11 及以上

我似乎有一个无法解决的问题我花了周末的时间无法解决它当我制作一个包含两个活动的简单测试应用程序时 1 主要活动几个按钮一个计时器后台线程和一个对 SQLite 数据库的简单请求 2 第二个活动几个按钮只有一个有单击监听器
从标准网页打开 chrome://settings [重复]

这个问题在这里已经有答案了我在用着getUserMedia访问访问者的网络摄像头但如果访问者拒绝访问则永远不会再次询问他们检测这一点很容易请求时访问几乎立即被拒绝所以当它被阻止时我想引导用户chrome settings co
dyld：未加载库：/usr/local/lib/libpng16.16.dylib 与 php 相关的任何内容

使用任何 php 应用程序都会导致 dyld Library not loaded usr local lib libpng15 15 dylib Referenced from usr local bin php Reason image
Chrome 仅在某些网站上强制在框架上使用白色背景

我正在构建一个注入本地页面的 Web 扩展但我遇到了一个奇怪的 Chrome 限制在某些网站上我无法将 iframe 设置为透明在 GitHub com 登录后或 Google 上尝试 document body insertAdj
解决方案：存储更新、插入或删除语句影响了意外数量的行 (0) [已关闭]

Closed 这个问题是无法重现或由拼写错误引起目前不接受答案我为遇到例外的人找到了一个解决方案存储更新插入或删除语句影响了意外数量的行 0 自加载实体以来实体可能已被修改或删除刷新 ObjectStateManager 条目
如何控制在 UpdatePanel 部分回发 endRequest 之后运行哪些 JavaScript？

我知道我可以在每次部分回发后连接客户端事件来运行 JavaScript 但是我想做这样的事情 protected void FooClicked object sender EventArgs e ClientScript Registe
Android 错误 [尝试在空对象引用上调用虚拟方法“void android.app.ActionBar”]

我有一个代码模块它使用导航抽屉实现 viewpager 但是当我运行代码时出现以下错误 01 26 09 20 02 958 D AndroidRuntime 18779 Shutting down VM 01 26 09 20 02
pthread_key_t 和 pthread_key_create 方法如何工作？

我在弄清楚 pthread key t 和 pthread key create 如何工作时遇到一些麻烦据我了解每个线程都有 TLS 线程本地存储并且使用密钥来访问线程本地存储我不明白的是当创建密钥时每个线程都可以使用它吗假设
无法将 SQL Azure bacpac 导入到 2016 CTP

我非常熟悉从 Azure SQL V12 导出到我的开发盒然后导入到我的本地 sql 2014 实例的过程我正在启动一个新的 Win10 机器并安装了 SQL 2016 CTP 我正在连接到同一个 Azure 实例并且可以对其进行操作
CoreBluetooth 中不允许使用广告密钥“制造商数据”

我正在使用核心蓝牙框架我正在尝试使用这个框架创建外围设备我的外围设备使用以下方式广告数据 manager CBPeripheralManager alloc initWithDelegate self queue nil manager
CocoaLumberjack with Swift - 调用预处理器宏

我开始使用新的编程语言 Swift 构建一个 IOS 应用程序我设法使用 CocoaPods 并能够在 AppDelegate swift 中使用 CustomLoggerFormatter Objective C 成功创建 DDTTYL
Rails on Passenger 无法识别 RVM

我已经使用 rvm 转向 ree rvm use ree mygemset 并通过 Gemfile 和捆绑安装安装了 kaminari gem 但Phusion乘客似乎仍在系统默认目录中寻找gem 它说 Error message Coul
在 WindowsPhone 7 应用程序中使用外部资源字典

我正在尝试在外部 dll 中创建一个名为 DataTemplate xaml 的资源文件并在 WP7 页面中使用它当我在页面标题中执行以下操作时出现错误
在模板头文件末尾包含 .cpp

我正在读一本较旧的数据结构书它说当您进行模板类编程时您应该在 h 文件末尾包含 cpp 据我所知您必须在 h 文件中为任何模板类成员函数执行完整的函数实现这是由于模板编译器的工作方式所致我学到的唯一可以放入模板类的实现文件中的函数
pyspark.sql.utils.AnalysisException：找不到数据源：kafka

我正在尝试使用 pyspark 从 kafka 读取流我在用Spark 版本 3 0 0 preview2 and 火花流 kafka 0 10 2 12在此之前我只是统计了zookeeper kafka并创建了一个新主题 usr lo

pyspark.sql.utils.AnalysisException：找不到数据源：kafka

pyspark.sql.utils.AnalysisException：找不到数据源：kafka 的相关文章

随机推荐

热门标签