为什么 format("kafka") 失败并显示“无法找到数据源：kafka”。（即使使用 uber-jar）？

2024-05-02

我使用 HDP-2.6.3.0 和 Spark2 包 2.2.0。

我正在尝试使用结构化流 API 编写 Kafka 消费者，但将作业提交到集群后出现以下错误：

Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source: kafka. Please find packages at http://spark.apache.org/third-party-projects.html
at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:553)
at org.apache.spark.sql.execution.datasources.DataSource.providingClass$lzycompute(DataSource.scala:89)
at org.apache.spark.sql.execution.datasources.DataSource.providingClass(DataSource.scala:89)
at org.apache.spark.sql.execution.datasources.DataSource.sourceSchema(DataSource.scala:198)
at org.apache.spark.sql.execution.datasources.DataSource.sourceInfo$lzycompute(DataSource.scala:90)
at org.apache.spark.sql.execution.datasources.DataSource.sourceInfo(DataSource.scala:90)
at org.apache.spark.sql.execution.streaming.StreamingRelation$.apply(StreamingRelation.scala:30)
at org.apache.spark.sql.streaming.DataStreamReader.load(DataStreamReader.scala:150)
at com.example.KafkaConsumer.main(KafkaConsumer.java:21)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$runMain(SparkSubmit.scala:782)
at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:180)
at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:205)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:119)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.ClassNotFoundException: kafka.DefaultSource
at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
at org.apache.spark.sql.execution.datasources.DataSource$anonfun$22$anonfun$apply$14.apply(DataSource.scala:537)
at org.apache.spark.sql.execution.datasources.DataSource$anonfun$22$anonfun$apply$14.apply(DataSource.scala:537)
at scala.util.Try$.apply(Try.scala:192)
at org.apache.spark.sql.execution.datasources.DataSource$anonfun$22.apply(DataSource.scala:537)
at org.apache.spark.sql.execution.datasources.DataSource$anonfun$22.apply(DataSource.scala:537)
at scala.util.Try.orElse(Try.scala:84)
at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:537)
... 17 more

下列的spark-submit命令：

$SPARK_HOME/bin/spark-submit \
     --master yarn \
     --deploy-mode client \
     --class com.example.KafkaConsumer \
     --executor-cores 2 \
     --executor-memory 512m \           
     --driver-memory 512m \           
     sample-kafka-consumer-0.0.1-SNAPSHOT.jar

我的java代码：

package com.example;

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class KafkaConsumer {

    public static void main(String[] args) {

        SparkSession spark = SparkSession
                  .builder()
                  .appName("kafkaConsumerApp")
                  .getOrCreate();

        Dataset<Row> ds = spark
                  .readStream()
                  .format("kafka")
                  .option("kafka.bootstrap.servers", "dog.mercadoanalitico.com.br:6667")
                  .option("subscribe", "my-topic")
                  .load();
    }
}

pom.xml:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>com.example</groupId>
  <artifactId>sample-kafka-consumer</artifactId>
  <version>0.0.1-SNAPSHOT</version>
  <packaging>jar</packaging>

    <dependencies>

        <!-- spark -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.2.0</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>2.2.0</version>
        </dependency>


        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql-kafka-0-10_2.11</artifactId>
            <version>2.2.0</version>
        </dependency>

        <!-- kafka -->
        <dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka_2.11</artifactId>
            <version>0.10.1.0</version>
        </dependency>


    </dependencies>  


    <repositories>
        <repository>
            <id>local-maven-repo</id>
            <url>file:///${project.basedir}/local-maven-repo</url>
        </repository>
    </repositories> 

    <build>

        <!-- Include resources folder in the .jar -->
        <resources>
            <resource>
                <directory>${basedir}/src/main/resources</directory>
            </resource>
        </resources>

        <plugins>

            <!-- Plugin to compile the source. -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.6.1</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>       

            <!-- Plugin to include all the dependencies in the .jar and set the main class. -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>3.0.0</version>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <filters>
                                <!-- This filter is to workaround the problem caused by included signed jars.
                                     java.lang.SecurityException: Invalid signature file digest for Manifest main attributes
                                -->
                                <filter>
                                    <artifact>*:*</artifact>
                                    <excludes>
                                        <exclude>META-INF/*.SF</exclude>
                                        <exclude>META-INF/*.DSA</exclude>
                                        <exclude>META-INF/*.RSA</exclude>
                                    </excludes>
                                </filter>
                            </filters>
                            <transformers>
                                <transformer
                                    implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
                                    <mainClass>com.example.KafkaConsumer</mainClass>
                                </transformer>
                            </transformers>
                        </configuration>
                    </execution>
                </executions>
            </plugin>

        </plugins>
    </build>    
</project>

[更新] Uber-JAR

下面是 pom.xml 中用于生成 uber-jar 的配置

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>3.0.0</version>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <filters>
                                <!-- This filter is to workaround the problem caused by included signed jars.
                                     java.lang.SecurityException: Invalid signature file digest for Manifest main attributes
                                -->
                                <filter>
                                    <artifact>*:*</artifact>
                                    <excludes>
                                        <exclude>META-INF/*.SF</exclude>
                                        <exclude>META-INF/*.DSA</exclude>
                                        <exclude>META-INF/*.RSA</exclude>
                                    </excludes>
                                </filter>
                            </filters>
                            <transformers>
                                <transformer
                                    implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
                                    <mainClass>com.example.KafkaConsumer</mainClass>
                                </transformer>
                            </transformers>
                        </configuration>
                    </execution>
                </executions>
            </plugin>

kafka数据源是一个external https://github.com/apache/spark/tree/master/external/kafka-0-10-sql模块，默认情况下不可用于 Spark 应用程序。

您必须将其定义为您的依赖项pom.xml（正如您所做的那样），但这只是将其添加到 Spark 应用程序中的第一步。

    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql-kafka-0-10_2.11</artifactId>
        <version>2.2.0</version>
    </dependency>

有了这种依赖性，你必须决定是否要创建一个所谓的uber-jar这会将所有依赖项捆绑在一起（这会产生相当大的 jar 文件并使提交时间更长）或使用--packages（或不太灵活--jars) 选项添加依赖项spark-submit time.

（还有其他选项，例如将所需的 jar 存储在 Hadoop HDFS 上或使用 Hadoop 发行版特定的方式来定义 Spark 应用程序的依赖项，但让我们保持简单）

我建议使用--packages首先且仅当它有效时才考虑其他选项。

Use spark-submit --packages包括Spark-SQL-Kafka-0-10模块如下。

spark-submit --packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.2.0

根据需要包含其他命令行选项。

Uber-Jar 方法

包括所谓的所有依赖项uber-jar可能并不总是有效，因为如何META-INF目录被处理。

For kafka要工作的数据源（以及一般的其他数据源），您必须确保META-INF/services/org.apache.spark.sql.sources.DataSourceRegister所有数据源中的merged (not replace or first或您使用的任何策略）。

kafka数据源使用自己的META-INF/services/org.apache.spark.sql.sources.DataSourceRegister https://github.com/apache/spark/blob/master/external/kafka-0-10-sql/src/main/resources/META-INF/services/org.apache.spark.sql.sources.DataSourceRegister注册的org.apache.spark.sql.kafka010.KafkaSourceProvider https://github.com/apache/spark/blob/master/external/kafka-0-10-sql/src/main/scala/org/apache/spark/sql/kafka010/KafkaSourceProvider.scala#L49作为数据源提供者kafka format.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 format("kafka") 失败并显示“无法找到数据源：kafka”。（即使使用 uber-jar）？的相关文章

如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
使用 scalapb 在 Spark Streaming 中解码 Proto Buf 消息时出错

这是一个 Spark Streaming 应用程序它使用编码的 Kafka 消息Proto Buf Using scalapb图书馆我收到以下错误请帮忙 gt com google protobuf InvalidProtocolBu
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr

随机推荐

Android 上的 Espresso 2，在无法启动正在测试的活动后，中间测试失败，而之前测试的活动仍然存在

我正在使用 Espresso 2 来测试我的 Android 应用程序中间我看到测试随机失败并显示以下 Espresso 失败消息失败 testLongPressXXXXX com company xxx tests testSuit
无法从此设备复制符号使用 iOS 9.2.1 Xcode 是 7.2

无法调整 private var folders 5 jhpy2pns35n0kljwt0l08q 40000gn T TemporaryItems Xcode 3 保存的文档 dyld shared cache armv7s 的大小设备
Android如何将listview放入视图寻呼机片段中

I have implemented a swipey tabs app using viewpager by using this template in Eclipse 现在我得到一个像这样扩展 FragmentActivity 的活动
jQuery 1.9.1 无法获取未定义或空引用的属性“createDocumentFragment”第 5823 行

最近我更新了我的 ASP Net MVC4 项目以升级到 jQuery 1 9 1 但从那时起只要加载任何页面我就会收到一个奇怪的错误 Chrome jquery 1 9 1 js 5823 Uncaught TypeError 无法调
使用xsl获取文件名

如何使用 xsl 1 0 获取文件名 I tried
Laravel 5.5 多重身份验证路由问题

尝试使用 Doctrine 而不是 Eloquent 让 Laravel 进行多重身份验证我已经尝试了很多事情但总是陷入困境我目前定义了两个守卫两个模型两个登录控制器等如果我启用其中之一它们就会起作用如果我同时尝试两者则似
使用 Google App Engine 的 Mako 模板

我想在 GAE 中使用 Mako 模板而不是 Django 模板我找到了这个帖子http blog pansapiens com 2008 06 24 mako templates in google app engine seems t
有效地将相似的数字分组在一起[重复]

这个问题在这里已经有答案了可能的重复一维数数组聚类 https stackoverflow com questions 11513484 1d number array clustering 我有一个数字数组例如 1 20 300 4
在数据帧中的几行上提取具有匹配模式的 id

这是我正在处理的数据框的示例 id string 1 no 1 yes 1 yes 2 no 2 yes 3 yes 3 yes 3 no 我想提取id为此最后两行包含字符串 yes 对于列string 所以结果是 id string 1
输入文本时 UITextField 的奇怪行为

想要在以下位置搜索此问题Google但不知道我需要写什么才能找到确切的原因所以我在这里 ISSUE Create UITextField using Interface Builder并运行项目当我使用输入任何值时iOS Keyboard
Constexpr 查找实现

回答后这个问题 https stackoverflow com questions 32395408 why arent stdalgorithms constexpr and which could be 32395481 3239625
使用 Java EE 表单身份验证登录后访问用户详细信息

我已经实现了一个 Java EE 安全领域如果用户尝试访问受保护的资源该安全领域会将用户重定向到 login jsp 假设用户想要访问受保护的网址 http mywebapp shopping cart映射到 ShoppingCartS
创建模型时无法使用上下文

在我的应用程序中我收到以下错误创建模型时无法使用上下文我不确定这意味着什么我已经按照正常方式完成了所有操作并且通常都有效但对于这个却不起作用下面是我的代码应用程序配置
如何防止在以 .php 结尾的 URL 后添加其他字符串？

我们网站的团队刚刚发现任何用户都可以在以 php 扩展名结尾的 URL 后面添加斜杠然后添加任何字符串并且仍然可以访问相同的原始页面例如我可以通过以下方式访问 www mydomain com index php www mydo
在Java中解析日期的毫秒分数

我正在使用以下模式在 Java 中解析日期从服务器获取 yyyy MM dd T HH mm ss SSS 传入的字符串可能属于以下类型 2015 01 01T00 00 00 561 2015 01 01T00 00 00 5 我的问题
如何将更改后的 SimpleXML 对象保存回文件？

因此我有这段代码用于搜索 XML 文件中的特定节点取消设置现有节点并插入具有正确数据的全新子节点有没有办法使用 simpleXML 将这些新数据保存在实际的 XML 文件中如果没有是否有另一种有效的方法来做到这一点 public
必须返回有效的 React 元素或 null -- Reactjs 错误

拜托我遇到了一些对我来说很难修复的错误我下面有一个简单的反应组件 import React from react const ForumPostComponent topics gt const forums topics return
查找 Eclipse 中出现的所有函数

在 Eclipse 中如何找到 Java 应用程序中某个函数的所有用法这样做的捷径是什么 I tried with Ctrl H to search by method but it return me all methods with
Rails 应用程序助手不支持中文字符

def top cateogries with home category id 1 concat raw
为什么 format("kafka") 失败并显示“无法找到数据源：kafka”。（即使使用 uber-jar）？

我使用 HDP 2 6 3 0 和 Spark2 包 2 2 0 我正在尝试使用结构化流 API 编写 Kafka 消费者但将作业提交到集群后出现以下错误 Exception in thread main java lang ClassN

为什么 format("kafka") 失败并显示“无法找到数据源：kafka”。 （即使使用 uber-jar）？

Uber-Jar 方法

为什么 format("kafka") 失败并显示“无法找到数据源：kafka”。 （即使使用 uber-jar）？ 的相关文章

随机推荐

热门标签

为什么 format("kafka") 失败并显示“无法找到数据源：kafka”。（即使使用 uber-jar）？

为什么 format("kafka") 失败并显示“无法找到数据源：kafka”。（即使使用 uber-jar）？的相关文章