google/guava 库出现 Spark 错误：java.lang.NoSuchMethodError: com.google.common.cache.CacheBuilder.refreshAfterWrite

2024-03-17

我有一个简单的spark项目 - 其中在pom.xml依赖只是基本的scala, scalatest/junit, and spark:

    <dependency>
        <groupId>net.alchim31.maven</groupId>
        <artifactId>scala-maven-plugin</artifactId>
        <version>3.2.0</version>
    </dependency>
    <dependency>
        <groupId>org.scala-lang</groupId>
        <artifactId>scala-library</artifactId>
        <version>${scala.version}</version>
    </dependency>
    <dependency>
        <groupId>org.scala-lang</groupId>
        <artifactId>scala-compiler</artifactId>
        <version>${scala.version}</version>
    </dependency>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>4.11</version>
        <scope>test</scope>
    </dependency>
    <dependency>
        <groupId>org.scalatest</groupId>
        <artifactId>scalatest_${scala.binary.version}</artifactId>
        <version>3.0.1</version>
        <scope>test</scope>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_${scala.binary.version}</artifactId>
        <version>${spark.version}</version>
        <scope>compile</scope>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-mllib_${scala.binary.version}</artifactId>
        <version>${spark.version}</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

当尝试运行基本的spark编程SparkSessioninit 在这一行失败：

 SparkSession.builder.master(master).appName("sparkApp").getOrCreate

这是输出/错误：

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
18/04/07 18:06:15 INFO SparkContext: Running Spark version 2.2.1
Exception in thread "main" java.lang.NoSuchMethodError: com.google.common.cache.CacheBuilder
.refreshAfterWrite(JLjava/util/concurrent/TimeUnit;)
Lcom/google/common/cache/CacheBuilder;
    at org.apache.hadoop.security.Groups.<init>(Groups.java:96)
    at org.apache.hadoop.security.Groups.<init>(Groups.java:73)

at org.apache.hadoop.security.Groups.getUserToGroupsMappingService(Groups.java:293)
at org.apache.hadoop.security.UserGroupInformation.initialize(UserGroupInformation.java:283)
at org.apache.hadoop.security.UserGroupInformation.ensureInitialized(UserGroupInformation.java:260)
at org.apache.hadoop.security.UserGroupInformation.loginUserFromSubject(UserGroupInformation.java:789)
at org.apache.hadoop.security.UserGroupInformation.getLoginUser(UserGroupInformation.java:774)
at org.apache.hadoop.security.UserGroupInformation.getCurrentUser(UserGroupInformation.java:647)
at org.apache.spark.util.Utils$$anonfun$getCurrentUserName$1.apply(Utils.scala:2424)
at org.apache.spark.util.Utils$$anonfun$getCurrentUserName$1.apply(Utils.scala:2424)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.util.Utils$.getCurrentUserName(Utils.scala:2424)
at org.apache.spark.SparkContext.<init>(SparkContext.scala:295)
at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2516)
at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:918)
at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:910)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:910)

我跑了spark在其他项目上本地执行了几十次，这个简单的项目可能会出现什么问题？是否存在依赖性$HADOOP_HOME环境变量或类似的？

Update通过降级spark版本为2.0.1我能够编译。确实如此not修复问题（我们需要更新的）版本。但它有助于指出问题的根源

另一个更新 In a 不同的计划黑客降级到2.0.1确实有帮助 - 即执行继续further：但是当写信给parquet类似的异常确实发生了。

8/05/07 11:26:11 ERROR Executor: Exception in task 0.0 in stage 2741.0 (TID 2618)
java.lang.NoSuchMethodError: com.google.common.cache.CacheBuilder.build(Lcom/google/common/cache/CacheLoader;)Lcom/google/common/cache/LoadingCache;
    at org.apache.hadoop.io.compress.CodecPool.createCache(CodecPool.java:62)
    at org.apache.hadoop.io.compress.CodecPool.<clinit>(CodecPool.java:74)
    at org.apache.parquet.hadoop.CodecFactory$BytesCompressor.<init>(CodecFactory.java:92)
    at org.apache.parquet.hadoop.CodecFactory.getCompressor(CodecFactory.java:169)
    at org.apache.parquet.hadoop.ParquetOutputFormat.getRecordWriter(ParquetOutputFormat.java:303)
    at org.apache.parquet.hadoop.ParquetOutputFormat.getRecordWriter(ParquetOutputFormat.java:262)
    at org.apache.spark.sql.execution.datasources.parquet.ParquetOutputWriter.<init>(ParquetFileFormat.scala:562)
    at org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat$$anon$1.newInstance(ParquetFileFormat.scala:139)
    at org.apache.spark.sql.execution.datasources.BaseWriterContainer.newOutputWriter(WriterContainer.scala:131)
    at org.apache.spark.sql.execution.datasources.DefaultWriterContainer.writeRows(WriterContainer.scala:247)
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand$$anonfun$run$1$$anonfun$apply$mcV$sp$1.apply(InsertIntoHadoopFsRelationCommand.scala:143)
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand$$anonfun$run$1$$anonfun$apply$mcV$sp$1.apply(InsertIntoHadoopFsRelationCommand.scala:143)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:70)
    at org.apache.spark.scheduler.Task.run(Task.scala:86)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)

出现此错误的原因是 Google 的 guava 库与 Spark 版本不匹配。 Spark 遮蔽了番石榴，但许多图书馆都使用番石榴。您可以尝试按照这篇文章对 Guava 依赖项进行着色。Apache Spark 用户列表 http://apache-spark-user-list.1001560.n3.nabble.com/Guava-dependency-issue-td32115.html#a32127

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

google/guava 库出现 Spark 错误：java.lang.NoSuchMethodError: com.google.common.cache.CacheBuilder.refreshAfterWrite 的相关文章

使用Log4j在日志中输出Spark应用程序id

我有一个用于 Spark 应用程序的自定义 Log4j 文件我想输出 Spark 应用程序 ID 以及消息和日期等其他属性因此 JSON 字符串结构如下所示 name time date level thread message app
如何查找组中第一个非空值？（使用dataset api进行二次排序）

我正在研究一个代表事件流的数据集例如从网站跟踪事件时触发所有事件都有一个时间戳我们经常遇到的一个用例是尝试查找给定字段的第一个非空值例如类似的东西最能让我们到达那里 val eventsDf spark read json jso
pyspark：计算窗口上的不同值

我刚刚尝试做一个countDistinct越过一个窗口并得到这个错误 AnalysisException 不支持不同的窗口函数计数不同颜色 1926 有没有办法在 pyspark 的窗口上进行不同的计数这是一些示例代码 from py
scala.collection.Seq 不适用于 Java

Using 阿帕奇火花2 0 1 Java 7 在 Apache Spark Java API 文档中 DataSet 类出现了一个example http spark apache org docs latest api java org
Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制

我正在尝试对 Cloudera 的 Spark 2 1 0 中的数据帧进行 groupBy 操作该集群位于总 RAM 约为 512GB 的 7 节点集群上我的代码如下 ndf ndf repartition 20000 by user
Spark Worker 在 Heartbeater 中与 Spark Driver 通信的超时时间为 3600 秒

我没有配置任何超时值而是使用默认设置在哪里配置3600秒超时怎么解决呢错误信息 18 01 10 13 51 44 WARN Executor Issue communicating with driver in heartbeat
pyspark：将 schemaRDD 保存为 json 文件

我正在寻找一种将数据从 Apache Spark 以 JSON 格式导出到各种其他工具的方法我认为一定有一种非常简单的方法来做到这一点示例我有以下 JSON 文件 jfile json key value a1 key2 value
如何使用 Apache Livy 设置 Spark 配置属性？

我不知道在向 Apache Livy 提交 Spark 作业时如何以编程方式传递 SparkSession 参数这是测试 Spark 作业 class Test extends Job Int override def call jc J
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
Spark 按列重新分区，每列动态分区数

如何根据列中的项目数对 DataFrame 进行分区假设我们有一个包含 100 人的 DataFrame 列是first name and country 我们希望为一个国家地区的每 10 个人创建一个分区如果我们的数据集包含 80
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
如何从spark管道逻辑模型中提取变量权重？

我目前正在尝试学习 Spark Pipeline Spark 1 6 0 我将数据集训练和测试导入为 oas sql DataFrame 对象执行以下代码后生成的模型是oas ml tuning CrossValidatorMode
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘

随机推荐

大虾：在PDF中打印unicode字符串

我正在使用 Prawn 在 Rails 3 应用程序中生成 PDF 是否可以像在 HTML 视图中一样将 Unicode 字符串打印到 PDF 中例如 in show html erb结果字形同时 pdf text raw unicod
加密且安全的 Docker 容器

我们都知道无法开源并自由分发软件的情况而我就处于其中一种情况我有一个应用程序它由许多二进制文件从 C 源代码编译和将其全部包装到系统中的 Python 代码组成该应用程序曾经作为云解决方案工作因此用户可以通过网络访问应用程序功
使用 ws4py 创建自己的应用程序

我使用 ws4py 创建了一个 Web 服务器套接字它使用了cherrypy 当我使用连接到服务器时ip port它连接完美并且能够通过多个浏览器聊天但是当我尝试连接时ip port ws它也有效但是在我不使用连接后ws 我无法握
jQuery 中的多个选择器

我正在尝试运行这段代码 input value OK value Recrutar value Criar id attack name btn click 因此如您所见我正在尝试选择一个值等于 OK 或 Recrutar 或 Cria
为什么IntelliJ Idea找不到GO SDK的位置？

我下载了go1 4 darwin amd64 osx10 8 tar gz https golang org dl 并将其解压到我的本地目录中基于什么安装到自定义位置 https golang org doc install说我在环境变量
jQuery - 专注于 TR

好的所以我正在制作一个插件允许在我的网站中内联编辑表格到目前为止进展顺利我已经完成了大部分工作但我似乎无法正确地将焦点移出表格因此如果有人完成编辑并开始编辑新行或只是单击该行之外的内容则应该保存并恢复正常但是如果我在行上
Android NumberPicker 隐藏递增和递减按钮

我正在使用一个数字选择器 http developer android com reference android widget NumberPicker html并且目标是 API 11 及更高版本 3 0 及更高版本因此我使用受支持的
如何在 R 中加载以 HDF5 文件形式保存在 pandas 中的数据帧？

我将 pandas 中的数据帧保存在 HDF5 文件中 import numpy as np import pandas as pd np random seed 1 frame pd DataFrame np random randn 4
如何使用 Perl 的 XML::Twig 向子元素添加属性？

我有一个像这样的 XML 字符串
phpstorm symfony2 缺少服务警告

我已经为 Phpstorm 安装了 Symfony2 插件但我无法让 IDE 查看这些现有服务或其他注入的对象能否以某种方式修复这些问题从而使警告消失我遇到了类似的问题建议仔细检查以下内容正如 Marcel建议的检查你的Sym
AngularJS v1.3 打破翻译过滤器

在 Angular v1 2 中我使用以下代码在应用程序中提供本地化字符串 var i18n angular module i18n i18n service i18n function http timeout A dictionary
pyplot.subplots：python 和 jupyter 笔记本中的不同行为

在参加 Kaggle 比赛时我遇到了一些奇怪的问题基本上我正在尝试将 am 图像的矢量表示形式转换为 png 文件它在 iPython 中完美运行代码如下 def drawing to np prepare data drawin
为什么 .Net 没有 Thread.Start() 的通用版本？

我想知道为什么 Net 没有启动线程的通用方法例如我们启动一个像下面这样的线程 Thread th new Thread SayHello th Start Hello private static void SayHello obje
具有单一选择的列表框，并且单击时也取消选择...？

我需要一个在第一次单击时选择并在第二次单击时取消选择的列表框以便任何时候只选择零个或一个项目当您按住 crtl 时选择取消选择是在列表框中实现的 SelectionMode Single 但不幸的是我的用户都不知道这一点使用 S
自定义 Django 管理索引页面以显示模型对象

在 Django 管理索引页面中通常会列出应用程序及其模型模型对象如何也列在该索引页中我不仅想显示应用程序还想显示其模型对象应该如何定制呢我希望我的网站具有相同的功能并通过对核心 django 系统进行轻微修改来添加它 Ste
appium - 如何获取本机 Android 应用程序中元素的背景颜色

我正在尝试使用自动化应用程序appium 如何获取 Android 应用程序中元素的背景颜色我尝试使用 element getCssValue background color 但我面临以下异常 java lang ClassCastEx
数据流图构建

我被要求编写一个程序在给定抽象语法树的情况下构建输入程序代码的数据流图我在网上搜索了数据流图的定义发现在代码段的数据流分析中发生了很多事情我想知道我到底需要绘制什么来为给定的代码构建数据流图很感谢任何形式的帮助给定 AST 要生
char类型可以归类为整数吗？

刚才我读到 char是Java中唯一的无符号整型原始类型这是否意味着 char 是 Java 中的整型类型之一和C一样最近我读到C类型包括标量类型函数类型联合类型聚合类型标量类型包括指针类型和算术类型那么算术类型包括整型和浮
查找特定元素之前和之后的元素

我有一个列表其中包含我与选项卡一起使用的链接它看起来像这样 ul li a href First tab a li li a href Second tab a li li class active a href Active tab
google/guava 库出现 Spark 错误：java.lang.NoSuchMethodError: com.google.common.cache.CacheBuilder.refreshAfterWrite

我有一个简单的spark项目其中在pom xml依赖只是基本的scala scalatest junit and spark

google/guava 库出现 Spark 错误：java.lang.NoSuchMethodError: com.google.common.cache.CacheBuilder.refreshAfterWrite

google/guava 库出现 Spark 错误：java.lang.NoSuchMethodError: com.google.common.cache.CacheBuilder.refreshAfterWrite 的相关文章

随机推荐

热门标签