Spark 抛出 java.util.NoSuchElementException：找不到密钥：67

2024-02-20

在 Zeppelin 中运行 Spark 平分 kmmeans 算法。

//I transform my data using the TF-IDF algorithm 

val idf = new IDF(minFreq).fit(data)
val hashIDF_features = idf.transform(dbTF)    

//and parse the transformed data to the clustering algorithm.

val bkm = new BisectingKMeans().setK(100).setMaxIterations(2)
val model = bkm.run(hashIDF_features)
val cluster_rdd = model.predict(hashIDF_features)

但我总是收到这个错误：

org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 270.0 failed 4 times, most recent failure: Lost task 0.3 in stage 270.0 (TID 126885, IP): java.util.NoSuchElementException: key not found: 67
    at scala.collection.MapLike$class.default(MapLike.scala:228)
    at scala.collection.AbstractMap.default(Map.scala:58)
    at scala.collection.MapLike$class.apply(MapLike.scala:141)
    at scala.collection.AbstractMap.apply(Map.scala:58)
    at org.apache.spark.mllib.clustering.BisectingKMeans$$anonfun$org$apache$spark$mllib$clustering$BisectingKMeans$$updateAssignments$1$$anonfun$2.apply$mcDJ$sp(BisectingKMeans.scala:338)
    at org.apache.spark.mllib.clustering.BisectingKMeans$$anonfun$org$apache$spark$mllib$clustering$BisectingKMeans$$updateAssignments$1$$anonfun$2.apply(BisectingKMeans.scala:337)
    at org.apache.spark.mllib.clustering.BisectingKMeans$$anonfun$org$apache$spark$mllib$clustering$BisectingKMeans$$updateAssignments$1$$anonfun$2.apply(BisectingKMeans.scala:337)
    at scala.collection.TraversableOnce$$anonfun$minBy$1.apply(TraversableOnce.scala:231)
    at scala.collection.LinearSeqOptimized$class.foldLeft(LinearSeqOptimized.scala:111)
    at scala.collection.immutable.List.foldLeft(List.scala:84)
    at scala.collection.LinearSeqOptimized$class.reduceLeft(LinearSeqOptimized.scala:125)
    at scala.collection.immutable.List.reduceLeft(List.scala:84)
    at scala.collection.TraversableOnce$class.minBy(TraversableOnce.scala:231)
    at scala.collection.AbstractTraversable.minBy(Traversable.scala:105)
    at org.apache.spark.mllib.clustering.BisectingKMeans$$anonfun$org$apache$spark$mllib$clustering$BisectingKMeans$$updateAssignments$1.apply(BisectingKMeans.scala:337)
    at org.apache.spark.mllib.clustering.BisectingKMeans$$anonfun$org$apache$spark$mllib$clustering$BisectingKMeans$$updateAssignments$1.apply(BisectingKMeans.scala:334)
    at scala.collection.Iterator$$anon$11.next(Iterator.scala:328)
    at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:389)
    at org.apache.spark.util.collection.ExternalSorter.insertAll(ExternalSorter.scala:189)
    at org.apache.spark.shuffle.sort.SortShuffleWriter.write(SortShuffleWriter.scala:64)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:73)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
    at org.apache.spark.scheduler.Task.run(Task.scala:89)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:227)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
Driver stacktrace:
    at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1433)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1421)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1420)
    at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
    at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:47)
    at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1420)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:801)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:801)
    at scala.Option.foreach(Option.scala:236)
    at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:801)
    at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:1642)
    at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1601)
    at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1590)
    at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:48)
    at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:622)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:1856)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:1869)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:1882)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:1953)
    at org.apache.spark.rdd.RDD$$anonfun$collect$1.apply(RDD.scala:934)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:150)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:111)
    at org.apache.spark.rdd.RDD.withScope(RDD.scala:323)
    at org.apache.spark.rdd.RDD.collect(RDD.scala:933)
    at org.apache.spark.mllib.clustering.BisectingKMeans$.org$apache$spark$mllib$clustering$BisectingKMeans$$summarize(BisectingKMeans.scala:261)
    at org.apache.spark.mllib.clustering.BisectingKMeans$$anonfun$run$1.apply$mcVI$sp(BisectingKMeans.scala:194)
    at scala.collection.immutable.Range.foreach$mVc$sp(Range.scala:141)
    at org.apache.spark.mllib.clustering.BisectingKMeans.run(BisectingKMeans.scala:189)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$$$93297bcd59dca476dd569cf51abed168$$$$$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:89)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$$$93297bcd59dca476dd569cf51abed168$$$$$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:95)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$$$93297bcd59dca476dd569cf51abed168$$$$$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:97)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$$$93297bcd59dca476dd569cf51abed168$$$$$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:99)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$$$93297bcd59dca476dd569cf51abed168$$$$$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:101)

我使用 Spark 1.6.1。有趣的是，如果我在独立应用程序上运行这个算法，它不会出现任何错误，但我在 Zeppelin 中得到了这个。除此之外，输入是通过外部算法计算的，因此我不认为这是格式问题。有任何想法吗？

Edit:
我使用较小数量的集群再次测试系统，并且没有发生错误。为什么算法会因大簇值而崩溃？

我相信这个问题是因为closure http://spark.apache.org/docs/latest/programming-guide.html#understanding-closures-a-nameclosureslinka。当您在本地运行应用程序时，所有内容都可能在同一内存/进程中运行。因此，请确保您没有尝试从可能在其他内存/进程中运行的 clousre 访问局部变量。This https://stackoverflow.com/questions/28204035/usage-of-local-variables-in-closures-when-accessing-spark-rdds将有助于解决您的问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 抛出 java.util.NoSuchElementException：找不到密钥：67 的相关文章

如何在 IntelliJ IDEA 中关闭具有 Unit 返回类型的 Scala 自动完成函数？

IntelliJ IDEA Scala 插件具有自动添加功能 Unit到单位返回函数的末尾例如如果我正在编写一个有副作用的函数foo def foo 当我击中Enter当光标位于大括号之间时我将得到以下内容 def foo Unit
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
避免函数内装箱/拆箱

对于数字密集型代码我编写了一个具有以下签名的函数 def update f Int Int Double gt Double Unit 然而因为Function3不是专门的每个应用程序f结果对 3 个参数和结果类型进行装箱拆箱我可
Scala：为什么 Actor 是轻量级的？

是什么让演员如此轻盈我什至不确定它们是如何工作的它们不是单独的线程吗当他们说轻量级时他们的意思是每个参与者都没有映射到单个线程 JVM 提供共享内存线程锁作为主要形式并发抽象但分享了内存线程是相当重量级的并招致严重的绩效处
Spark Shuffle 写入超慢

为什么对于 1 6MB shuffle 写入和 2 4MB 输入 spark shuffle 阶段如此缓慢为什么 shuffle 写入仅发生在一个执行器上我正在运行一个 3 节点集群每个集群有 8 个核心火花用户界面 Code Ja
对 HList 进行协变过滤

我打算以协变方式过滤 HList 我也想包含子类所以协变滤波器Foo应捕获以下元素Foo也Bar 我已经构建了这个例子来尝试 lt lt 看看它是否做了我想做的事情 http scastie org 6465 http scastie o
使用 Scala Slick 创建组合主键

我正在尝试使用两列作为 Scala Slick 表的主键这是我的表的定义方式 class NbaPlayerBoxScoreTable tag Tag extends Table NbaPlayerBoxScore tag player
Spark s3 写入（s3 与 s3a 连接器）

我正在从事一项在 EMR 上运行的作业它在 s3 上保存了数千个分区分区为年月日我有过去 50 年的数据现在当 Spark 写入 10000 个分区时使用以下命令大约需要 1 小时s3a联系它非常慢 df repartit
Spark shuffle 溢出指标

在 Spark 2 3 集群上运行作业时我在 Spark WebUI 中注意到某些任务发生了溢出据我所知在reduce端 reducer获取所需的分区随机读取然后使用执行器的执行内存执行reduce计算由于没有足够的执行内存一
kafka ProducerRecord 和 KeyedMessage 有什么区别

我正在衡量卡夫卡生产者生产者的表现目前我遇到了两个配置和用法略有不同的客户 Common def buildKafkaConfig hosts String port Int Properties val props new Proper
如何编写 sbt 插件来通过代理启动应用程序

我想在开源之前为我的项目创建一个 sbt 插件该项目在应用程序运行开始时附加一个 Java 代理以对其进行各种类型的分析代理写出文本文件以供以后处理我希望能够编写一个 sbt 插件有一个替代方案run called runWith
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
Playframework 2.0 在视图模板中定义函数

我正在开发一个使用 PlayFramework 2 0 的项目在阅读了一些 scala 之后我想在视图模板中嵌入一些动态代码所以我做了以下事情 def getMystring sequence Int if patternForm
Pyspark dataframe：如何按组应用 scipy.optimize 函数

我有一段运行良好的代码但使用 pandas 数据帧 groupby 处理但是由于文件很大 gt 7000 万组我需要转换代码以使用 PYSPARK 数据框架这是使用 pandas dataframe 和小示例数据的原始代码 imp
有没有好的 Clojure 基准测试？

Edit Clojure 基准测试已达到基准游戏 http benchmarksgame alioth debian org u64q clojure html 我已经制作了这个问题社区维基并邀请其他人保持更新有人知道 Clojure 性
IntelliJ IDEA 13 给出有关不兼容类型的无效错误（Play 中的 Java-Scala-InterOp）

我刚刚从 IDEA 12 升级到 13 社区版从那时起我在 IDEA 中收到关于我的游戏项目的类型不兼容的错误 Option
如何识别远程参与者？

我有一个远程参与者客户端它正在向另一个远程参与者服务器注册然后注销使用关闭挂钩然而虽然服务器接收到注销但实际sender财产是一个不同的 Channel 对象所以在我的服务器日志中我有 Registered new cl
scala.concurrent.blocking - 它实际上做了什么？

我花了一段时间学习 Scala 执行上下文底层线程模型和并发性的主题你能解释一下通过什么方式吗scala concurrent blocking 调整运行时行为 and 可以提高性能或避免死锁如中所述scaladoc http www
scala 中的模拟案例类：Mockito

在我的游戏应用程序中我打算模拟一个案例类我可以这样做但它创建了一个所有成员变量都为空的对象有没有办法创建案例类的模拟对象以便该对象可以初始化一些成员 case class User name String address Stri
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c

随机推荐

杰青 |更新由`select`选择的数组元素

在 JSON 数组中我想根据节点的值选择一个数组元素然后更新同一数组元素中的不同节点例如在下面的 JSON 中 apiVersion vlabs properties orchestratorProfile orchestrator
如何在屏幕旋转后禁用/避免片段自定义动画

我刚刚发现每次在片段上 setRetainInstance true 时它都会按预期工作保留片段数据但这会导致片段的自定义动画在屏幕旋转后再次执行有没有办法避免禁用屏幕旋转时的这些动画该片段是使用以下动画创建的 setCust
如何放置我的网页以便我可以在谷歌搜索中找到我的页面？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案如何上传我的网页以便我可以在 Google 搜索中找到我的网页搜索引擎优化可能是一个耗时的过程但其中有几个因素您的网站应该具有良好的关键字丰富的
在Python中将命名列表向量从R翻译成rpy2？

python 中的 Rpy2 中的以下 R 代码相当于什么 Var1 c navy darkgreen names Var1 c Class1 Class2 ann colors list Var1 Var1 目前尚不清楚是什么ann co
php ssh2_exec 不执行“su”命令

我在 php 的 ssh2 中获得了很多乐趣我正在通过 ssh ing 进入 localhost 运行 ubuntu 进行测试我已经成功地使用我的用户名而不是 root 进行连接和身份验证并且一些命令例如 ls 返回一些信息这是
单击 iAd 时暂停 SpriteKit 场景

我正在研究一个SpriteKit项目我正在努力在点击 iAd 时暂停游戏并在点击 iAd 时取消暂停iAd被解雇主要问题是从 ViewController 暂停场景我知道如果我想从 ViewController 暂停场景Scene
使用子进程时如何限制程序的执行时间？

我想使用子进程来运行程序并且需要限制执行时间例如如果它运行超过2秒我想杀死它对于普通程序 kill 效果很好但如果我尝试跑步 usr bin time something kill 并不能真正杀死程序我下面的代码似乎不能很好地工
谷歌表格。如何获取实际范围大小（以像素为单位）

我的脚本将选定的范围转换为图像请参见 https docs google com spreadsheets d 1qNQ6iCMoBCQgJzBB63ymtBQ6BedXZFhjgZZKGItjeVA copy 它首先创建一个公共 PDF
远离 CSS 的抽象

许多框架试图从 HTML 自定义标签 JSF 组件系统中抽象出来以便更轻松地处理特定的问题你们使用过的东西中是否有类似的 CSS 概念它可以为你带来很多跨浏览器的魔力支持类似的变量为什么我每次想要那种颜色时都必须输入 3c5c8
用点或连字符填充标签之间的可用空间

我有一个带有标签的页面这些标签包含在 div 中标签有一个变量我想用字符点或填充两者之间的空格例如我的标签文本 1 这里有一些文本我的文字2 另一篇文字如果您发现两个文本都是合理的或者至少我尝试过则可能是字符计数问题
Android 7 中的 ContextMenu 位置混乱

我有一个应用程序其中有一个简单的列表视图和上下文菜单 Android 7 之前的版本一切看起来都正常 when clicking an item at the bottom of the list when clicking an it
这些奇怪的环境变量是什么？

I use GetEnvironmentString 获取程序的环境变量每个程序的第一个结果都是这样的我不知道这是什么意思这是代码 LPWCH lpEnvString GetEnvironmentStringsW LPWSTR lps
通过 Chrome 的自定义选项卡发布数据

我想通过 CustomTab 或 Chrome 发送 POST HTTP 请求然后最终显示页面我进行了很多研究但没有办法有办法吗可以通过 Volley 发送 POST 请求然后最终在浏览器中显示响应吗我为此写了一个解决方法小心
Wireshark 中以太网帧末尾的 0 字节是什么？

after ARP protocol in a frame there are many 0 bytes Does anyone know the reason for the existence of these 0 bytes 检查以太
将所有数据从一个订阅传输到另一订阅

如何将我的所有云服务数据库虚拟机和 Blob 存储转移到我新订阅的另一个订阅有没有更简单的方法更新 2016 年 6 月 6 日这个答案相当旧了必须寻求 Azure 支持才能将数据从一项订阅传输到另一项订阅此外 Azure 门
如何从 bigcommerce API（地面、快递）获取订单“送货方式”？

如何从 bigcommerce API 地面快递获取订单送货方式客户下订单时选择的运输方式 Thanks 参考这个page https developer bigcommerce com api stores v2 orders s
ECMAScript 规范：规范中问号的含义

我见过很多这样的情况Let value be Return sth在规范中 example https tc39 github io ecma262 sec tonumber 有谁知道的含义是什么 From 算法约定 http www e
在 C# 中从字符串调用函数

我知道在 php 中你可以进行如下调用 function name hello function name function hello echo hello 这在 Net 中可能吗是的您可以使用反射像这样的事情 Type thisT
同一页面上有多个 iScroll 元素

我正在使用 jQtouch 和 iScroll 制作一个移动网站我不想使用 iScroll 获得多个可滚动区域但只有列表可以使用 iScroll 我尝试过这个 var scroll1 scroll2 function loaded sc
Spark 抛出 java.util.NoSuchElementException：找不到密钥：67

在 Zeppelin 中运行 Spark 平分 kmmeans 算法 I transform my data using the TF IDF algorithm val idf new IDF minFreq fit data val h

Spark 抛出 java.util.NoSuchElementException：找不到密钥：67

Spark 抛出 java.util.NoSuchElementException：找不到密钥：67 的相关文章

随机推荐

热门标签