如何在 PySpark 中获得不同的字典 RDD？

2023-12-24

我有一个字典的 RDD，我想获得一个仅包含不同元素的 RDD。但是，当我尝试打电话时

rdd.distinct()

PySpark 给我以下错误

TypeError: unhashable type: 'dict'

    at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:166)
    at org.apache.spark.api.python.PythonRunner$$anon$1.<init>(PythonRDD.scala:207)
    at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:125)
    at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:70)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:306)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:270)
    at org.apache.spark.api.python.PairwiseRDD.compute(PythonRDD.scala:342)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:306)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:270)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:73)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
    at org.apache.spark.scheduler.Task.run(Task.scala:89)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:213)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
16/02/19 16:55:56 WARN TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, localhost): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
  File "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/lib/pyspark.zip/pyspark/worker.py", line 111, in main
    process()
  File "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/lib/pyspark.zip/pyspark/worker.py", line 106, in process
    serializer.dump_stream(func(split_index, iterator), outfile)
  File "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/lib/pyspark.zip/pyspark/rdd.py", line 2346, in pipeline_func
  File "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/lib/pyspark.zip/pyspark/rdd.py", line 2346, in pipeline_func
  File "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/lib/pyspark.zip/pyspark/rdd.py", line 317, in func
  File "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/lib/pyspark.zip/pyspark/rdd.py", line 1776, in combineLocally
  File "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/lib/pyspark.zip/pyspark/shuffle.py", line 238, in mergeValues
    d[k] = comb(d[k], v) if k in d else creator(v)
TypeError: unhashable type: 'dict'

我确实在字典中有一个键，可以将其用作不同的元素，但文档没有提供有关如何解决此问题的任何线索。

EDIT:内容由字符串、字符串数组和数字字典组成

EDIT 2:字典的示例...我希望具有相同“data_fingerprint”键的字典被视为相等：

{"id":"4eece341","data_fingerprint":"1707db7bddf011ad884d132bf80baf3c"}

Thanks

正如 @zero323 在他的评论中指出的那样，您必须决定如何比较字典，因为它们不可散列。一种方法是对键进行排序（因为它们不按任何特定顺序），例如按字典顺序。然后创建一个以下形式的字符串：

def dict_to_string(dict):
    ...
    return 'key1|value1|key2|value2...|keyn|valuen'

如果您嵌套了不可散列的对象，则必须递归地执行此操作。

现在您可以将 RDD 转换为与字符串作为键（或其某种哈希值）配对

pairs = dictRDD.map(lambda d: (dict_to_string(d), d))

要得到你想要的，你只需按如下键减少

distinctDicts = pairs.reduceByKey(lambda val1, val2: val1).values()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

RDD

如何在 PySpark 中获得不同的字典 RDD？的相关文章

没有任何元数据的 zip 文件

我想找到一种简单的方法来压缩一堆文件而无需任何文件元数据例如时间戳这zip命令似乎总是保留元数据我没有找到禁用元数据的方法我希望解决方案是一个命令或最多一个 python 脚本谢谢正如一些帖子已经指出的那样 zip 标头中的大
on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
在python中将文本文件解析为列表

我对 Python 完全陌生我正在尝试读取包含单词和数字组合的 txt 文件我可以很好地读取 txt 文件但我正在努力将字符串转换为我可以使用的格式 import matplotlib pyplot as plt import num
Python 3 __getattribute__ 与点访问行为

我读了一些关于 python 的对象属性查找的内容这里 https blog ionelmc ro 2015 02 09 understanding python metaclasses object attribute lookup h
Paramiko - 使用私钥连接 - 不是有效的 OPENSSH 私钥/公钥文件

我正在尝试找到解决方案但无法理解我做错了什么在我的 Linux 服务器上我运行了以下命令 ssh keygen t rsa 这产生了一个id rsa and id rsa pub file 然后我将它们复制到本地并尝试运行以下代码 s
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
如何限制Django CreateView中ForeignKey字段的选择？

我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
sudo pip install python-Levenshtein 失败，错误代码 1

我正在尝试在 Linux 上安装 python Levenshtein 库但每当我尝试通过以下方式安装它时 sudo pip install python Levenshtein 我收到此错误命令 usr bin python c 导入
创建一个类似于 Tkinter 的表

我希望创建类似于 Tkinter 中的表格的东西但它不一定是这样的例如我想创建标题 Name1 Name2 Value 并在每个标题下面有几个空白行然后我希望稍后用我计算的值或名称的字符串值填充这些行因此是标签对于 Name2
如何通过双击在浏览器中打开 ipynb 文件

以前我安装了 Canopy 当时我只需双击 ipynb 文件并在浏览器中打开它们即可但是后来我需要Anaconda 一旦我安装了它这个功能就没有了现在我只希望能够简单地双击 ipynb 文件然后该文件就会在 Firefox 中
如何在 Python 中将彩色输出打印到终端？

是否有与 Perl 等效的 Python 语言 print color red print
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
Python：计算数据帧列中所有行中特定字符的实例数

我有一个包含列 toaddress ccaddress body 的数据框 df 我想迭代数据帧的索引以获取 toaddress 和 ccaddress 字段中电子邮件地址的最小最大和平均数量这是通过计算这两列中每个字段中的和的实
如何在Python和Selenium中通过标签名称或id获取元素[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 和 Selenium 获取输入但它向我显示错误我该如何解决这个错误 inputElement send keys getStock getStocklFunc 0 Error i
为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

尝试抓取条目页面转换为制表符分隔格式主要拉出序列和 UniProt 登录号当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
Django 在选择列表更改时创建毫无意义的迁移

我正在尝试使用可调用创建一个带有选择字段的模型以便 Django 在选择列表更改时不会创建迁移如中所述this https stackoverflow com questions 31788450 stop django from cr
如何有效地从 loadmat 函数生成的嵌套 numpy 数组中提取值？

python中是否有更有效的方法从嵌套的python列表中提取数据例如A array array 12000000 dtype object 我一直在使用A 0 0 0 0 当你有很多像 A 这样的数据时这似乎不是一个有效的方法我也用
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
如何将列表字典写入字符串而不是 CSV 文件？

This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案

随机推荐

在运行时保存并重新加载 app.config(applicationSettings)

我已将应用程序的配置存储在 app config 中通过 Visual Studio 我在项目属性对话框的设置选项卡上创建了一些应用程序密钥然后我在应用程序级别而不是用户级别设置了该密钥 Visual Studio 自动生成以下 x
在操作方法中填充模型后对话框未更新

我正在使用 primefaces 对话框我有一个项目列表每当我选择一个项目时我希望对话框显示该项目名称然而这并没有发生该对话框根本不显示任何名称而不是显示项目名称我在下面发布了我的代码
NSubstitute ILogger .NET Core

我正在尝试围绕异常处理编写单元测试以便可以验证我的记录器是否正确记录了异常我使用 NSubstitute 作为模拟框架Microsoft Extensions Logging ILogger我必须遵循我的测试 Fact public v
链接：警告 LNK4098：defaultlib 'MSVCRT' 与其他库的使用冲突；使用 /NODEFAULTLIB:库

当我尝试构建与 libeay32 lib 链接的源代码时我已经从 OpenSSL 源本地构建了这个我遇到了上述警告 LINK 警告 LNK4098 defaultlib MSVCRT 与其他库的使用冲突使用 NODEFAULTLIB
GIT-SVN克隆命令执行没有错误，但本地master分支丢失

我正在尝试使用 GIT SVN 但在启动时遇到问题我可以克隆 svn 存储库或使用 git svn init 然后使用 git svn fetch 不会出现任何错误但在命令停止处理后 git 存储库为空并且没有本地主分支我的 sv
某些客户端的 HTTP 标头的字符被随机替换

正在进行网络流量和日志分析但有很多从客户端传递的格式错误的标头这些字符被转调或替换为 x 有谁知道它们来自哪里或为什么这是某种安全尝试还是更邪恶的行为例子 xroxy connection Keep Alive cneoction
有人在 Solaris 10x86 上安装了 Rails 3

我想要一种在未连接到互联网的 Solaris 10 x86 服务器上安装 Rails 3 的简单方法我可以下载文件并刻录到 DVD 或记忆棒并以这种方式安装有些软件包是最好的因为并不真正期待从源代码编译有没有人做过这个或看过任何有关
实体框架代码优先迁移和 Firebird

我正在尝试在 Firebird 2 5 数据库上启用迁移我正在使用 VS2015 ADO 驱动程序和实体提供程序已安装并正常工作我对数据库进行了逆向工程进行了必要的更改以使其正常工作我可以在包管理器控制台上执行启用迁移并添加迁移
将 vCard 数据直接添加到系统地址簿

我正在设计一个QR码阅读器它需要检测并导入vCard格式 vcf 的联系人卡片有没有办法直接将名片数据添加到系统地址簿中或者我需要自己解析vCard并单独添加每个字段如果您在 iOS 5 或更高版本上运行以下代码应该可以解决问题
PySpark：搜索文本和子集数据框中的子字符串

我是全新的pyspark并想翻译我现有的pandas python代码到PySpark 我想子集我的dataframe这样只有包含我要查找的特定关键字的行 original problem 字段被返回下面是我在 PySpark 中尝试的
是否可以使用一个 Set-Cookie 设置多个 cookie？

一个HTTP Set Cookie指令只能保存一个cookie 对吗我的意思是一个单name value pair Netscape 的原始 cookie 规范参见这个缓存版本 http web archive org web 200
如何在Ubuntu 15.10中安装最新的JMeter？

当我尝试使用 apt get install JMeter 在 Ubuntu 15 10 中安装 Apache JMeter 时它会安装旧版本 2 11 但是我尝试下载最新的 JMeter 3 0 版本并在尝试运行时jmeter ja
返回延迟承诺对象并解决它

我有一个形式的函数 get members function var group id gid val if this val group id return var deferr Deferred get url done functio
模板多态不起作用？

我正在构建一个小型模板层次结构并尝试利用类多态性下面是一些示例代码无法编译来演示它 template
SwiftUI 如何调整背景颜色的亮度，而不是所有子视图

如何使亮度只影响视图的背景颜色而不影响其子视图我希望文本保持白色但背景变暗这段代码 struct ListCell View let brightness Double var body some View VStack HStack
Python 中的自定义“with open()”语句：生成器没有产生错误

我有一个文件类您可以从中解析数据写入数据等我想从任何应用程序中使用它如下所示 f MyFileClass init method puts a lot of default data in object with f open as
Angular2 - 在动态添加的 HTML 中捕捉/订阅（点击）事件

我正在尝试注入一个包含 click 事件到 Angular2 模板中加载 DOM 后很久就会从后端动态检索字符串 Angular 无法识别注入的内容也就不足为奇了 click event 示例模板 div div 后端给出的示例字符串
JavaFX 模块 javafx.graphics

在修复了 robots awt 的需求问题后我现在在运行应用程序时遇到了另一个问题应用程序构建没有任何问题堆栈跟踪 Exception in Application constructor Exception in thread ma
检测开始和结束标签的奇怪 TagHandler 行为

我正在尝试使用 TextView 显示带有自定义标签的字符串文本字符串
如何在 PySpark 中获得不同的字典 RDD？

我有一个字典的 RDD 我想获得一个仅包含不同元素的 RDD 但是当我尝试打电话时 rdd distinct PySpark 给我以下错误 TypeError unhashable type dict at org apache spar

如何在 PySpark 中获得不同的字典 RDD？

如何在 PySpark 中获得不同的字典 RDD？ 的相关文章

随机推荐

热门标签

如何在 PySpark 中获得不同的字典 RDD？的相关文章