如何确定对象是否是 PySpark 中的有效键值对

2023-11-29

如果我有一个 rdd，我如何理解数据在 key:value 中格式？有没有办法找到相同的东西 - 就像 type(object) 告诉我对象的类型。我试过print type(rdd.take(1))，但它只是说<type 'list'>.
假设我有这样的数据(x,1),(x,2),(y,1),(y,3)我用groupByKey并得到了(x,(1,2)),(y,(1,3))。有没有办法定义(1,2) and (1,3)作为其中 x 和 y 为键的值？或者键必须是单个值？我注意到如果我使用reduceByKey and sum获取数据的函数((x,3),(y,4))那么将这些数据定义为键值对就变得容易多了

Python 是一种动态类型语言，PySpark 不使用任何特殊类型的键、值对。对象被视为有效数据的唯一要求PairRDD操作是可以按如下方式解包：

k, v = kv

通常您会使用两个元素tuple由于其语义（固定大小的不可变对象）和与 Scala 的相似性Product类。但这只是一个约定，没有什么可以阻止你这样做：

键值.py

class KeyValue(object):
    def __init__(self, k, v):
        self.k = k
        self.v = v
    def __iter__(self):
       for x in [self.k, self.v]:
           yield x

from key_value import KeyValue

rdd = sc.parallelize(
    [KeyValue("foo", 1), KeyValue("foo", 2), KeyValue("bar", 0)]) 

rdd.reduceByKey(add).collect()
## [('bar', 0), ('foo', 3)]

并使任意类表现得像核心价值。因此，如果某个东西可以被正确地解包为一对对象，那么它就是一个有效的对象核心价值。实施__len__ and __getitem__魔法方法应该也有效。处理这个问题最优雅的方法可能是使用namedtuples.

Also type(rdd.take(1))返回一个list长度n所以它的类型总是相同的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

key

keyvalue

如何确定对象是否是 PySpark 中的有效键值对的相关文章

此 TypeError 消息中提到的“代码对象”是什么？

在尝试使用Python时exec声明我收到以下错误 TypeError exec arg 1 must be a string file or code object 我不想传递字符串或文件但什么是代码对象如何创建一个创建代码对象的
稀有对象的 python 类型注释，例如 psycopg2 对象

我了解内置类型但是我如何指定稀有对象例如数据库连接对象 def get connection and cursor gt tuple psycopg2 extensions cursor psycopg2 extensions conn
Virtualenv 在 OS X Yosemite 上失败并出现 OSError

我最近更新到 OSX Yosemite 现在无法使用virtualenv pip 每当我执行 virtualenv env 它抛出一个 OSError Command Users administrator ux env bin pytho
Mypy 无法从文字列表推断项目的类型

我有一个变量x和一个文字列表例如 0 1 2 我想转换x这些文字之一如果x在列表中我将其退回否则我返回一个后备值 from typing import Literal Set Foo Literal 0 1 2 foos Set F
在Python中从大文件中搜索单词列表

我是新蟒蛇我有一个单词列表和一个非常大的文件我想删除文件中包含单词列表中的单词的行单词列表按排序给出并且可以在初始化期间输入我正在努力寻找解决这个问题的最佳方法我现在正在进行线性搜索这花费了太多时间有什么建议么您可以使用i
从 Azure ML 实验中访问 Azure Blob 存储

Azure ML 实验提供了通过以下方式读取 CSV 文件并将其写入 Azure Blob 存储的方法 Reader and Writer模块但是我需要将 JSON 文件写入 blob 存储由于没有模块可以执行此操作因此我尝试在Ex
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象？

当对 Pandas groupby 操作的结果执行过滤时它返回一个数据帧但假设我想执行进一步的分组计算我必须再次调用 groupby 这似乎有点绕有更惯用的方法吗 EDIT 为了说明我在说什么我们无耻地从 Pandas 文档中窃取
类型错误：需要二进制或 unicode 字符串，得到 618.0

I ve been trying to implement this ML Linear Model into my dataset https www tensorflow org tutorials estimator linear L
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
python中basestring和types.StringType之间的区别？

有什么区别 isinstance foo types StringType and isinstance foo basestring 对于Python2 basestring是两者的基类str and unicode while type
查找 Pandas DF 行中的最短日期并创建新列

我有一个包含多个日期的表有些日期将为 NaN 我需要找到最旧的日期所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等因此对于每一行一个或多个字段中都会有一个日期
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
使用 PIL 在 Tkinter 中显示动画 GIF

我正在尝试制作一个程序来使用 Tkinter 显示动画 GIF 这是我最初使用的代码 from future import division Just because division doesn t work right in 2 7 4
无法通过 Python 子进程进行 SSH

我需要通过堡垒 ssh 进入机器因此该命令相当长 ssh i
AWS Lambda 不读取环境变量

我正在编写一个 python 脚本来查询 Qualys API 中的漏洞元数据我在 AWS 中将其作为 lambda 函数执行我已经在控制台中设置了环境变量但是当我执行函数时出现以下错误 module initialization
如何编写一个接受 int 或 float 的 C 函数？

我想用 C 语言创建一个扩展 Python 的函数该函数可以接受 float 或 int 类型的输入所以基本上我想要f 5 and f 5 5 成为可接受的输入我认为我不能使用if PyArg ParseTuple args i v
rpy2 无法加载外部库

希望有人能帮忙解决这个问题 R版本 2 14 1rpy2版本 2 2 5蟒蛇版本 2 7 3 一直在尝试在 python 脚本中使用 rpy2 加载 R venneuler 包该包以 rJava 作为依赖项 venneuler 和 rJa
如何从namedtuple实例列表创建pandas DataFrame（带有索引或多索引）？

简单的例子 from collections import namedtuple import pandas Price namedtuple Price ticker date price a Price GE 2010 01 01 30
无法安装最新版本的 Numpy (1.22.3)

我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本我知道我可以从源代码本地安装它但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n

随机推荐

使用 ionic 3 中的 Angularfire2 从 Firestore 获取集合文档的 ID

这个问题在这里已经有答案了我正在尝试获取集合的 id 以在离子页面中使用它这是我的界面 export interface Item categoryOfPost string imageUrl string nameOfPost str
如何使用 Python 3.x 读取和编辑 Google 电子表格？

我知道我可以使用以下命令阅读和编辑 Google 电子表格gdata 但没有适用于 Python 3 的 gdata 版本即使我想使用 Python 3 是否有一种不是很复杂的方法来编辑 Google 电子表格我编写了一个替代方案G
如何在 ffmpeg HLS 中启用 cookie

有人知道如何在 ffmpeg 中启用 cookie 交互吗我有一个 HLS 流需要从服务器保存 cookie 但实际上这不会发生你可以发送标头与 FFmpeg Linux ffmpeg i INPUT headers Cookie l
PyQt QLineEdit 与 QValidator

我的项目中有一个 QLineEdit 我想在 qlineEdit 上使用验证 Create lineEdit itemValue QtWidgets QLineEdit Create objValidator QtGui QDoubleVa
如何逐步安装和使用 joomla rest api

请帮忙我想在 joomla 2 5 中使用 REST api 我在 Github 和 techjoomla 上进行了很多搜索并花了很多天我不明白如何安装 API 扩展或插件并使用它即使我没有找到任何正确的文档来使用 API 以及从哪里
使用 XSLT 减少 XML 输出

如何使用 XSLT 仅从输入 xml 中选择一些 xml 标签到输出 XML 输入示例
设置属性logging.pattern.console或logging.pattern.level时忽略覆盖模式

使用 spring boot 1 3 2 我试图覆盖 application properties 文件中的 logback 模式但无论我放入什么模式总是会调用 spring boot jar xml 中的默认模式我可以成功调整日志记
如何在docker机器中挂载本地卷

我正在尝试将 docker machine 与 docker compose 一起使用文件 docker compose yml 的定义如下 web build command run web sh volumes app ports 8
将标量和数组元素传递给需要数组的过程

我有一些遗留的 Fortran 77 代码我试图至少在不发出警告的情况下进行编译不禁用警告有些子例程调用会传递一个标量而子例程需要一个数组因为标量被用作大小为 1 的数组所以这不会导致任何问题但是使用英特尔编译器如果我启用接
Python3、Selenium 和 Chrome 可移植

也许有人可以帮助使用 Windows Python Selenium 以及使用 Chrome Webdriver 和 ChromePortable 我定义了一个新文件夹 c 我的项目在此文件夹中网络驱动程序位于 c myproject
如何实现多维序列

例如这是每年的序列这no增量与year no year 1 2016 2 2016 3 2016 1 2017 2 2017 4 2016 现在我已经为每年创建了序列但问题是Oracle不会在明年自动创建新的序列另一个问题是如果我想使
sqlsrv_query 是否限制一个查询中可以执行的语句数量？

我正在生成一个 SQLinsertPHP 中的语句for loop 生成的 SQL 字符串是大量单独的 SQL 语句如下所示 INSERT INTO tbl VALUES 1 2 3 INSERT INTO tbl VALUES 4 5
NHibernate 如何将交叉引用表映射到包？

我最近继承了一个包含 NHibernate 的工作项目我对它非常陌生必须对其中一个映射进行修改我已阅读文档here我仍然不确定如何做到这一点或者我的理解术语是否正确因此鉴于以下表结构我需要一个包来获取 ProjectName
需要另一个帮助才能在屏幕上动态显示文本

现在我使用 d3 js 遇到了第二个问题我自己无法解决我得到了一个动态数组路径当我点击时其长度总是会改变然后我在 svg 的起始位置 112 490 得到了一个文本变量在你们的帮助下我现在使用 for 循环根据控制台上的
为什么当 Java 执行 Windows 批处理文件时，它们没有被处理？

我有 2 个文件夹每个文件夹包含数十个批处理文件 bat 包含类似于以下任一文本的批处理文件 del f q F MEDIA IMAGE99 2010 270 z 4034 123 tif gt nul del f q F MEDIA I
如何解释机器学习模型的损失和准确性[关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案当我使用 Theano 或 Tensorflow 训练我的神经网络时它们会报告每个时期的一个名为损失的变量我应该如何解释这个变量损失越高越好或越差或者它对我的神经网络的最
以安全的方式使用docker的远程API

我正在尝试找到一种有效的方法来安全地使用 docker 远程 API 我有一个在远程主机上运行的 docker 守护进程以及在另一台机器上运行的 docker 客户端我需要我的解决方案不依赖于客户端服务器操作系统以便它与任何具有 d
Python 有包/模块管理系统吗？

Python 是否有包模块管理系统类似于 Ruby 有 ruby gems 您可以这样做gem install packagename On 安装Python模块我只看到引用python setup py install 但这需要您先
SimpleXML/PHP - 无法访问对象

tmp2
如何确定对象是否是 PySpark 中的有效键值对

如果我有一个 rdd 我如何理解数据在 key value 中格式有没有办法找到相同的东西就像 type object 告诉我对象的类型我试过print type rdd take 1 但它只是说

如何确定对象是否是 PySpark 中的有效键值对

如何确定对象是否是 PySpark 中的有效键值对 的相关文章

随机推荐

热门标签

如何确定对象是否是 PySpark 中的有效键值对的相关文章