PySpark：从数据帧创建字典的字典？

2024-01-11

我有以下格式的数据，这些数据是从 Hive 获取到数据帧中的：

date, stock, price
1388534400, GOOG, 50
1388534400, FB, 60
1388534400, MSFT, 55
1388620800, GOOG, 52
1388620800, FB, 61
1388620800, MSFT, 55

其中 date 是当天午夜的纪元，我们有 10 年前左右的数据（8 亿多行）。我想要一本字典如下：

{
'GOOG':
{
'1388534400': 50,
'1388620800': 52
}

'FB':
{
'1388534400': 60,
'1388620800': 61
}
}

一种天真的方法是获取唯一股票的列表，然后通过仅筛选出每只股票的那些行来获取数据帧的子集，但这似乎过于天真且效率极低。这在 Spark 中可以轻松完成吗？我目前已经使用 PyHive 在本机 Python 中工作，但由于数据量巨大，我宁愿在集群/Spark 上完成此操作。

在spark 2.4中你可以使用map_from_arrays在汇总每只股票的价值时构建日期价值地图。那么就只是使用的问题了create_map使用股票代码作为键。本示例使用ChainMap从 python 3.4 开始构建最终的 dict 结构，如您所描述的。

import json
from collections import ChainMap
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

spark = SparkSession \
    .builder \
    .appName("example") \
    .getOrCreate()

df = spark.createDataFrame([
    (1388534400, "GOOG", 50),
    (1388534400, "FB", 60),
    (1388534400, "MSFT", 55),
    (1388620800, "GOOG", 52),
    (1388620800, "FB", 61),
    (1388620800, "MSFT", 55)]
).toDF("date", "stock", "price")

out = df.groupBy("stock") \
        .agg(
            map_from_arrays(
                collect_list("date"), collect_list("price")).alias("values")) \
        .select(create_map("stock", "values").alias("values")) \
        .rdd.flatMap(lambda x: x) \
        .collect()

print(json.dumps(dict(ChainMap(*out)), indent=4, separators=(',', ': '), sort_keys=True))

这使：

{                                                                               
    "FB": {
        "1388534400": 60,
        "1388620800": 61
    },
    "GOOG": {
        "1388534400": 50,
        "1388620800": 52
    },
    "MSFT": {
        "1388534400": 55,
        "1388620800": 55
    }
}

However，正如你所说，你有很多数据，你可能实际上不想在内存中创建这个字典，所以你最好将其拆分并将相同的字典结构写入不同分区的文件中。

让我们通过将日期截断为给定月份并为每个月和每只股票编写单独的文件来实现这一点：

out = df.groupBy(trunc(expr("CAST(date as TIMESTAMP)"), "month").alias("month"), df["stock"]) \
        .agg(
            map_from_arrays(
                collect_list("date"), collect_list("price")).alias("values")) \
        .select("month", "stock", create_map("stock", "values").alias("values"))

out.write.partitionBy("month", "stock").format("json").save("out/prices")

这将为您提供如下结构：

out
└── prices
    ├── _SUCCESS
    └── month=2014-01-01
        ├── stock=FB
        │   └── part-00093-3741bdc2-345a-488e-82da-53bb586cd23b.c000.json
        ├── stock=GOOG
        │   └── part-00014-3741bdc2-345a-488e-82da-53bb586cd23b.c000.json
        └── stock=MSFT
            └── part-00152-3741bdc2-345a-488e-82da-53bb586cd23b.c000.json

MSFT 文件如下所示：

{"values":{"MSFT":{"1388534400":55,"1388620800":55}}}

虽然“值”列名称可能不在您的字典结构中，但我希望这说明您可以做什么。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark：从数据帧创建字典的字典？的相关文章

关于使用Python启动SSH隧道的问题

我在从用 Python 编写的 HTTP RPC 服务器启动 SSH 隧道时遇到了麻烦基于Python的BaseHTTPServer 有一个用Python编写的简单的HTTP RPC服务器作为其中一项服务的一部分我想启动从 RPC 服
QSortFilterProxyModel + QAbstractItemModel modelIndex.internalPointer() 导致崩溃

我在 PyQt 4 8 Python 2 7 中实现了自己的 QAbstractItemModel class FriendListModel QtCore QAbstractItemModel def init self groups c
使用 Marshmallow 中的数据更新行 (SQLAlchemy)

我正在使用 Flask Flask SQLAlchemy Flask Marshmallow marshmallow sqlalchemy 尝试实现 REST api PUT 方法我还没有找到任何使用 SQLA 和 Marshmallow
错误只有 size-1 数组可以转换为 Python 标量

我有这个代码 for a in data X for i in a if not i isdigit x hash i data X column row x row row 1 row 0 column column 1 desired
OpenCV Python 删除图像中的某些对象

我正在使用带有 opencv 和 numpy 的 python 来检测天文中的星星例如这个1 https i stack imgur com AKwEJ jpg图片使用模板匹配我可以用阈值检测星星单击 2 2 https i sta
使用 python 通过搜索端点从 Spotify API 获取曲目

因此我尝试使用 API 的搜索端点进行搜索从而从 Spotify API 获取曲目请参阅文档 https developer spotify com documentation web api reference search sea
在一张图中同时绘制两个截面强度

我有一个形状数组 512 512 看起来像行 x 列 y 密度 z 数组的数量 0 012825 0 020408 0 022976 0 015938 0 02165 0 024357 0 036332 0 031904 0 025462
Python 中的二进制相移键控

我目前正在编写一些代码以使用音频转换通过激光传输消息文件和其他数据我当前的代码使用 python 中 binascii 模块中的 hexlify 函数将数据转换为二进制然后为 1 发出一个音调为 0 发出不同的音调这在理论上是
Spark运行错误java.lang.NoClassDefFoundError: org/codehaus/jackson/annotate/JsonClass

import org apache spark SparkContext import org apache spark SparkConf import play api libs json import java util Date i
打印一个 Jupyter 单元中定义的所有变量

有没有一种更简单的方法来以漂亮的方式显示单个单元格中定义的所有变量的名称和值我现在做的方式是这样的但是当有30个或更多变量时我浪费了很多时间您可以使用whos http ipython readthedocs io en stable
从文档字符串生成 sphinx 文档不起作用

我有一个具有以下结构的项目我想保留 my project build here is where sphinx should dump into requirements txt make bat Makefile more config
如何创建指向指针数组的 Python ctypes 指针

我需要学习如何处理char 在下面的 C 方法中通过 Python ctypes 我通过使用调用其他只需要单个指针的方法做得很好create string buffer 但此方法需要一个指向指针数组的指针 ladybugConvertToM
如何在 Tkinter 的 Button 小部件中创建多个标签？

我想知道如何在 Tkinter 中创建具有多个标签的按钮小部件如下图所示带有子标签的按钮 https i stack imgur com jOZRw jpg正如您所看到的在某些按钮中有一个子标签例如按钮 X 有另一个小标签 A 我试
通过套接字发送字符串（python）

我有两个脚本 Server py 和 Client py 我心中有两个目标能够从客户端一次又一次地向服务器发送数据能够将数据从服务器发送到客户端这是我的 Server py import socket serversocket soc
Apache Spark 从 S3 读取异常：内容长度分隔消息正文过早结束（预期：2,250,236；收到：16,360）

我想从 S3 资源创建 Apache Spark DataFrame 我在 AWS 和 IBM S3 Clout 对象存储上尝试过都失败了 org apache spark util TaskCompletionListenerExcep
python 的 fcntl.flock 函数是否提供文件访问的线程级锁定？

Python 的 fcnt 模块提供了一种名为 flock 1 的方法来证明文件锁定其描述如下对文件执行锁定操作op 描述符 fd 文件对象提供 fileno 方法被接受为出色地请参阅 Unix 手册集群 2 了解详情在某些系统上
在 Gensim 中通过 ID 检索文档的字符串版本

我正在使用 Gensim 进行一些主题建模并且已经达到使用 LSI 和 tf idf 模型进行相似性查询的程度我取回 ID 集和相似点例如 299501 0 64505910873413086 如何获取与 ID 在本例中为 29950
python IDLE shell 似乎无法正确处理一些转义

例如 b 退格键打印为四元在下面的示例中显示为但是 n 换行是可以的 gt gt gt print abc bd abc d gt gt gt print abc nd abc d 我在 Vista pro python 2 7 下运行
Elastic Beanstalk 上的 Django + MySQL - 查询 MySQL 时出错

当我在 Elastic beanstalk 上托管的 Django 应用程序上查询 MySQL 时出现错误错误说 admin login 处出现操作错误 1045 用户 adminDB 172 30 23 5 的访问被拒绝使用密码 Y
如何指定一个变量作为类或类实例的成员变量？

在最新的 Python 2 7 x 中给定类定义内的任何成员变量该成员变量是否始终处于类级别因为它是由该类的所有实例共享的单个变量在类的定义中如何指定类定义中的哪些成员变量属于该类因此由该类的所有实例共享以及哪些属于该类的

随机推荐

Vimeo API：使用 HTTP PUT 和 blueimp 的 jQuery 文件上传进行流式上传

我正在尝试在网站上实现一个上传模块该模块允许我们的用户将视频上传到我们的 Vimeo 帐户我正在使用 blueimp 的 jQuery 文件上传和 Vimeo 的新 API https github com blueimp jQuery
Three.js - 3D 对象中的矩阵代表什么

查看THREE Object3D的源码有3个属性 matrix matrixWorld and matrixRotationWorld 我看到物体的位置比例和旋转可以从中提取matrix 我还看到物体上一个点的世界位置可以从matrix
'find_library' 在 CMake 循环中返回相同的值

我正在尝试循环遍历 CMake 中包含库名称的列表在每次迭代中我都会搜索库find library set LIB NAMES TKBO TKBRep set LIBS DIR usr local OCCT 7 2 0 libd FORE
Rails Gem “Axlsx”/“Rails-Axlsx” - 添加图像

我尝试将一张图像添加到我的工作簿工作表中代码 wb add worksheet name gt Doc1 page setup gt setup print options gt options do sheet img File ex
在 Asp.Net Identity 2 中构建自定义用户检查密码

我需要在 asp net MVC 5 中实现并使用 Asp Net Identity 2 的应用程序中构建自定义用户密码检查我在 stackoverflow 上读到一篇文章在 Identity 2 1 中编写自定义 IUserPassw
如何在 PowerBi 中将切片器中的选定值设置为 API

我想从切片器中选择时间并将用户选择的值放入 API 中当我从 API 获取值后分析将在我的本地计算机上进行并将分析后的数据设置到 PowerBi 中用于用户选择的数据我使用以下 API 设置上述切片器 http localhost
DB2 VARCHAR unicode 数据存储

目前我们在 DB2 中使用 VARCHAR 来存储文本数据但是我们遇到了这样的问题指定的 VARCHAR 长度与文本长度不同因为在 DB2 中指定的 VARCHAR 长度是 UTF 8 数据长度该长度可能会根据存储的文本数据而变
如何在 ionic 4 中刷新页面

我想在成功删除数据后刷新页面当我删除或更新时我必须先刷新页面然后刷新数据如何在 ionic 4 中使用 navController 请帮助我图书列表 page html
Blazor 角色管理通过 UI 添加角色（Crud）

我对 blazor 还很陌生并且对向数据库添加角色感到有些疑问我已经实施了身份角色管理并拥有一个工作系统但现在我想通过 GUI 添加新角色而不是编辑数据库我有一个名为 RolesOverview razor 的 razor 页面
如何避免每个 html 页面中重复页眉和页脚代码

我有大约十个 html 页面每个页面也有相同的页眉和页脚标记我可以有一个包含完整页眉和页脚的页面吗我将从其他 html 页面引用该特定页面如果您不关心禁用了 JavaScript 的用户或者正在使用某些移动平台则可以使用 Jav
install.packages 错误：本地存储库使用故障排除

我刚刚创建了一个包 RTIO 和一个包存储库 Q Integrated Planning R 这是公司网络驱动器我已将我的包放入文件夹中 Q Integrated Planning R bin windows contrib 2 15 R
getElementsByTagName 为 null 或未定义，仅在 IE 中 - 并且仅在函数中的一个特定位置 [重复]

这个问题在这里已经有答案了可能的重复 IE 中的 getElementById contentDocument 错误 https stackoverflow com questions 1477547 getelementbyid con
无线电上的 Chrome 断点不会触发

I have a page where some JavaScript modifies a radio button to be not checked and another to be checked the HTML source
变量的 JavaScript 属性

我的 JavaScript 代码有问题我现在开始处理一些更复杂的事情似乎在网上找到了一些答案但不幸的是我无法解决它问题是我想要变量sGetMobileField and ValMob获取参数但这样它不起作用 var oField
PowerShell - 将对象传递给启动作业 - 反序列化

我知道通过 start job 执行的脚本块无法看到脚本块之外的变量要传递变量请使用 arguments范围从我读过的 doco 来看作业不能在没有连载 https learn microsoft com en us powersh
不带任何特殊字符的 10 位数字的正则表达式

10 位数字的正则表达式是什么无特殊字符且无小数使用此正则表达式仅匹配十位数字 d 10 要查找字符串中任意位置的十个连续数字的序列请使用 d 10 请注意这还将查找 11 位数字的前 10 位数字在字符串中的任意位置搜索exac
当您没有对容器的引用时，是否可以让温莎城堡解决属性依赖关系？

我们有一个包含多个项目的解决方案代表我们应用程序的各个层例如 Domain Data Logic WebUI 我们的温莎城堡容器是从我们的 Web 层引用的然后我们通过我们的层将这些依赖项级联起来例如 In Domain publi
jquery 插件语法包装器

这到底是做什么的我知道它被 jquery 插件包围但并没有真正理解它的作用 function undefined Plugin goes here jQuery 是一种在 javascript 中运行一段代码的方法第一对括号是代码部分
php 在实例中设置匿名函数

我刚刚开始使用 PHP 我想知道是否有一种方法可以将匿名函数添加到类实例中例如可以说 class A public B c new A This is where I am getting a little confused The f
PySpark：从数据帧创建字典的字典？

我有以下格式的数据这些数据是从 Hive 获取到数据帧中的 date stock price 1388534400 GOOG 50 1388534400 FB 60 1388534400 MSFT 55 1388620800 GOOG 5

PySpark：从数据帧创建字典的字典？

PySpark：从数据帧创建字典的字典？ 的相关文章

随机推荐

热门标签

PySpark：从数据帧创建字典的字典？的相关文章