如何在 Spark Dataframe 中按组/分区重命名列？

2024-03-26

我有一些传感器数据按通道名称而不是传感器名称存储在表中（这是为了避免表太宽，因为许多传感器仅在少数设备上使用 - 这是稀疏列的工作，我知道，但我只是数据的用户）。像这样的事情：

from functools import reduce

import numpy as np
import pandas as pd

np.random.seed(0)

data_df = pd.DataFrame({
    'id': ['a']*5 + ['b']*5 + ['c']*5,
    'chan1': range(15),
    'chan2': np.random.uniform(0, 10, size=15),
    'chan3': np.random.uniform(0, 100, size=15)
})

第二个表告诉我们如何根据设备的特定 ID 将通道名称映射到传感器名称：

sensor_channel_df = pd.DataFrame([
    {'id': 'a', 'channel': 'chan1', 'sensor': 'weight'},
    {'id': 'a', 'channel': 'chan2', 'sensor': 'torque'},
    {'id': 'a', 'channel': 'chan3', 'sensor': 'temp'},
    {'id': 'b', 'channel': 'chan1', 'sensor': 'weight'},
    {'id': 'b', 'channel': 'chan2', 'sensor': 'temp'},
    {'id': 'b', 'channel': 'chan3', 'sensor': 'speed'},
    {'id': 'c', 'channel': 'chan1', 'sensor': 'temp'},
    {'id': 'c', 'channel': 'chan2', 'sensor': 'weight'},
    {'id': 'c', 'channel': 'chan3', 'sensor': 'acceleration'},
])

我可以像这样创建一个重命名字典：

channel_rename_dict = sensor_channel_df.groupby('id')\
                                       .apply(lambda grp: dict(zip(grp['channel'], grp['sensor'])))\
                                       .to_dict()

然后用进一步的名称重命名所有列groupby/apply:

data_df.groupby('id')\
       .apply(lambda group: group.rename(columns=channel_rename_dict[group.name]))\
       .reset_index(level=0, drop=True)

我们得到这样的结果：

    acceleration id      speed       temp    torque    weight
0            NaN  a        NaN   8.712930  5.488135  0.000000
1            NaN  a        NaN   2.021840  7.151894  1.000000
2            NaN  a        NaN  83.261985  6.027634  2.000000
3            NaN  a        NaN  77.815675  5.448832  3.000000
4            NaN  a        NaN  87.001215  4.236548  4.000000
5            NaN  b  97.861834   6.458941       NaN  5.000000
6            NaN  b  79.915856   4.375872       NaN  6.000000
7            NaN  b  46.147936   8.917730       NaN  7.000000
8            NaN  b  78.052918   9.636628       NaN  8.000000
9            NaN  b  11.827443   3.834415       NaN  9.000000
10     63.992102  c        NaN  10.000000       NaN  7.917250
11     14.335329  c        NaN  11.000000       NaN  5.288949
12     94.466892  c        NaN  12.000000       NaN  5.680446
13     52.184832  c        NaN  13.000000       NaN  9.255966
14     41.466194  c        NaN  14.000000       NaN  0.710361

这一切都很好（尽管如果我知道在 pandas 中有更好的方法，我不会感到惊讶），并且我用它向一些同事演示了这个过程的逻辑。

然而，对于项目架构，我们决定使用 Spark。有没有办法可以在 Spark 数据帧中实现相同的行为？

我最初的想法是首先cache完整的data_df，然后分解数据框id with filter。例如，假设data_df现在是一个 Spark 数据框：

data_df.cache()
unique_ids = data_df.select('id').distinct().rdd.map(lambda row: row[0]).collect()
split_dfs = {id: data_df.filter(data_df['id'] == id) for id in unique_ids}

然后，如果我们像以前一样有列重命名字典，我们可以执行以下操作：

dfs_paired_with_rename_tuple_lists = [
    (split_dfs[id], list(channel_rename_dict[id].items()))
    for id in unique_ids
]

new_dfs = [
    reduce(lambda df_i, rename_tuple: df_i.withColumnRenamed(*rename_tuple), rename_tuple_list, df)
    for df, rename_tuple_list in dfs_paired_with_rename_tuple_lists
]

然后我可以执行reduce with a Union()确保它们具有公共列后，在 Spark Dataframes 列表上。

我的感觉是，这会非常慢，而且可能有更好的方法来解决这个问题。

首先，让我们重新定义映射到 group bychannel并返回MapType Column (toolz https://github.com/pytoolz/toolz很方便，但可以替换为itertools.chain)*:

from toolz import concat, interleave
from pyspark.sql.functions import col, create_map, lit, struct

# Create literal column from id to sensor -> channel map
channel_map = create_map(*concat((lit(k), v) for k, v in sensor_channel_df
    .groupby("id")
    # Create map Column from literal label to channel
    .apply(lambda grp: create_map(*interleave([
        map(lit, grp["sensor"]),
        map(col, grp["channel"])])))
    .to_dict()
    .items()))

接下来，获取传感器列表：

sensors = sorted(sensor_channel_df["sensor"].unique().tolist())

并合并数据列：

df = spark.createDataFrame(data_df)
data_cols = struct(*[c for c in df.columns if c != "id"])

上面定义的组件可以组合：

cols = [channel_map[col("id")][sensor].alias(sensor) for sensor in sensors]

df.select(["id"] + cols)

+---+------------------+------------------+------------------+------------------+------------------+
| id|      acceleration|             speed|              temp|            torque|            weight|
+---+------------------+------------------+------------------+------------------+------------------+
|  a|              null|              null| 8.712929970154072|5.4881350392732475|               0.0|
|  a|              null|              null| 2.021839744032572| 7.151893663724195|               1.0|
|  a|              null|              null|  83.2619845547938| 6.027633760716439|               2.0|
|  a|              null|              null| 77.81567509498505| 5.448831829968968|               3.0|
|  a|              null|              null| 87.00121482468191| 4.236547993389047|               4.0|
|  b|              null|  97.8618342232764| 6.458941130666561|              null|               5.0|
|  b|              null| 79.91585642167236| 4.375872112626925|              null|               6.0|
|  b|              null|46.147936225293186| 8.917730007820797|              null|               7.0|
|  b|              null| 78.05291762864555| 9.636627605010293|              null|               8.0|
|  b|              null|11.827442586893323|3.8344151882577773|              null|               9.0|
|  c| 63.99210213275238|              null|              10.0|              null| 7.917250380826646|
|  c| 14.33532874090464|              null|              11.0|              null| 5.288949197529044|
|  c| 94.46689170495839|              null|              12.0|              null| 5.680445610939323|
|  c|52.184832175007166|              null|              13.0|              null|  9.25596638292661|
|  c| 41.46619399905236|              null|              14.0|              null|0.7103605819788694|
+---+------------------+------------------+------------------+------------------+------------------+

尽管效率较低，但也可以使用udf:

from toolz import unique
from pyspark.sql.types import *
from pyspark.sql.functions import udf

channel_dict = (sensor_channel_df
    .groupby("id")
    .apply(lambda grp: dict(zip(grp["sensor"], grp["channel"])))
    .to_dict())

def remap(d):
    fields = sorted(unique(concat(_.keys() for _ in d.values())))
    schema = StructType([StructField(f, DoubleType()) for f in fields])
    def _(row, id):
        return tuple(float(row[d[id].get(f)]) if d[id].get(f) is not None 
                     else None for f in fields)
    return udf(_, schema)

(df
    .withColumn("vals", remap(channel_dict)(data_cols, "id"))
    .select("id", "vals.*"))

+---+------------------+------------------+------------------+------------------+------------------+
| id|      acceleration|             speed|              temp|            torque|            weight|
+---+------------------+------------------+------------------+------------------+------------------+
|  a|              null|              null| 8.712929970154072|5.4881350392732475|               0.0|
|  a|              null|              null| 2.021839744032572| 7.151893663724195|               1.0|
|  a|              null|              null|  83.2619845547938| 6.027633760716439|               2.0|
|  a|              null|              null| 77.81567509498505| 5.448831829968968|               3.0|
|  a|              null|              null| 87.00121482468191| 4.236547993389047|               4.0|
|  b|              null|  97.8618342232764| 6.458941130666561|              null|               5.0|
|  b|              null| 79.91585642167236| 4.375872112626925|              null|               6.0|
|  b|              null|46.147936225293186| 8.917730007820797|              null|               7.0|
|  b|              null| 78.05291762864555| 9.636627605010293|              null|               8.0|
|  b|              null|11.827442586893323|3.8344151882577773|              null|               9.0|
|  c| 63.99210213275238|              null|              10.0|              null| 7.917250380826646|
|  c| 14.33532874090464|              null|              11.0|              null| 5.288949197529044|
|  c| 94.46689170495839|              null|              12.0|              null| 5.680445610939323|
|  c|52.184832175007166|              null|              13.0|              null|  9.25596638292661|
|  c| 41.46619399905236|              null|              14.0|              null|0.7103605819788694|
+---+------------------+------------------+------------------+------------------+------------------+

在 Spark 2.3 或更高版本中，您可以应用当前代码矢量化UDF https://stackoverflow.com/a/47497815/6910411.

* 为了理解这里发生了什么，让我们看一下单个组，由apply:

grp = sensor_channel_df.groupby("id").get_group("a")

首先我们转换sensor将传感器列转换为 Spark 文字序列Columns（考虑常数值）：

keys = list(map(lit, grp["sensor"]))
keys

Column<b'weight'>, Column<b'torque'>, Column<b'temp'>]

and sensorSpark 的列到序列Columns（考虑指向数据的指针）：

values = list(map(col, grp["channel"]))
values

[Column<b'chan1'>, Column<b'chan2'>, Column<b'chan3'>]

当在上下文中评估时，前一个将导致恒定的输出：

df_ = df.drop_duplicates(subset=["id"])

df_.select(keys).show()

+------+------+----+
|weight|torque|temp|
+------+------+----+
|weight|torque|temp|
|weight|torque|temp|
|weight|torque|temp|
+------+------+----+

而后者会重复数据：

df_.select(values).show(3)

+-----+------------------+-----------------+
|chan1|             chan2|            chan3|
+-----+------------------+-----------------+
|   10| 7.917250380826646|63.99210213275238|
|    5| 6.458941130666561| 97.8618342232764|
|    0|5.4881350392732475|8.712929970154072|
+-----+------------------+-----------------+

接下来我们将这两个交错并组合成一个MapType column:

mapping = create_map(*interleave([keys, values]))
mapping

Column<b'map(weight, chan1, torque, chan2, temp, chan3)'>

这为我们提供了从指标名称到数据列的映射（想想 Pythondict），并且评估时：

df_.select(mapping).show(3, False)

+---------------------------------------------------------------------------+
|map(weight, chan1, torque, chan2, temp, chan3)                             |
+---------------------------------------------------------------------------+
|Map(weight -> 10.0, torque -> 7.917250380826646, temp -> 63.99210213275238)|
|Map(weight -> 5.0, torque -> 6.458941130666561, temp -> 97.8618342232764)  |
|Map(weight -> 0.0, torque -> 5.4881350392732475, temp -> 8.712929970154072)|
+---------------------------------------------------------------------------+

最后，外部理解对所有组重复此操作，所以channel_map is a Column:

Column<b'map(a, map(weight, chan1, torque, chan2, temp, chan3), b, map(weight, chan1, temp, chan2, speed, chan3), c, map(temp, chan1, weight, chan2, acceleration, chan3))'>

评估给出以下结构：

df_.select(channel_map.alias("channel_map")).show(3, False)

+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|Map(a -> Map(weight -> 10.0, torque -> 7.917250380826646, temp -> 63.99210213275238), b -> Map(weight -> 10.0, temp -> 7.917250380826646, speed -> 63.99210213275238), c -> Map(temp -> 10.0, weight -> 7.917250380826646, acceleration -> 63.99210213275238))|
|Map(a -> Map(weight -> 5.0, torque -> 6.458941130666561, temp -> 97.8618342232764), b -> Map(weight -> 5.0, temp -> 6.458941130666561, speed -> 97.8618342232764), c -> Map(temp -> 5.0, weight -> 6.458941130666561, acceleration -> 97.8618342232764))      |
|Map(a -> Map(weight -> 0.0, torque -> 5.4881350392732475, temp -> 8.712929970154072), b -> Map(weight -> 0.0, temp -> 5.4881350392732475, speed -> 8.712929970154072), c -> Map(temp -> 0.0, weight -> 5.4881350392732475, acceleration -> 8.712929970154072))|
+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

最后我们使用id要选择的列map出于兴趣：

df_.select(channel_map[col("id")].alias("data_mapping")).show(3, False)

+---------------------------------------------------------------------------------+
|data_mapping                                                                     |
+---------------------------------------------------------------------------------+
|Map(temp -> 10.0, weight -> 7.917250380826646, acceleration -> 63.99210213275238)|
|Map(weight -> 5.0, temp -> 6.458941130666561, speed -> 97.8618342232764)         |
|Map(weight -> 0.0, torque -> 5.4881350392732475, temp -> 8.712929970154072)      |
+---------------------------------------------------------------------------------+

和列名以从中提取值map:

df_.select(channel_map[col("id")]["weight"].alias("weight")).show(3, False)

+-----------------+
|weight           |
+-----------------+
|7.917250380826646|
|5.0              |
|0.0              |
+-----------------+

归根结底，这只是对包含符号表达式的数据结构的一系列简单转换。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

如何在 Spark Dataframe 中按组/分区重命名列？的相关文章

从字典的元素创建 Pandas 数据框

我正在尝试从字典创建一个 pandas 数据框字典设置为 nvalues y1 1 2 3 4 y2 5 6 7 8 y3 a b c d 我希望数据框仅包含 y1 and y2 到目前为止我可以使用 df pd DataFrame fr
如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
如何为未捕获的异常处理程序编写单元测试

我有一个函数可以捕获uncaught例外情况如下有没有办法编写一个单元测试来执行uncaught exception handler 功能正常但测试正常退出 import logging def config logger logge
使用 Python 3 动态插入到 sqlite

我想使用 sqlite 写入多个表但我不想提前手动指定查询有数十种可能的排列例如 def insert sqlite tablename data list global dbc dbc execute insert into tab
python array(10,1) 和 array(10,) 之间的区别

我正在尝试将 MNIST 数据集加载到数组中当我使用 X train y train X test y test mnist load data 我得到一个数组 y test 10000 但我希望它的形状为 10000 1 数组 1000
为什么第二个 request.session cookies 返回空？

我想使用 requests Session post 登录网站但是当我已经登录主页然后进入帐户页面时看来cookies还没有保存因为cookies是空的而且我无法进入正确的帐户页面 import requests from bs4
以类型化内存视图作为成员的结构定义

目前我正在尝试让一个具有类型化内存视图的结构能够工作例如 ctypedef struct node unsigned int inds 如果 inds 不是内存视图据我所知它可以完美地工作然而通过内存视图并使用类似的东西 def
是否有一个包可以维护所有带有符号的货币列表？

是否有一个 python 包提供所有或相当完整货币的列表与符号如美元的有优秀的pycountry 贪财的 https github com limist py moneyed and ccy http code google com
如何将 sql 数据输出到 QCalendarWidget

我希望能够在日历小部件上突出显示 SQL 数据库中的一天就像启动程序时突出显示当前日期一样在我的示例中它是红色突出显示我想要发生的是当用户按下突出显示的日期时数据库中日期旁边的文本将显示在日历下方的标签上这是我使用 QT De
python celery -A 的无效值无法加载应用程序

我有一个以下项目目录 azima init py main py tasks py task py from main import app app task def add x y return x y app task def mul
如何使用 Homebrew 在 Mac 上安装 Python 2 和 3？

我需要能够在 Python 2 和 3 之间来回切换我如何使用 Homebrew 来做到这一点因为我不想弄乱路径并陷入麻烦现在我已经通过 Homebrew 安装了 2 7 我会用pyenv https github com yyuu
在Python中读取tiff标签

我正在尝试用 Python 读取 tiff 文件的标签该文件是 RGB 的uint16每个通道的值我目前正在使用tifffile import tifffile img tifffile imread file tif 然而 img是一
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
确定分割形状几何体的“左”侧和“右”侧

我的问题是我怎样才能确定哪一个Aside and Bside的侧面已经分割的旋转矩形几何体 http nbviewer jupyter org urls dl dropbox com s ll3mchnx0jwzjnf determine
根据多个阈值将 SciPy 分层树状图切割成簇

我想将 SciPy 的树状图切割成多个具有多个阈值的簇我尝试过使用 fcluster 但它只能削减一个阈值例如这是我从另一个问题中摘取的一段代码 import pandas data pandas DataFrame total ru
寻找完美的正方形

我有这个Python代码 def sqrt x ans 0 if x gt 0 while ans ans lt x ans ans 1 if ans ans x print x is not a perfect square return
PyQt5：如何使QThread返回数据到主线程

I am a PyQt 5 4 1 1初学者我的Python是3 4 3 这是我尝试遵循的many https mayaposch wordpress com 2011 11 01 how to really truly use qthr
在matlab中，如何读取python pickle文件？

在 python 中我生成了一个 p 数据文件 pickle dump allData open myallData p wb 现在我想在Matlab中读取myallData p 我的Matlab安装在Windows 8下其中没有Pyt
django jet 中的自定义徽标

我目前正在尝试对 django 管理面板的皮肤进行一些定制以使其更符合我们的品牌目前我们使用 django jet 来美化管理面板 django jet 可以自定义 css html 吗所有评论都说我应该更改一些 html 文件但我
如何绘制更大的边界框和仅裁剪边界框文本 Python Opencv

我正在使用 easyocr 来检测图像中的文本该方法给出输出边界框输入图像如下所示 Image 1 Image 2 使用下面的代码获得输出图像 But I want to draw a Single Bigger bounding bo

随机推荐

INotifyPropertyChanged - 事件保持为空

我正在尝试实现以下 INotifyPropertyChanged 扩展自动 INotifyPropertyChanged https stackoverflow com questions 527602 automatically ino
具有 MySQL 连接的 Nodejs 集群

寻找有关 Nodejs 集群和连接 mysql 服务器的方法的建议我们是为每个子进程打开一个连接还是为所有进程只打开一个连接或者我们为所有子进程创建一个连接池推荐的方法是什么单节点进程 var mysql require mysq
java.lang.IllegalStateException：驱动程序可执行文件不存在：C:\Users\jagrelot\workspace\AntBuildExample\chromedriver.exe 与 ChromeDriver

当我尝试在 Eclipse 中运行 Selenium 时出现驱动程序可执行文件不存在错误我已确保 exe 的路径正确并且设置了环境 PATH 变量该错误引用了位于 Java 项目工作区中的旧驱动程序位置当我通过命令行运行它时它似
如何使用 Geo 库创建有效的 Ecto 模型变更集？

我正在尝试使用Geo https github com bryanjos geo通过 Phoenix 模型变更集存储 Geo Point 的库我的参数是 coordinates 49 44 17 87 或者更喜欢的是 coordinate
boost::hash_combine 与简单异或运算

使用boost库时函数boost hash combine工作原理如下 seed hash value v 0x9e3779b9 seed lt lt 6 seed gt gt 2 http www boost org doc libs
通过 css 的 Vaadin Flow/10/11 样式组件

我的问题很基本如何将 css 文件中的样式添加到基本 vaadin 组件中我做什么NOT想要使用聚合物模板 getStyle set 我是否必须 ImportHtml 其中包含 css 代码还是必须 StyleSheet 与 css
System.Net.Mail 和 =?utf-8?B?XXXXX.... 标头

我正在尝试使用下面的代码通过以下方式发送消息System Net Mail and am 有时获得像这样的主题 utf 8 B W3AxM25dIEZpbGV 修剪这就是所谓的代码 MailMessage message new Mail
使用 Fluentvalidation 显示带有 NotEmpty 的星号

我想在 Asp Net MVC 4 网页上显示label当属性有时带有星号NotEmpty rule 只需将此函数添加到您的常用脚本函数中并在加载时运行 document ready function setRequired functio
从Android模拟器读取C盘文件

我正在 Android 模拟器上尝试测试应用程序我希望该应用程序将数据写入存储在我的 C 驱动器上的文件我已经从 Samba 驱动器和 Web 服务读取和写入数据但读取和写入本地硬盘似乎是一个难题我试过filePath file C
如何在隐藏的默认浏览器中打开网页？德尔福

我一直试图从 delphi 打开隐藏的默认浏览器但无法打开 I tried ShellExecute self WindowHandle open www google com nil nil SW HIDE 我打开了 chrome 浏览
android 6.0.1 (Galaxy Note 5) 通过 FCM 推送通知，优先级高，不从瞌睡模式中唤醒

经过几周的寻找答案后遇到了无数的剖析没有人提供解决方案甚至没有人找出问题或改变 https github com firebase quickstart android issues 89 https github com fire
覆盖标记点击操作

我想在用户单击编辑器左侧垂直标尺上的标记时添加自定义操作我设法通过添加来运行自定义操作plugin xml下面的代码
json_encode PHP 数组为 JSON 数组而不是 JSON 对象

我在 PHP 中有以下数组 Array 0 gt Array id gt 0 name gt name1 short name gt n1 2 gt Array id gt 2 name gt name2 short name gt n2
如何在给定宽度和高度的情况下调整对象的 2D 向量的大小？

我的课 GameBoard 有一个成员变量它是该类对象的二维向量Tile The GameBoard构造函数将宽度和高度作为参数我怎样才能得到二维向量Tile根据传递给构造函数的宽度和高度调整对象大小我怎样才能填充它Tile对象以便我
CSV 字符串到数据表

我有以下字符串我想将其转换为数据表 Id Name Dept r n1 Mike IT r n2 Joe HR r n3 Peter IT r n 我可以使用 String Split 并迭代集合来创建它但我需要有效的方法使用 C 4
带有嵌入式哈希表的 Powershell ConvertTo-json

我在 ConvertTo Json 方面遇到问题并试图理解其行为和或我做错了什么考虑以下命令序列 val ID 10 Config ID 11 Config ID 12 Config end ConvertTo json val Co
dask 数据帧 head() 返回空 df

我有一个 dask 数据框其中一列上有索引问题是如果我执行 df head 它总是返回一个空的 df 而 df tail 总是返回正确的 df 我检查过 df head 总是检查第一个分区中的前 n 个条目因此如果我执行 df re
在 AppDomain 之间共享数据

我有一个可以有多个应用程序域的进程每个AppDomain 都会收集一些统计数据在指定的时间之后我想累积这些统计数据并将它们保存到文件中实现此目的的一种方法是远程处理我想避免这种情况我想到的唯一其他技术是将每个应用程序域的数据保存
MVC contrib 寻呼机

我这样使用它有没有简单的方法来更改呈现的网址我查找了更多文档但找不到太多你到底想改变什么这是我更改 URL 的方法 Html Pager Model AssetsPagedList First First Last Last Ne
如何在 Spark Dataframe 中按组/分区重命名列？

我有一些传感器数据按通道名称而不是传感器名称存储在表中这是为了避免表太宽因为许多传感器仅在少数设备上使用这是稀疏列的工作我知道但我只是数据的用户像这样的事情 from functools import reduce import

如何在 Spark Dataframe 中按组/分区重命名列？

如何在 Spark Dataframe 中按组/分区重命名列？ 的相关文章

随机推荐

热门标签

如何在 Spark Dataframe 中按组/分区重命名列？的相关文章