PySpark - 按列的值拆分/过滤 DataFrame

2023-12-25

我有一个与此示例类似的 DataFrame：

Timestamp | Word | Count

30/12/2015 | example_1 | 3

29/12/2015 | example_2 | 1

28/12/2015 | example_2 | 9

27/12/2015 | example_3 | 7

... | ... | ...

我想按“单词”列的值拆分此数据框以获得 DataFrame 的“列表”（以在下一步中绘制一些数字）。例如：

DF1

Timestamp | Word | Count

30/12/2015 | example_1 | 3

DF2

Timestamp | Word | Count

29/12/2015 | example_2 | 1

28/12/2015 | example_2 | 9

DF3

Timestamp | Word | Count

27/12/2015 | example_3 | 7

有没有办法用 PySpark (1.6) 做到这一点？

它不会有效，但您可以使用过滤器映射唯一值列表：

words = df.select("Word").distinct().flatMap(lambda x: x).collect()
dfs = [df.where(df["Word"] == word) for word in words]

Spark 2.0 后

words = df.select("Word").distinct().rdd.flatMap(lambda x: x).collect()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

DataFrame

PySpark

apachesparksql

PySpark - 按列的值拆分/过滤 DataFrame 的相关文章

Spark LDA 困境 - 预测和 OOM 问题

我正在评估 Spark 1 6 0 来构建大型数百万个文档数百万个特征数千个主题 LDA 模型并进行预测这是我可以使用 Yahoo 轻松完成的任务 LDA 从小处开始按照 Java 示例我使用分布式模型 EM 优化器构建了 10
按每个元素中出现的数字对字符串列表进行排序[重复]

这个问题在这里已经有答案了我有一个脚本其目的是对不断下载到服务器上的空间数据集文件进行排序和处理我的列表目前大致如下 list file t00Z wrff02 grib2 file t00Z wrff03 grib2 file t0
我可以在 matplotlib 中的绘图左侧放置一个垂直颜色条吗？

来自颜色条方法的 matplotlib 命令摘要 http matplotlib org api pyplot api html highlight colorbar matplotlib pyplot colorbar我知道关键字参数or
如何在Python + Selenium中获取元素的值

我在我的 Python 3 6 3 代码中得到了这个 HTML 元素作为 Selenium网页元素当然 span class ocenaCzastkowa masterTooltip style color 000000 alt 5 sp
在Python中将大文件（25k条目）加载到dict中很慢？

我有一个大约有 25000 行的文件它是 s19 格式的文件每行就像 S214780010 00802000000010000000000A508CC78C 像这样的事情怎么样我做了一个测试文件只有一行S21478001000802
基于列重复数据集中的行，但增加行[重复]

这个问题在这里已经有答案了我有一个数据集其中包含项目名称开始年份和合同期限我需要将这个数据集开发成时间序列例如我的数据集中的一行是项目 A 开始年份 2003 年合同期限 5 我想根据合同期限重复每一行我的数据集如下所示
Discord.py 斜线命令在 cogs 中不起作用

我正在构建一个不和谐的机器人并且想要在 cogs 内使用斜杠命令但这些命令不显示或工作这是代码 cog guild ids 858573429787066368 861507832934563851 class Slash comma
NumPy 数组与 SQLite

我在 Python 中见过的最常见的 SQLite 接口是sqlite3 但是有什么东西可以很好地与 NumPy 数组或 rearray 配合使用吗我的意思是它可以识别数据类型不需要逐行插入并提取到 NumPy rec 数组中有点
在多核上运行 python 线程

我知道Python 2 7不允许在不同的内核上运行多个线程你需要使用multiprocessing模块以实现某种程度的并发性我正在看concurrent futuresPython 3 4 中的模块是否使用ThreadPoolExec
cxfreeze virtualenv 中缺少 distutils 模块

从 python3 2 项目运行 cxfreeze 二进制文件时我收到以下运行时错误 project dist project distutils init py 13 UserWarning The virtualenv distuti
尝试校准keras模型

我正在尝试通过 Sklearn 实现来校准我的 CNN 模型CalibratedClassifierCV 尝试将其包装为KerasClassifier并覆盖预测功能但没有成功有人可以说我做错了什么吗这是模型代码 def create m
提高光线追踪命中功能的性能

我有一个简单的 python 光线追踪器渲染 200x200 的图像需要 4 分钟这对于我的口味来说绝对是太多了我想改善这种情况几点我为每个像素发射多条光线以提供抗锯齿功能每个像素总共发射 16 条光线 200x200x16
使用 Python-VLC 的 PyInstaller：无属性“media_player_new”错误

我使用 Python VLC 创建视频播放器并使用 PyInstaller 在 Windows 10 计算机上生成可执行文件最初它给了我错误 Import Error Failed to load dynlib dll libvlc
在python中使用编解码器utf-8打开文件错误

我在 windows xp 和 python 2 6 4 上执行以下代码但它显示 IOError 如何打开名称带有 utf 8 编解码器的文件 gt gt gt open unicode txt euc kr encode utf 8 T
增强迪基-富勒测试中的 BIC 在 Python 中到底是如何工作的？

这个问题是关于 statsmodels tsa stattools python 库 adfuller 中的增强迪基富勒测试实现原则上 AIC 和 BIC 应该计算一组可用模型的信息标准并选择最好的模型信息损失最低的模型但它们在增
将 str.contains 映射到 pandas DataFrame

python 初学者我正在寻找创建字符串的字典映射以及关联的值我有一个数据框想要创建一个新列如果字符串匹配则会将该列标记为 x df pd DataFrame comp dell notebook dell notebook S3
列表中的特定范围（python）

我有一个从文本字符串中提取的整数列表因此当我打印该列表我称之为test I get 135 2256 1984 3985 1991 1023 1999 我想打印或制作一个仅包含特定范围内的数字的新列表例如1000 2000之间我尝试
python 中的 F 字符串前缀给出语法错误[重复]

这个问题在这里已经有答案了我有一个名为 method 的变量它的值是 POST 但是当我尝试运行时print f method method is used 它不断在最后一个双引号处给出语法错误我找不到它这样做的原因我正在使用 py
关闭正在运行代码的 IPython Notebook

怎么运行的我在 IPython Notebook 中运行了一些代码一些迭代工作我不小心关闭了正在运行的笔记本的浏览器但回到 IPython 仪表板我发现这个特定的笔记本尚未关闭所以如果我再次打开笔记本我会在它正在执行的代码前面
如何使 Django 自定义管理命令参数不再需要？

我正在尝试在 django 中编写自定义管理命令如下所示 class Command BaseCommand def add arguments self parser parser add argument delay type int

随机推荐

未能在 android studio 中实例化一个或多个类

我已经在更新的 android studio 中导入了一个现有项目当我打开该项目的文件时出现以下错误 failed to instantiate one or more classes android studio rendering
如何扩大按钮触摸面积？

我有一个箭头按钮我想保持它很小但我希望它周围的触摸区域更大我使用了帖子中的答案Here https stackoverflow com questions 3160202 iphone how to extend a button t
PHPExcel - 克隆工作表并保持其原始样式

我尝试在此处和 PHPExcel 官方文档论坛中检查所有可能的类似解决方案但我没有找到任何解决我的问题的方法问题我试图clone 或者诚实地说复制一张表将其解析为通过 phpexcel 创建的另一个文件保持克隆工作表的样式设置
验证 CRC 校验和是否为零

我过去接触过 CRC 16 校验和习惯于通过对我要验证的文件重新计算 CRC 16 校验和加上 CRC 16 本身的 2 个字节来验证它如果结果为零则文件完整性有效否则无效这可以非常有效地编码就像下面的伪 C 一样 if re
如何使用 ARM64 执行多项式乘法？

Microsoft 最近发布了 ARM64 构建工具作为 Visual Studio 15 9 的一部分我正在完成 ARM64 的移植我在多项式乘法方面遇到麻烦我遇到的问题是微软没有提供预期的数据类型例如poly64 t 或者像
不使用 cfqueryparam 防止 SQL 注入

我有包含很多未使用的查询的旧项目cfqueryparam以防止SQL注入有没有办法使用某些函数在每个表单字段的应用程序级别上执行类似的操作作为具有 PHP 背景的初学者我认为我可以循环发布的数据并执行escape string 或类似
如何静默安装 UWP appx？

我开发了一个UWP appx 它可以在cmd exe提示符下安装 C test gt myapp appx 但安装过程中会弹出一个 Windows GUI 有什么方法吗使用静默参数安装它如下所示 C test gt myapp appx
表格列格式

我正在尝试格式化一列 table table 用一个
解析 HTML：Python 中的 lxml 错误

我正在编写一个简单的脚本来从中获取大灰色表here http www afi com 100years movies10 aspx 我的代码如下 import urllib2 from lxml import etree html urll
Jquery，使用 json 自动完成，id 与显示值

我有一个复杂的自动完成问题这是我正在开发的网站的消息系统我希望它能够在您输入用户名的地方工作它会返回用户的图像姓名和 ID 的缩略图然后当您选择它时我希望它显示用户名但当它发回时我希望它发回他们的 ID 因为用户名不是唯一
PHP文件加密方法。存在简单的东西吗？

似乎没有任何令人愉快的方法来加密 php 中的文件 php 的内置方法 mcrypt 不太可移植因为大多数服务器不支持它们命令行加密工具就像丑陋的黑客对字符串进行加密这很好但如果我们想加密一个文件它并没有多大帮助特别是对其他人解
将对话框保持在窗口顶部，但不是在所有内容之上

在我的 WPF 应用程序中我有很多弹出的自定义对话框以便用户可以使用以下命令执行各种操作someDialogClass ShowDialog 为了确保对话框位于调用它的窗口顶部我添加Topmost True to the Window
实体框架中使用 OR 条件的动态查询

我正在创建一个应用程序来搜索数据库并允许用户动态添加任何条件大约 50 个可能的条件就像下面的问题一样使用实体框架创建动态查询 https stackoverflow com q 5541234 810850 我目前正在进行一项检查每
焦点事件发生变化？

我正在将 Visual Basic 6 程序移植到 PyQt 我需要调用一个函数来设置某些小部件始终启用禁用我不想调用一个函数太多次所以我发现了一个事件当焦点从一个小部件更改为另一个小部件时我可以调用我的小部件管理器功能我正在
在Python中的一个图中叠加热图

我有两个 100x100 矩阵 u 0 and u 1 我已将两个数组的值设置在 0 和 1 之间以使用 matplotlib 函数制作热图pcolormesh 我可以使用以下方法获得一张热图 fig1 plt pcolormesh u
使用 loc 时的 Pandas SettingWithCopyWarning [重复]

这个问题在这里已经有答案了关于使用 loc 进行索引切片分配的一般问题假设以下数据帧 df df A B C 0 a b 1 a b 2 b a 3 c c 4 c a 重现代码 df pd DataFrame A list aabc
如何在 SQL Server 中转置查询结果（行到列）

我的查询给出的结果如下所以我想将结果转换成这样请注意带有 NULL 值的交叉字段 PIVOT 是实现这一目标的方法一开始它可能会令人困惑至少对我来说是这样 https www codeproject com Tips 500811
使用 PHP cURL 进行缓存

我正在使用 PHP cURL 从另一个网站获取信息并将其插入到我的页面中我想知道是否可以将获取的信息缓存在我的服务器上例如当访问者请求某个页面时系统会获取该信息并在我的服务器上缓存 24 小时然后该页面将完全在本地提供 24 小
在虚拟环境中将包安装到全局站点包中

让我先声明我已阅读过pip 安装在全局站点包中而不是 virtualenv https stackoverflow com questions 20952797 pip installing in global site packages
PySpark - 按列的值拆分/过滤 DataFrame

我有一个与此示例类似的 DataFrame Timestamp Word Count 30 12 2015 example 1 3 29 12 2015 example 2 1 28 12 2015 example 2 9 27 12 20

PySpark - 按列的值拆分/过滤 DataFrame

PySpark - 按列的值拆分/过滤 DataFrame 的相关文章

随机推荐

热门标签