PySpark - 按列的值拆分/过滤 DataFrame

2023-12-25

我有一个与此示例类似的 DataFrame:

Timestamp | Word | Count

30/12/2015 | example_1 | 3

29/12/2015 | example_2 | 1

28/12/2015 | example_2 | 9

27/12/2015 | example_3 | 7

... | ... | ...

我想按“单词”列的值拆分此数据框以获得 DataFrame 的“列表”(以在下一步中绘制一些数字)。例如:

DF1

Timestamp | Word | Count

30/12/2015 | example_1 | 3

DF2

Timestamp | Word | Count

29/12/2015 | example_2 | 1

28/12/2015 | example_2 | 9

DF3

Timestamp | Word | Count

27/12/2015 | example_3 | 7

有没有办法用 PySpark (1.6) 做到这一点?


它不会有效,但您可以使用过滤器映射唯一值列表:

words = df.select("Word").distinct().flatMap(lambda x: x).collect()
dfs = [df.where(df["Word"] == word) for word in words]

Spark 2.0 后

words = df.select("Word").distinct().rdd.flatMap(lambda x: x).collect()
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark - 按列的值拆分/过滤 DataFrame 的相关文章

  • Spark LDA 困境 - 预测和 OOM 问题

    我正在评估 Spark 1 6 0 来构建大型 数百万个文档 数百万个特征 数千个主题 LDA 模型并进行预测 这是我可以使用 Yahoo 轻松完成的任务 LDA 从小处开始 按照 Java 示例 我使用分布式模型 EM 优化器构建了 10
  • 按每个元素中出现的数字对字符串列表进行排序[重复]

    这个问题在这里已经有答案了 我有一个脚本 其目的是对不断下载到服务器上的空间数据集文件进行排序和处理 我的列表目前大致如下 list file t00Z wrff02 grib2 file t00Z wrff03 grib2 file t0
  • 我可以在 matplotlib 中的绘图左侧放置一个垂直颜色条吗?

    来自颜色条方法的 matplotlib 命令摘要 http matplotlib org api pyplot api html highlight colorbar matplotlib pyplot colorbar我知道关键字参数or
  • 如何在Python + Selenium中获取元素的值

    我在我的 Python 3 6 3 代码中得到了这个 HTML 元素 作为 Selenium网页元素当然 span class ocenaCzastkowa masterTooltip style color 000000 alt 5 sp
  • 在Python中将大文件(25k条目)加载到dict中很慢?

    我有一个大约有 25000 行的文件 它是 s19 格式的文件 每行就像 S214780010 00802000000010000000000A508CC78C 像这样的事情怎么样 我做了一个测试文件 只有一行S21478001000802
  • 基于列重复数据集中的行,但增加行[重复]

    这个问题在这里已经有答案了 我有一个数据集 其中包含项目名称 开始年份和合同期限 我需要将这个数据集开发成时间序列 例如 我的数据集中的一行是 项目 A 开始年份 2003 年 合同期限 5 我想根据合同期限重复每一行 我的数据集如下所示
  • Discord.py 斜线命令在 cogs 中不起作用

    我正在构建一个不和谐的机器人 并且想要在 cogs 内使用斜杠命令 但这些命令不显示或工作 这是代码 cog guild ids 858573429787066368 861507832934563851 class Slash comma
  • NumPy 数组与 SQLite

    我在 Python 中见过的最常见的 SQLite 接口是sqlite3 但是有什么东西可以很好地与 NumPy 数组或 rearray 配合使用吗 我的意思是 它可以识别数据类型 不需要逐行插入 并提取到 NumPy rec 数组中 有点
  • 在多核上运行 python 线程

    我知道Python 2 7不允许在不同的内核上运行多个线程 你需要使用multiprocessing模块以实现某种程度的并发性 我正在看concurrent futuresPython 3 4 中的模块 是否使用ThreadPoolExec
  • cxfreeze virtualenv 中缺少 distutils 模块

    从 python3 2 项目运行 cxfreeze 二进制文件时 我收到以下运行时错误 project dist project distutils init py 13 UserWarning The virtualenv distuti
  • 尝试校准keras模型

    我正在尝试通过 Sklearn 实现来校准我的 CNN 模型CalibratedClassifierCV 尝试将其包装为KerasClassifier并覆盖预测功能但没有成功 有人可以说我做错了什么吗 这是模型代码 def create m
  • 提高光线追踪命中功能的性能

    我有一个简单的 python 光线追踪器 渲染 200x200 的图像需要 4 分钟 这对于我的口味来说绝对是太多了 我想改善这种情况 几点 我为每个像素发射多条光线 以提供抗锯齿功能 每个像素总共发射 16 条光线 200x200x16
  • 使用 Python-VLC 的 PyInstaller:无属性“media_player_new”错误

    我使用 Python VLC 创建视频播放器 并使用 PyInstaller 在 Windows 10 计算机上生成可执行文件 最初 它给了我错误 Import Error Failed to load dynlib dll libvlc
  • 在python中使用编解码器utf-8打开文件错误

    我在 windows xp 和 python 2 6 4 上执行以下代码 但它显示 IOError 如何打开名称带有 utf 8 编解码器的文件 gt gt gt open unicode txt euc kr encode utf 8 T
  • 增强迪基-富勒测试中的 BIC 在 Python 中到底是如何工作的?

    这个问题是关于 statsmodels tsa stattools python 库 adfuller 中的增强迪基 富勒测试实现 原则上 AIC 和 BIC 应该计算一组可用模型的信息标准 并选择最好的模型 信息损失最低的模型 但它们在增
  • 将 str.contains 映射到 pandas DataFrame

    python 初学者 我正在寻找创建字符串的字典映射以及关联的值 我有一个数据框 想要创建一个新列 如果字符串匹配 则会将该列标记为 x df pd DataFrame comp dell notebook dell notebook S3
  • 列表中的特定范围(python)

    我有一个从文本字符串中提取的整数列表 因此当我打印该列表 我称之为test I get 135 2256 1984 3985 1991 1023 1999 我想打印或制作一个仅包含特定范围内的数字的新列表 例如1000 2000之间 我尝试
  • python 中的 F 字符串前缀给出语法错误[重复]

    这个问题在这里已经有答案了 我有一个名为 method 的变量 它的值是 POST 但是当我尝试运行时print f method method is used 它不断在最后一个双引号处给出语法错误 我找不到它这样做的原因 我正在使用 py
  • 关闭正在运行代码的 IPython Notebook

    怎么运行的 我在 IPython Notebook 中运行了一些代码 一些迭代工作 我不小心关闭了正在运行的笔记本的浏览器 但回到 IPython 仪表板 我发现这个特定的笔记本尚未关闭 所以如果我再次打开笔记本 我会在它正在执行的代码前面
  • 如何使 Django 自定义管理命令参数不再需要?

    我正在尝试在 django 中编写自定义管理命令 如下所示 class Command BaseCommand def add arguments self parser parser add argument delay type int

随机推荐

  • 未能在 android studio 中实例化一个或多个类

    我已经在更新的 android studio 中导入了一个现有项目 当我打开该项目的文件时 出现以下错误 failed to instantiate one or more classes android studio rendering
  • 如何扩大按钮触摸面积?

    我有一个箭头按钮 我想保持它很小 但我希望它周围的触摸区域更大 我使用了帖子中的答案Here https stackoverflow com questions 3160202 iphone how to extend a button t
  • PHPExcel - 克隆工作表并保持其原始样式

    我尝试在此处和 PHPExcel 官方文档 论坛中检查所有可能的类似解决方案 但我没有找到任何解决我的问题的方法 问题 我试图clone 或者诚实地说 复制 一张表将其解析为通过 phpexcel 创建的另一个文件保持克隆工作表的样式 设置
  • 验证 CRC 校验和是否为零

    我过去接触过 CRC 16 校验和 习惯于通过对我要验证的文件重新计算 CRC 16 校验和 加上 CRC 16 本身的 2 个字节来验证它 如果结果为零 则文件完整性有效 否则无效 这可以非常有效地编码 就像下面的伪 C 一样 if re
  • 如何使用 ARM64 执行多项式乘法?

    Microsoft 最近发布了 ARM64 构建工具 作为 Visual Studio 15 9 的一部分 我正在完成 ARM64 的移植 我在多项式乘法方面遇到麻烦 我遇到的问题是 微软没有提供预期的数据类型 例如poly64 t 或者像
  • 不使用 cfqueryparam 防止 SQL 注入

    我有包含很多未使用的查询的旧项目cfqueryparam以防止SQL注入 有没有办法使用某些函数在每个表单字段的应用程序级别上执行类似的操作 作为具有 PHP 背景的初学者 我认为我可以循环发布的数据并执行escape string 或类似
  • 如何静默安装 UWP appx?

    我开发了一个UWP appx 它可以在cmd exe提示符下安装 C test gt myapp appx 但安装过程中会弹出一个 Windows GUI 有什么方法吗 使用静默参数安装它 如下所示 C test gt myapp appx
  • 表格列格式

    我正在尝试格式化一列 table table 用一个
  • 解析 HTML:Python 中的 lxml 错误

    我正在编写一个简单的脚本来从中获取大灰色表here http www afi com 100years movies10 aspx 我的代码如下 import urllib2 from lxml import etree html urll
  • Jquery,使用 json 自动完成,id 与显示值

    我有一个复杂的自动完成问题 这是我正在开发的网站的消息系统 我希望它能够在您输入用户名的地方工作 它会返回用户的图像 姓名和 ID 的缩略图 然后 当您选择它时 我希望它显示用户名 但当它发回时 我希望它发回他们的 ID 因为用户名不是唯一
  • PHP文件加密方法。存在简单的东西吗?

    似乎没有任何令人愉快的方法来加密 php 中的文件 php 的内置方法 mcrypt 不太可移植 因为大多数服务器不支持它们 命令行加密工具就像丑陋的黑客 对字符串进行加密这很好 但如果我们想加密一个文件 它并没有多大帮助 特别是对其他人解
  • 将对话框保持在窗口顶部,但不是在所有内容之上

    在我的 WPF 应用程序中 我有很多弹出的自定义对话框 以便用户可以使用以下命令执行各种操作someDialogClass ShowDialog 为了确保对话框位于调用它的窗口顶部 我添加Topmost True to the Window
  • 实体框架中使用 OR 条件的动态查询

    我正在创建一个应用程序来搜索数据库并允许用户动态添加任何条件 大约 50 个可能的条件 就像下面的问题一样 使用实体框架创建动态查询 https stackoverflow com q 5541234 810850 我目前正在进行一项检查每
  • 焦点事件发生变化?

    我正在将 Visual Basic 6 程序移植到 PyQt 我需要调用一个函数来设置某些小部件始终启用 禁用 我不想调用一个函数太多次 所以我发现了一个事件 当焦点从一个小部件更改为另一个小部件时 我可以调用我的小部件管理器功能 我正在
  • 在Python中的一个图中叠加热图

    我有两个 100x100 矩阵 u 0 and u 1 我已将两个数组的值设置在 0 和 1 之间 以使用 matplotlib 函数制作热图pcolormesh 我可以使用以下方法获得一张热图 fig1 plt pcolormesh u
  • 使用 loc 时的 Pandas SettingWithCopyWarning [重复]

    这个问题在这里已经有答案了 关于使用 loc 进行索引 切片分配的一般问题 假设以下数据帧 df df A B C 0 a b 1 a b 2 b a 3 c c 4 c a 重现代码 df pd DataFrame A list aabc
  • 如何在 SQL Server 中转置查询结果(行到列)

    我的查询给出的结果如下 所以 我想将结果转换成这样 请注意带有 NULL 值的交叉字段 PIVOT 是实现这一目标的方法 一开始它可能会令人困惑 至少对我来说是这样 https www codeproject com Tips 500811
  • 使用 PHP cURL 进行缓存

    我正在使用 PHP cURL 从另一个网站获取信息并将其插入到我的页面中 我想知道是否可以将获取的信息缓存在我的服务器上 例如 当访问者请求某个页面时 系统会获取该信息并在我的服务器上缓存 24 小时 然后 该页面将完全在本地提供 24 小
  • 在虚拟环境中将包安装到全局站点包中

    让我先声明我已阅读过pip 安装在全局站点包中而不是 virtualenv https stackoverflow com questions 20952797 pip installing in global site packages
  • PySpark - 按列的值拆分/过滤 DataFrame

    我有一个与此示例类似的 DataFrame Timestamp Word Count 30 12 2015 example 1 3 29 12 2015 example 2 1 28 12 2015 example 2 9 27 12 20