在 pandas 系列上成对应用函数

2024-04-23

我有一个 pandas 系列，其元素构成 freezesets：

data = {0: frozenset({'apple', 'banana'}),
     1: frozenset({'apple', 'orange'}),
     2: frozenset({'banana'}),
     3: frozenset({'kumquat', 'orange'}),
     4: frozenset({'orange'}),
     5: frozenset({'orange', 'pear'}),
     6: frozenset({'orange', 'pear'}),
     7: frozenset({'apple', 'banana', 'pear'}),
     8: frozenset({'banana', 'persimmon'}),
     9: frozenset({'apple'}),
     10: frozenset({'banana'}),
     11: frozenset({'apple'})}

tokens = pd.Series(data); tokens

0           (apple, banana)
1           (orange, apple)
2                  (banana)
3         (orange, kumquat)
4                  (orange)
5            (orange, pear)
6            (orange, pear)
7     (apple, banana, pear)
8       (persimmon, banana)
9                   (apple)
10                 (banana)
11                  (apple)
Name: Tokens, dtype: object

我想成对应用一个函数。例如，tokens.diff给我连续行之间的设置差异：

0                   NaN
1              (orange)
2              (banana)
3     (orange, kumquat)
4                    ()
5                (pear)
6                    ()
7       (apple, banana)
8           (persimmon)
9               (apple)
10             (banana)
11              (apple)
Name: Tokens, dtype: object

我想要同样的事情，但我想要在连续行上设置并集，而不是设置差异。所以，我理想地希望：

0                                 NaN
1             (orange, apple, banana)
2             (banana, orange, apply)
3           (orange, kumquat, banana)
4                   (orange, kumquat)
                                  ...

我怎样才能用 Pandas 实现这个目标？我知道我可以这样做zip和一个列表比较，但希望有更好的方法。

有几种方法

选项1]列表理解

In [3631]: pd.Series([x[0].union(x[1])
                      for x in zip(tokens, tokens.shift(-1).fillna(''))],
                     index=tokens.index)
Out[3631]:
0              (orange, banana, apple)
1              (orange, apple, banana)
2            (orange, kumquat, banana)
3                    (orange, kumquat)
4                       (orange, pear)
5                       (orange, pear)
6        (orange, pear, banana, apple)
7     (persimmon, pear, banana, apple)
8           (apple, persimmon, banana)
9                      (apple, banana)
10                     (banana, apple)
11                             (apple)
dtype: object

选项2] map

In [3632]: pd.Series(map(lambda x: x[0].union(x[1]), 
                         zip(tokens, tokens.shift(-1).fillna(''))),
                     index=tokens.index)
Out[3632]:
0              (orange, banana, apple)
1              (orange, apple, banana)
2            (orange, kumquat, banana)
3                    (orange, kumquat)
4                       (orange, pear)
5                       (orange, pear)
6        (orange, pear, banana, apple)
7     (persimmon, pear, banana, apple)
8           (apple, persimmon, banana)
9                      (apple, banana)
10                     (banana, apple)
11                             (apple)
dtype: object

选项3] Using concat and apply

In [3633]: pd.concat([tokens, tokens.shift(-1).fillna('')],
                     axis=1).apply(lambda x: x[0].union(x[1]), axis=1)
Out[3633]:
0              (orange, banana, apple)
1              (orange, apple, banana)
2            (orange, kumquat, banana)
3                    (orange, kumquat)
4                       (orange, pear)
5                       (orange, pear)
6        (orange, pear, banana, apple)
7     (persimmon, pear, banana, apple)
8           (apple, persimmon, banana)
9                      (apple, banana)
10                     (banana, apple)
11                             (apple)
dtype: object

Timings

In [3647]: tokens.shape
Out[3647]: (60000L,)

In [3648]: %timeit pd.Series([x[0].union(x[1]) for x in zip(tokens, tokens.shift(-1).fillna(''))], index=tokens.index)
10 loops, best of 3: 35 ms per loop

In [3649]: %timeit pd.Series(map(lambda x: x[0].union(x[1]), zip(tokens, tokens.shift(-1).fillna(''))), index=tokens.index)
10 loops, best of 3: 40.9 ms per loop

In [3650]: %timeit pd.concat([tokens, tokens.shift(-1).fillna('')], axis=1).apply(lambda x: x[0].union(x[1]), axis=1)
1 loop, best of 3: 2.2 s per loop

不相关并且为了一个数字diff

In [3653]: %timeit tokens.diff()
10 loops, best of 3: 10.8 ms per loop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

set

frozenset

在 pandas 系列上成对应用函数的相关文章

如何有条件地组合两个相同形状的 numpy 数组

这听起来很简单但我想我把它想得太复杂了我想创建一个数组其元素是从两个形状相同的源数组生成的具体取决于源数组中哪个元素更大为了显示 import numpy as np array1 np array 2 3 0 array2 np
如何用spaCy获取依赖树？

我一直在尝试寻找如何使用 spaCy 获取依赖树但我找不到任何有关如何获取树的信息只能在如何导航树 https spacy io usage examples subtrees 如果有人想轻松查看 spacy 生成的依赖关系树一种解决
返回不包括指定键的字典副本

我想创建一个函数返回字典的副本不包括列表中指定的键考虑这本词典 my dict keyA 1 keyB 2 keyC 3 致电without keys my dict keyB keyC 应该返回 keyA 1 我想用一行简洁的字典理
无法安装时间模块

我试过了pip install time and sudo H pip install time 但我不断收到错误找不到满足要求时间的版本从版本未找到时间匹配的发行版我正在 PyCharm 中工作但真正没有意义的是我可以在 Py
为 PyCharm 中的所有配置设置相同的环境变量

我有一个与 Celery 和很多不同的工作人员一起的项目如何避免每次将 PyCharm 中的环境变量复制粘贴到每个运行调试配置有什么方法可以在项目设置中设置它们吗找到解决方案here https stackoverflow com
使用 Python 抓取维基百科数据

我正在尝试从以下内容中检索 3 列 NFL 球队球员姓名大学球队维基百科页面 http en wikipedia org wiki 2008 NFL draft 我是 python 新手一直在尝试使用 beautifulsoup 来
使用reduce方法的斐波那契数列

于是我看到有人用reduce方法来计算斐波那契数列这是他的想法 1 0 1 1 2 1 3 2 5 3 对应于 1 1 2 3 5 8 13 21 代码如下所示 def fib reduce n initial 1 0 dummy ra
以编程方式将列名称添加到 numpy ndarray

我正在尝试将列名称添加到 numpy ndarray 然后按名称选择列但这不起作用我无法判断问题是在添加名称时出现还是在稍后尝试调用它们时出现这是我的代码 data np genfromtxt csv file delimiter
在 GAE/Python 中放置一次性代码和每次代码的最佳位置在哪里？

我是 Google App Engine 和 Python 的新手我无法理解有关在 Google App Engine 上运行的 Python 应用程序的一些基本问题如果我想要执行代码对于每个传入的请求我应该将其放在哪里我们正在捕
如何解码 dtype=numpy.string_ 的 numpy 数组？

我需要使用 Python 3 解码按以下方式编码的字符串 gt gt gt s numpy asarray numpy string hello nworld gt gt gt s array b hello nworld dtype S1
将具有不同大小的行的数据加载到 Numpy 数组中

假设我有一个包含如下数据的文本文件 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 如何将它加载到 numpy 数组中使其看起来像这样 1 2 3 4 5 0 6 7 8 0 0 0 9 1
与函数复合 UniqueConstraint

一个快速的 SQLAlchemy 问题我有一个文档类其属性为数字和日期我需要确保没有重复的号码同年是有没有办法对数字年份日期进行UniqueConstraint 我应该使用唯一索引吗我如何声明功能部分 SQLA
如何使用to_sql将pandas数据帧写入oracle数据库？

我是一个新的oracle学习者我正在尝试将 pandas 数据帧写入 oracle 表中经过网上研究我发现代码本身很简单但我不知道为什么我的代码不起作用我已经从本地文件中读取了 pandas 数据框 import cx Oracl
python 中的基本矩阵转置

我尝试了 python 中矩阵转置的最基本方法但是我没有得到所需的结果接下来是代码 A 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 print A def TS A B A for i in range len A
dask allocate() 或 apply() 中的变量列名

我有适用于pandas 但我在将其转换为使用时遇到问题dask 有一个部分解决方案here https stackoverflow com questions 32363114 how do i change rows and column
Pandas DataFrame：如何计算组中第一行和最后一行的差异？

这是我的熊猫数据框 import pandas as pd import numpy as np data column1 338 519 871 1731 2693 2963 3379 3789 3910 4109 4307 4800 4
Python“self”关键字[重复]

这个问题在这里已经有答案了我是 Python 新手通常使用 C 最近几天开始使用它在类中是否需要在对该类的数据成员和方法的任何调用前添加前缀因此如果我在该类中调用方法或从该类获取值我需要使用self method or sel
如何使用 FastAPI 在 HTMX 前端中使用 HX-Redirect？

我试图在登录后在前端重定向我像这样从我的 htmx 前端发出请求
如何将 Pandas Dataframe 中的字符串转换为字符列表或数组？

我有一个名为的数据框data 其中一列包含字符串我想从字符串中提取字符因为我的目标是对它们进行一次性编码并使之可用于分类包含字符串的列存储在预测因子如下 predictors pd DataFrame data columns Seq
如何抑制 Pandas Future 警告？

当我运行该程序时 Pandas 每次都会给出如下所示的未来警告 D Python lib site packages pandas core frame py 3581 FutureWarning rename with inplace

随机推荐

PHP：使用strlen获取远程文件大小？ (html)

我正在查看 fsockopen 之类的 PHP 文档他们说你不能在远程文件上使用 filesize 而不用 ftell 或其他东西做一些疯狂的事情不确定他们到底说了什么但我有一个很好的想法怎么做 file file get conte
setInterval() 只运行一次函数

我想定期查询 PHP 脚本以获取新消息为此我使用 setInterval 函数和 AJAX document ready function var queryInterval 1000 How fast we query for new
C++ 类方法的 LD_PRELOAD

我需要在 C 程序中插入方法调用该类驻留在单独的共享库中我以为我可以使用 LD PRELOAD 但我不确定这将如何工作我只找到了 C 函数的示例是否有一种方法可以为单个方法设置插入而无需从插入的类实现中复制任何代码只需为插入的代
OpenGL NURBS 曲面

我正在学习 OpenGL 我想要一个中间有轻微驼峰的表面我目前正在使用这段代码但我不确定如何调整 ctrl 点以使其达到我想要的方式它目前就像我想要这样的我不完全确定我应该使用哪些控制点并且我对其工作原理感到困惑 include
Microsoft Cognitive API 不断告诉我：“消息”：“输入数据不是有效的图像或受密码保护。”

我有图像的 base64 字符串我正在尝试将其转换为应用程序八位字节流因为这就是 api 所需要的我认为我已经通过创建一个 blob 来做到这一点正如您从我的函数中看到的那样当我进行 api 调用时我不断收到标题中的消息有
如何通过 JOIN 组合（合并）相似的列以删除 NULL

问题简介我有一个名为客户的超类表和两个从客户继承的名为个人和公司的子表因此客户实体与人或公司具有一对一的关系客户只能是个人或公司但不能同时是两者如下所示 Customer Person Company
可以用excel引用外部宏吗？

我有一个相当复杂的宏需要在多个不同的 Excel 工作表上运行该宏会定期更新并且每当进行更改时都需要在每个单独的 Excel 工作表中进行更改有没有一种方法可以让每个Excel文档引用一个宏例如如果我有这样的层次结构 DOCU
Azure AD - 获取用户的个人资料照片，OAUTH 访问失败

我正在尝试在使用 EWS 连接到 Office 365 的电子邮件应用程序的上下文中访问登录用户的个人资料照片该应用程序已在 Portal azure com 上注册并具有以下所需权限 Office 365 Exchange Onlin
如何将图标放入自定义对话框的标题中

我想将一个可绘制对象放入对话框标题栏中我尝试了以下方法 final Dialog dialog new Dialog this dialog requestWindowFeature Window FEATURE LEFT ICON di
带有身份的 ASP.NET Core 2.0 中的 Cookie 过期

环境 ASP NET Core 2 0 带有cookie的身份 In Startup ConfigureServices 有这样的 services ConfigureApplicationCookie options gt options
TikTok 登录套件：非法重定向链接

我正在看新的TikTok 登录套件对于网络我陷入了重定向步骤与所有基于 oAuth 的服务类似当您注册应用程序时它们应该要求提供有效的重定向 URL 对于 TikTok 他们要求重定向域如下所示然后根据他们的官方文档 https
Laravel 5.1 失败的排队作业在 failed() 方法上失败，阻止调用队列失败事件处理程序

我正在测试 Laravel 5 1 中的队列功能我可以让作业在我的数据库表中排队称为作业并且可以让它们成功运行我还创建了一个名为 failed jobs 的队列失败表为了测试它在作业表中我操作有效负载数据以使其失败然后像这样
Swift：递归值类型

我有一个结构我想在其中有一个 Struct 类型的全局变量这个例子本质上是我实际创建的结构的简短版本 struct SplitString splits a string into parts before and after the
正则表达式中的顺序不重要吗？

我正在查看此 stackoverflow 链接中提出的问题奇数个 a 的正则表达式 https stackoverflow com questions 28902496 regular expression for odd number
ZMQ 模式经销商/路由器心跳

我在客户端有一个经销商套接字它连接到服务器端的路由器套接字我经常看到心跳机制服务器定期向客户端发送消息以便客户端知道自己是否正确连接到服务器以便客户端在一段时间内没有收到消息时可以重新连接例如这里的偏执海盗模式 http zgu
在 Aurelia 中，我可以绑定包含视图模型中的函数以供自定义元素调用吗？

我有一个自定义元素它将接受用户输入并且在单击保存按钮时我想将信息传递给父视图模型以便我可以将其发送到服务器并移至下一部分例如我将简化这一点 my element js import customElement bindabl
如何从另一个块访问块状态中的数据

我正在使用 Bloc 模式开发 Flutter 应用程序认证成功后 UserSate就有了User对象在所有其他 Bloc 中我需要访问 UserState 中的 User 对象我尝试在其他 Bloc 的构造函数参数上获取 User
React-testing-library - 屏幕与渲染查询

有两种使用查询的方法react testing library https testing library com docs react testing library intro 您可以使用返回的查询render https testin
有人有关于 C 语言设计和错误跟踪/控制系统的好指南吗？

我是 C 开发的软件工程方面的新手有没有人有关于如何为 C 项目尤其是嵌入式设计错误跟踪或错误控制系统的良好指南谈论 C 库的错误跟踪也会有帮助根据我的经验这里的策略分为几个阵营全局变量ala的使用errno http www
在 pandas 系列上成对应用函数

我有一个 pandas 系列其元素构成 freezesets data 0 frozenset apple banana 1 frozenset apple orange 2 frozenset banana 3 frozenset ku

在 pandas 系列上成对应用函数

在 pandas 系列上成对应用函数 的相关文章

随机推荐

热门标签

在 pandas 系列上成对应用函数的相关文章