Pandas 从两列之间的操作开始

2024-02-25

我有一个包含两列的 pandas 数据框，我需要检查 A 列每行的值是一个以 B 列相应行的值开头的字符串，反之亦然。

似乎系列方法.str.startswith无法处理矢量化输入，因此我需要压缩列表理解中的两列并创建一个新的pd.Series与两列中任何一列具有相同的索引。

我希望这是一个矢量化操作.str访问器可用于对可迭代对象进行操作，但类似这样的操作会返回 NaN：

df = pd.DataFrame(data={'a':['x','yy'], 'b':['xyz','uvw']})
df['a'].str.startswith(df['b'])

而我的工作解决方案如下：

pd.Series(index=df.index, data=[a.startswith(b) or b.startswith(a) for a,b in zip(df['a'],df['b'])])

我怀疑可能有更好的方法来解决这个问题，因为它也将使系列上的所有字符串方法受益。

有没有更美观或更有效的方法来做到这一点？

一种想法是使用np.vecorize，但是因为使用字符串性能只比您的解决方案好一点：

def fun (a,b):
    return a.startswith(b) or b.startswith(a)

f = np.vectorize(fun)
a = pd.Series(f(df['a'],df['b']), index=df.index)
print (a)
0     True
1    False
dtype: bool

df = pd.DataFrame(data={'a':['x','yy'], 'b':['xyz','uvw']})
df = pd.concat([df] * 10000, ignore_index=True)

In [132]: %timeit pd.Series(index=df.index, data=[a.startswith(b) or b.startswith(a) for a,b in df[['a', 'b']].to_numpy()])
42.3 ms ± 516 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [133]: %timeit pd.Series(f(df['a'],df['b']), index=df.index)
9.81 ms ± 119 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

In [134]: %timeit pd.Series(index=df.index, data=[a.startswith(b) or b.startswith(a) for a,b in zip(df['a'],df['b'])])
14.1 ms ± 262 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

#sammywemmy solution
In [135]: %timeit pd.Series([any((a.startswith(b), b.startswith(a))) for a, b in df.to_numpy()], index=df.index)
46.3 ms ± 683 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

string

vectorization

Pandas 从两列之间的操作开始的相关文章

Dask DataFrame 的逐行处理

我需要处理一个大文件并更改一些值我想做这样的事情 for index row in dataFrame iterrows foo doSomeStuffWith row lol doOtherStuffWith row dataFrame
在 Python 中使用 sec 函数的反函数

我正在创建一个程序用于计算从一定高度范围和设定初始速度发射射弹的最佳角度在我需要使用的最终方程中存在一个反 sec 函数它导致了一些麻烦我已经导入了数学并尝试使用 asec 无论如何但是数学似乎无法计算反秒函数我也明白 sec
使用正则表达式解析 Snort 警报文件

我正在尝试使用 Python 中的正则表达式从 snort 警报文件中解析出源目标 IP 和端口和时间戳示例如下 03 09 14 10 43 323717 1 2008015 9 ET MALWARE User Agent Win9
python中函数变量的作用域

假设我们有两个函数 def ftpConnect ftp FTP server ftp login ftp cwd path def getFileList ftpConnect files ftp nlst print files 如果我
唯一的图像哈希值即使 EXIF 信息更新也不会改变

我正在寻找一种方法来为 python 和 php 中的图像创建唯一的哈希值我考虑过对原始文件使用 md5 和因为它们可以快速生成但是当我更新 EXIF 信息有时时区关闭时它会更改总和并且哈希也会更改有没有其他方法可以为这些文
如何在 Windows 上使用 Python 3.6 来安装 Python 2.7

我想问一下如何使用pip install对于 Python 2 7 当我之前安装并使用 Python 3 6 时我现在必须使用 Windows 上的 Python 版本 pip install 继续安装 Python 3 6 我需要使用以
Python：随时接受用户输入

我正在创建一个可以做很多事情的单元其中之一是计算机器的周期虽然我将把它转移到梯形逻辑 CoDeSys 但我首先将我的想法放入 Python 中我将进行计数只需一个简单的操作 counter 1 print counter 跟踪我处于
行为：如何从另一个文件导入步骤？

我刚刚开始使用behave http pythonhosted org behave 一个Pythonic BDD框架使用小黄瓜语法 http docs behat org guides 1 gherkin html 行为需要一个特征例
如何为多组精灵创建随机位置？

我尝试使用 blit 和 draw 方法进行 for 循环并为 PlayerSprite 和 Treegroup 使用不同的变量 for PlayerSprite in Treegroup surface blit PlayerSprit
使用Python将图像转换为十六进制格式

我的下面有一个jpg文件tmp folder upload path tmp resized test jpg 我一直在使用下面的代码 Method 1 with open upload path rb as image file enco
Python unicode 字符代码？

有没有办法将 Unicode 字符插入 Python 3 中的字符串例如 gt gt gt import unicode gt gt gt string This is a full block s unicode charcode U
字典的嵌套列表

我正在尝试创建dict通过嵌套list groups Group1 A B Group2 C D L y x 0 for y in x if y x 0 for x in groups d k v for d in L for k v in
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
字典中列表中仅有的几个索引的总和

如果我有这种类型的字典 a dictionary dog white 3 5 black 6 7 Brown 23 1 cat gray 5 6 brown 4 9 bird blue 3 5 green 1 2 yellow 4 9 mo
在 Windows 上使用 IPython 笔记本时出现 500 服务器错误

我刚刚在 Windows 7 Professional 64 位上全新安装了 IPython 笔记本我采取的步骤是从以下位置安装 Python 3 4 1http python org http python org gt pip in
urllib2.urlopen() 是否实际获取页面？

当我使用 urllib2 urlopen 时我在考虑它只是为了读取标题还是实际上带回整个网页 IE 是否真的通过 urlopen 调用或 read 调用获取 HTML 页面 handle urllib2 urlopen url html
是否可以写一个负的python类型注释

这可能听起来不合理但现在我需要否定类型注释我的意思是这样的 an int Not Iterable a string Iterable 这是因为我为一个函数编写了一个重载而 mypy 不理解我我的功能看起来像这样 overload
如何在单独的文件中使用 FastAPI Depends 作为端点/路由？

我在单独的文件中定义了一个 Websocket 端点例如 from starlette endpoints import WebSocketEndpoint from connection service import Connectio
Pandas 在特定列将数据帧拆分为两个数据帧

I have pandas我组成的 DataFrameconcat 一行由 96 个值组成我想将 DataFrame 从值 72 中分离出来这样一行的前 72 个值存储在 Dataframe1 中接下来的 24 个值存储在 Data
如何在SqlAlchemy中执行“左外连接”

我需要执行这个查询 select field11 field12 from Table 1 t1 left outer join Table 2 t2 ON t2 tbl1 id t1 tbl1 id where t2 tbl2 id is

随机推荐

JTable-绘制单元格中的内容（文本）

我有一个 JTable 我有一个在表行和列中实现搜索的方法我使用正则表达式并且我想绘制例如黄色与单元格中的正则表达式匹配的文本我想绘制文本而不是单元格的背景而只绘制与 reg 表达式匹配的单词部分我的搜索方法的代码是 for
对绘图中的轴重新排序

我有大约 3 年的数据按月和年组织我想将这些数据按月和年绘制为条形图以月为 x 轴以年为迹线问题是数据从 2018 年 9 月开始因此要绘制的第一个月是 9 月但我希望是 1 月我尝试过这样做但年份却按递减顺序排列这也是
继承和 REST API 控制器 - 处理子类

我正在开发以下优惠券和交易平台的类层次结构 Promotion abstract Coupon Sale Deal Coupon Sale and Deal继承自促销促销有一个名为的字符串属性type以及一个将子类的类型属性初始化为字符串
当使用 svn cp 或 svn mv 时，如何使 svn diff 生成补丁将应用的文件？

场景是 svn cp 或 mv 某些文件修改该文件 svn diff gt 我的补丁在其他机器上相同的工作副本但没有更改尝试应用我的补丁失败 gt 尝试修改不存在的文件在这种情况下如何使 svn diff 生成适用于补丁的补
如何在 Linux 中使用 POSIX 方法从文件中读取 Unicode-16 字符串？

我有一个包含 UNICODE 16 字符串的文件我想将其读入 Linux 程序这些字符串是根据 Windows 内部 WCHAR 格式编写的 Windows 总是使用 UTF 16 吗例如在日语版本中我相信我可以使用原始读取来读取它
使用自定义光标强制 WM_NCHITTEST 返回 HTCAPTION..？

我创建了一个无边框窗口使用wndProc 函数强制WM NCHITTEST case回来HTCAPTION 它允许用户拖动窗口无论其光标位于何处问题是我设置了自定义光标但是使用上述方法光标总是设置回IDC ARROW 我该如何解
使用 crypto/rand 通过 rand.Perm 生成排列

Go 有两个随机数包 crypto rand 它提供了一种获取随机字节的方法 math rand 它有一个很好的打乱整数的算法我想使用Perm算法来自math rand 但为其提供高质量的随机数自从两人rand包是同一个标准库的一部分
如何在 Leaflet 标记的弹出窗口中生成 Angular 4 组件？

我一直是 Angular 1 x 的长期用户现在我正在努力使用 Angular 4 制作一个新应用程序我仍然不掌握大部分概念但我终于有了一些非常好的东西然而我遇到了一个问题我需要使用 Leaflet 在标记的弹出窗口中显示 An
为什么 Enter 和 Space 键对于按钮的行为不同？

据我所知这些是当按钮获得焦点时唯一做出反应的键 Pressing Enter instantly clicks the button even if you keep it the key down So the click happen
当 PhoneGap 应用程序在 iOS 上处于后台时，蜂鸣声不起作用

我正在开发基于phonegap 的导航应用程序的iOS 版本我的应用程序使用 GPS 跟踪用户在步行路线周围的位置并在用户到达有新指示的位置时使用音频 navigator notification beep 和触觉 navigator
基于本地时钟的Javascript事件触发

我有一个场景一台客户端 PC 将驱动多个 LCD 显示器每个显示器显示一个浏览器窗口这些浏览器窗口使用 jquery 显示不同的动画循环数据我需要确保两个浏览器可以同步以完全相同的时间旋转否则它们将在不同的时间播放动画所以我的问
Handler vs AsyncTask vs Thread [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我对之间的差异有点困惑Handlers AsyncTask and Threads在安卓中我在 StackOverflow 上阅读了很多博客和
如何避免 Google App Engine 上的 django 中出现 NotImplementedError“仅 tempfile.TemporaryFile 可供使用”？

我在 Google App Engine 上使用 Django 1 1use library 这里没有使用 Django GAE helper Django non rel 或类似工具 Django 处理 URL 路由表单验证等但我使用
MYSQL 包括项目计数为零的日期值

我想统计购买总数以及一段时间内按 item id 的购买次数在此示例中用户可以拥有商品并且其他用户可以购买这些商品所有者不能购买自己的物品我遇到的问题是如何在没有购买的日子以及正整数计数的日子中返回计数为 0 的结果这是我的表格
在控制器中调用异步方法

我有一个控制器其内容如下 public MyController Controller public ActionResult DoSomething CallSomeMethodWhichDoesAsyncOperations retu
Import-Module with -force 删除导入模块功能？

我有 ModuleA 它使用下面的代码从模块 ADAutoDeployUtilities 和 Common LoggingNotifications 导入函数但是当我尝试使用 force 导入 Common LoggingNotific
在 PATH 中找不到程序“g++”

我在将 openCV 本机 C 添加到我的项目时遇到问题首先它只是说在路径中找不到程序 g 在路径中找不到程序 gcc 但是当我右键单击我的项目 gt Android Tools gt Add Native 时出现更多错误这是错误
从服务器 xamarin.android 收到的证书无效

所以这让我发疯了一天我正在尝试与 xamarin android 上的 REST API 进行通信但由于某种原因我收到此错误 InnerException Mono Security Protocol Tls TlsException
使用静态构造函数（Jon Skeet Brainteaser）

作为一个相对新手我尝试尽可能多地阅读有关特定主题的内容并尽可能多地测试编写代码我正在看其中之一乔恩斯脑筋急转弯 http www yoda arachsys com csharp teasers html 问题 2 我的输出与答案不
Pandas 从两列之间的操作开始

我有一个包含两列的 pandas 数据框我需要检查 A 列每行的值是一个以 B 列相应行的值开头的字符串反之亦然似乎系列方法 str startswith无法处理矢量化输入因此我需要压缩列表理解中的两列并创建一个新的pd Serie

Pandas 从两列之间的操作开始

Pandas 从两列之间的操作开始 的相关文章

随机推荐

热门标签

Pandas 从两列之间的操作开始的相关文章