列包含列 2

2023-12-22

我有一个数据框。我想测试(C),在每行上,(B)列中的数字是否在字符串(A)列中。

df = pd.DataFrame({'A': ["me 123", "me-123", "1234", "me 12", "123 and"],
                   'B': [123,       123,      123,    123,     6]})

我想得到:

         A    B  C
0   me 123  123  1
1   me-123  123  1
2     1234  123  0
3    me 12  123  0
4  123 and    6  0

各种方法几乎可以解决这个问题 (1):

df['C'] = [str(y) in x for x , y in zip(df.A.str.split(' '),df.B)]

         A    B      C
0   me 123  123   True
1   me-123  123  False
2     1234  123  False
3    me 12  123  False
4  123 and    6  False

or (2):

df['C'] = [str(y) in x for x , y in zip(df.A,df.B)]

         A    B      C
0   me 123  123   True
1   me-123  123   True
2     1234  123   True
3    me 12  123  False
4  123 and    6  False

or (3):

df['C']=df.A.str.contains(r'\b(?:{})\b'.format('|'.join(df.B.astype(str)))).astype(int)

         A    B  C
0   me 123  123  1
1   me-123  123  1
2     1234  123  0
3    me 12  123  0
4  123 and    6  1

or (4):

def fun (A,B):
    return str(B) in str(A)
f = np.vectorize(fun, otypes=[int])
df["C"] = f(df['A'], df['B'])

         A    B  C
0   me 123  123  1
1   me-123  123  1
2     1234  123  1
3    me 12  123  0
4  123 and    6  0

or (5):

df['A1'] = df['A'] .apply(word_tokenize)

无法将 - 识别为空格。请问怎样才能得到上面的结果呢?


向量化的方式来自extract

df.A.str.extract('(\d+)', expand=False).astype(int).eq(df.B,0).astype(int)
Out[347]: 
   0
0  1
1  1
2  0
3  0
4  0
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

列包含列 2 的相关文章

  • 在 Pandas 中按日期获取有效合约

    我在检测 pandas DataFrame 中的活动合约方面遇到了一些困难 假设每一行都是一个协商 对于每一行 我有两列 initial date 和 end date 我想知道的是按日期划分的活跃合约数量 到目前为止我做了一个非常低效的方
  • Pandas Dataframe:将包含列表的行扩展到多行,并为所有列提供所需的索引

    我在 pandas 数据框中有时间序列数据 索引为测量开始时的时间 列中包含以固定采样率记录的值列表 连续索引 列表中元素数量的差异 这是它的样子 Time A B Z 0 1 2 3 4 1 2 3 4 2 5 6 7 8 5 6 7 8
  • 我如何真正使用 pandas DataFrame 的 ix 方法?

    注 自从我问这个问题以来 ix仍然存在 但或多或 少已被取代 loc用于基于标签的索引和 iloc用于位置索引 阅读了文档之一ix数据帧方法 http pandas pydata org pandas docs stable indexin
  • 在 Pandas Dataframe 中保存其他属性

    我记得在 MatLab 时代使用结构化数组 您可以将不同的数据存储为主结构的属性 就像是 a a A magic 10 a B magic 50 etc where a A and a B彼此完全独立 允许您在其中存储不同类型a并根据需要对
  • Dask DataFrame 的逐行处理

    我需要处理一个大文件并更改一些值 我想做这样的事情 for index row in dataFrame iterrows foo doSomeStuffWith row lol doOtherStuffWith row dataFrame
  • 将一个时间序列插入到 pandas 中的另一个时间序列中

    我有一组定期测量的值 说 import pandas as pd import numpy as np rng pd date range 2013 01 01 periods 12 freq H data pd Series np ran
  • 当x轴不连续时如何删除冗余日期时间 pandas DatetimeIndex

    我想绘制一个 pandas 系列 其索引是无数的 DatatimeIndex 我的代码如下 import matplotlib dates as mdates index pd DatetimeIndex 2000 01 01 00 00
  • 使用 dict 在数据框中查找行

    df pd DataFrame a 1 2 3 b 4 5 6 produces a b 0 1 4 1 2 5 2 3 6 给定一个字典 d a 2 b 5 我将如何提取数据帧中字典的键值与所有列值匹配的行 所以在这种情况下 a b 1
  • 从时间序列生成日期特征

    我有一个数据框 其中包含如下列 Date temp data holiday day 01 01 2000 10000 0 1 02 01 2000 0 1 2 03 01 2000 2000 0 3 30 01 2000 200 0 30
  • 获取 Pandas groupby 对象中的比率

    我有一个如下所示的数据框 我想为每个州创建另一个名为 engages percent 的列 它基本上是唯一engages count的数量除以每个特定州的user count 我尝试执行以下操作 def f x engaged percen
  • Pandas HD5-查询,其中表达式失败

    我想查询 HDF5 文件 我愿意 df to hdf pfad df format table 将数据帧写入光盘 为了阅读我使用 hdf pandas HDFStore pfad 我有一个列表 其中包含numpy datetime64值称为
  • 如何将 Pandas 数据帧的多列弹出到新数据帧中?

    假设我有以下内容 df pd DataFrame a range 2 b range 2 c range 2 d range 2 我想将两列 c 和 d 从数据框中 弹出 到一个新的数据框中 将 a 和 b 留在原始 df 中 以下不起作用
  • 根据字符位置拆分列中的字符串

    我有一个像这样的数据框 Basic Stats Min Max Mean Stdev 1 LT50300282010256PAC01 0 336438 0 743478 0 592622 0 052544 2 LT5030028200926
  • 如何将不同的函数应用于pandas数据框的不同列

    我想在 pandas 数据帧上使用 groupby 但我想获取某些列的平均值和其他列的总和 假设我们有以下数据框 ID A B C 1 1 1 0 1 2 3 1 1 3 6 1 4 3 2 1 4 4 1 0 6 5 1 0 6 6 6
  • Plotly:如何创建月度和年度平均下拉选项?

    我希望在 Plotly 中创建一个下拉菜单 以将原始的每日时间序列重新采样为月平均值和年平均值 总之 我期望下拉列表中有 3 个选项 第一个是绘制的原始每日时间步长 第二个是重新采样的每日数据的月平均值 第三个是可以选择的年度平均值 这是迄
  • 是否可以在 IPython 控制台中显示 pandas 样式?

    是否可以显示熊猫风格 https pandas pydata org pandas docs stable user guide style html在 iPython 控制台中 Jupyter 笔记本中的以下代码 import panda
  • pandas read_csv 之前预处理数据文件

    我使用 SAP 的数据输出 但它既不是 CSV 因为它不引用包含其分隔符的字符串 也不是固定宽度 因为它具有多字节字符 它是一种 固定宽度 字符 为了将其放入 pandas 我当前读取文件 获取分隔符位置 对分隔符周围的每一行进行切片 然后
  • DataFrame.loc 的“索引器太多”

    我读了关于切片器的文档 http pandas pydata org pandas docs stable advanced html using slicers一百万次 但我从来没有理解过它 所以我仍在试图弄清楚如何使用loc切片Data
  • pandas 数据框的最大大小

    我正在尝试使用读取一个有点大的数据集pandas read csv or read stata功能 但我不断遇到Memory Errors 数据帧的最大大小是多少 我的理解是 只要数据适合内存 数据帧就应该没问题 这对我来说不应该是问题 还
  • 将函数按元素应用于两个 DataFrame

    如何应用函数z ij f x ij y ij 来自数据框X and Y相同大小并将结果保存到 DataFrameZ 这取决于你有什么样的功能 很多功能已经被矢量化为数据框 例如 等等 所以对于这些功能 你可以简单地做Z X Y or Z X

随机推荐

  • Visual Studio 最近的“饥饿”或“贪婪”退格行为更新?

    截至最近 Visual Studio 2017 以及我刚刚开始使用的 2019 似乎改变了退格按钮的行为 具体来说 光标位于只有空白 比如说制表符 位于左侧的位置 光标 我曾经按退格键删除一个选项卡 现在 所有空白都被删除 我的代码行被放置
  • 无法将 CollectionProxy 对象传递给 ActiveJob

    我需要在后台标记一组消息 我正在使用delayed job gem 因为它在前台需要一些时间 所以我创建了一个ActiveJob class MarkMessagesAsReadJob 并通过了user and messages变量以标记所
  • 模仿 javascript || 的 Python 运算符操作员

    我是 Python 新手 所以可能不知道这是否显而易见 在 JavaScript 中a b回报a if a被评估为 true 否则返回b 除了冗长的 if else 语句之外 这在 Python 中是否可能 我相信这是正确的 x a or
  • iPad 未显示在 OSX Safari 上的“开发”菜单中

    我需要在 iPad 上调试 HTML 应用程序 我以前可以通过 USB 线将 ipad 连接到我的 Mac 它会显示在 Safari 的 开发 菜单中 我现在有两台 ipad 一台装有 iOS 6 另一台装有 iOS 7 iOS 6 的一台
  • Django 中的字节范围[关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 Django 中是否有 HTTP 字节范围的现有实现 IE 当客户端发送 Range 标头时 我希望我的
  • 是否有更有效或更简洁的方法来使用 tidyr::gather 使我的数据看起来“整洁”?

    我是使用 tidyverse 的新手 我想看看我使用这个包中的函数是否尽可能高效 简洁 我怀疑我不是 我的原始数据将键符号作为每个列名称的一部分 day a x b x a y b y 1 1 0 56047565 1 2240818 1
  • iOS9 更新 AFNetworking 调用以使用 HTTPS 的正确方法是什么(错误 -1200、-9824)?

    我正在从 iOS 8 切换到 iOS 9 之前通过 HTTPS 进行的 AFNetworking Web 服务调用不再有效 我越来越error 1200 and error 9824该问题与使用自签名证书有关 错误域 kCFErrorDom
  • RoundUp - AngularJS

    我正在使用以下代码来尝试和总结在角度 总体上有效 但是小于 0 5 的数字四舍五入为 0 我想round up每个数字到下一个整数 例如 0 02 应四舍五入为 1 data Virtual SumCores data Physical S
  • Java 返回错误“无法实例化类型”[重复]

    这个问题在这里已经有答案了 当我尝试初始化新对象时收到此错误消息 Cannot instantiate the type Car My code 主程序 java public class Main public static void m
  • Pex 和 Moles 项目还活跃吗?

    他们过去每月发布两个新版本 但自 2010 年 10 月以来 他们没有发布新版本 我发现了this http social msdn microsoft com Forums en pex thread e59d72ae 29fd 4251
  • 如何在交互式变基期间取消暂存文件(从旧提交中删除文件)?

    我读过Pro Git关于交互式变基以更改多个提交的书 所以我正在做git rebase HEAD 3 改了我想修改的一项edit 然后我可以通过更改消息git commit amend 并通过添加一个文件git add file3之后git
  • 打印和格式化字符串文字有什么区别?

    当我们可以使用第 8 行和第 9 行代码时 使用代码有什么意义print比如10号线 my name Zed A Shaw my age 35 my height 74 my weight 180 my eyes Blue my teeth
  • 如果我将数组初始化为大小 0 会发生什么?

    假设我有一个类似的函数 void myFunc List
  • AJAX 响应时间

    如何计算 AJAX 响应时间 我在脚本中需要这个 因为我得到服务器时间戳 但如果请求花费超过 1 秒 我需要在时间戳上添加 1 秒 您需要获取开始时间 就在 AJAX 请求完成之前 然后获取脚本完成时的结束时间 然后您可以计算出差异 如果大
  • pySerial 2.6:在 readline() 中指定行尾

    我正在使用 pySerial 向 Eddie 发送命令 我需要在我的阅读行中指定回车符 但 pySerial 2 6 去掉了它 有解决方法吗 这里有艾迪命令集 https www parallax com sites default fil
  • Spring data jpa,外部化本机查询

    我正在使用 Spring data jpa 来执行本机查询 这是示例 Query value select name from customer nativeQuery true public List
  • 播放 iOS 时从 HLS 流(视频)中提取/录制音频

    我正在使用 AVPlayer 播放 HLS 流 当用户按下录制按钮时 我还需要录制这些流 我使用的方法是分别录制音频和视频 然后最后合并这些文件以制作最终视频 并且远程 mp4 文件成功 但现在对于 HLS m3u8 文件 我可以使用 AV
  • log4j 用于独立的 java 项目

    我正在考虑将 log4j 用于我的独立 java 项目 是否可以将它用于 java 项目 而不是网络应用程序 如果可能的话 我应该如何初始化属性文件以及应该在哪里初始化 我放置了属性文件 目录结构 任何帮助表示赞赏 是的 这是可能的 我们一
  • Bing API v1 文档

    有谁知道我可以在哪里找到 Bongs API 的最新文档 网址如下 https api datamarket azure com Bing Search v1 Web 甚至他们自己的网站在我读过的单词文档中也有错误的 URL 即https
  • 列包含列 2

    我有一个数据框 我想测试 C 在每行上 B 列中的数字是否在字符串 A 列中 df pd DataFrame A me 123 me 123 1234 me 12 123 and B 123 123 123 123 6 我想得到 A B C