在 python 中使用 pandas 检索数据列上的匹配字数

2024-01-01

我有一个df，

Name      Description
Ram Ram   is one of the good cricketer
Sri Sri   is one of the member
Kumar     Kumar is a keeper

和一个清单， my_list=["一","好","拉维","球"]

我正在尝试从 my_list 中获取至少具有一个关键字的行。

I tried,

  mask=df["Description"].str.contains("|".join(my_list),na=False)

我得到了output_df，

Name    Description
Ram     Ram is one of ONe crickete
Sri     Sri is one of the member
Ravi    Ravi is a player, ravi is playing
Kumar   there is a BALL

我还想添加“描述”中存在的关键字及其在单独列中的计数，

我想要的输出是，

Name    Description                      pre-keys          keys     count
Ram     Ram is one of ONe crickete         one,good,ONe   one,good    2
Sri     Sri is one of the member           one            one         1
Ravi    Ravi is a player, ravi is playing  Ravi,ravi      ravi        1
Kumar   there is a BALL                    ball           ball        1

Use str.findall http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.findall.html + str.join http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.join.html + str.len http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.len.html:

extracted = df['Description'].str.findall('(' + '|'.join(my_list) + ')') 
df['keys'] = extracted.str.join(',')
df['count'] = extracted.str.len()
print (df)
  Name                       Description      keys  count
0  Ram  Ram is one of the good cricketer  one,good      2
1  Sri          Sri is one of the member       one      1

EDIT:

import re
my_list=["ONE","good"]

extracted = df['Description'].str.findall('(' + '|'.join(my_list) + ')', flags=re.IGNORECASE)
df['keys'] = extracted.str.join(',')
df['count'] = extracted.str.len()
print (df)
  Name                       Description      keys  count
0  Ram  Ram is one of the good cricketer  one,good      2
1  Sri          Sri is one of the member       one      1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

dataanalysis

在 python 中使用 pandas 检索数据列上的匹配字数的相关文章

为什么 .setGeometry() 不改变 QWidget 实例的大小？

我想使用 QWidget 更改 QPushButton 的大小 setGeometry https doc qt io qtforpython 5 PySide2 QtWidgets QWidget html PySide2 QtWidge
on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
Python 3 __getattribute__ 与点访问行为

我读了一些关于 python 的对象属性查找的内容这里 https blog ionelmc ro 2015 02 09 understanding python metaclasses object attribute lookup h
python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
Paramiko - 使用私钥连接 - 不是有效的 OPENSSH 私钥/公钥文件

我正在尝试找到解决方案但无法理解我做错了什么在我的 Linux 服务器上我运行了以下命令 ssh keygen t rsa 这产生了一个id rsa and id rsa pub file 然后我将它们复制到本地并尝试运行以下代码 s
为什么 Python 中的“pip install”会引发语法错误？

我正在尝试使用 pip 安装软件包我试着跑pip install从Python shell 但我得到了SyntaxError 为什么我会收到此错误如何使用 pip 安装软件包 gt gt gt pip install selenium
在径向（树）网络x图中查找末端节点（叶节点）

给定下图是否有一种方便的方法来仅获取末端节点我所说的端节点是指那些具有一个连接边的到节点我认为这些有时被称为叶节点 G nx DiGraph fromnodes 0 1 1 1 1 1 2 3 4 5 5 5 7 8 9 10 ton
如何在 Python 中将彩色输出打印到终端？

是否有与 Perl 等效的 Python 语言 print color red print
matplotlib matshow 标签

我一个月前开始使用 matplotlib 所以我仍在学习我正在尝试用 matshow 制作热图我的代码如下 data numpy array a reshape 4 4 cax ax matshow data interpolation
如何在python中检索aws批处理参数值？

流程 Dynamo DB gt Lambda gt 批处理如果将角色 arn 插入动态数据库它是从 lambda 事件中检索的然后使用submit job角色 arn 的 API 被传递为 parameters role arn ar
spacy 如何使用词嵌入进行命名实体识别 (NER)？

我正在尝试使用以下方法训练 NER 模型spaCy识别位置人名和组织我试图理解如何spaCy识别文本中的实体但我无法找到答案从这个问题 https github com explosion spaCy issues 491在 Gi
具有多个元素的数组的真值是二义性错误吗？ Python

from numpy import from pylab import from math import def TentMap a x if x gt 0 and x lt 0 5 return 2 a x elif x gt 0 5 a
在可编辑的QSqlQueryModel中实现setEditStrategy

这是后续这个问题 https stackoverflow com questions 49752388 editable qtableview of complex sql query 在那里我们创建了 QSqlQueryModel 的可
Django 在选择列表更改时创建毫无意义的迁移

我正在尝试使用可调用创建一个带有选择字段的模型以便 Django 在选择列表更改时不会创建迁移如中所述this https stackoverflow com questions 31788450 stop django from cr
conda-env list / conda info --envs 如何查找环境？

我一直在尝试 anaconda miniconda 因为我的用户使用随 miniconda 安装的结构生物学程序并且作者都没有 A 考虑到可能存在其他 miniconda 应用程序 B 他们的程序将在多用户环境中使用因此使用 Arch
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
如何通过字符串匹配加速 pandas 行过滤？

我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作有没有快速的方法可以做到这一点例如 In 1 df mul df 3000 2000 3 reset inde
Scipy 稀疏 Cumsum

假设我有一个scipy sparse csr matrix代表下面的值 0 0 1 2 0 3 0 4 1 0 0 2 0 3 4 0 我想就地计算非零值的累积和这会将数组更改为 0 0 1 3 0 6 0 10 1 0 0 3 0 6
Python - 如何查询定义方法的类？

我的问题有点类似于this one https stackoverflow com questions 5520580 how do you get all classes defined in a module but not impor
张量流：注册 numpy bfloat16 扩展

正如我所见 tensorflow 中有 bfloat16 的 numpy 扩展 https github com tensorflow tensorflow blob 24ffe9f729160a095a5cab8f592392018280

随机推荐

Matlab中如何获取直方图数据

众所周知 Matlab 中的 hist 函数绘制数组的直方图我需要知道每个垃圾箱的数值请问你能帮帮我吗 thanks 指定输出hist http www mathworks com access helpdesk help techdo
如何通过flask.Blueprint.route装饰器传递类的自身？

我正在使用 Flask 和 Python 2 7 编写网站的后端但遇到了一些问题我喜欢使用类来封装我的函数它使我的事情变得整洁并帮助我保持一切模块化不过我遇到的一个问题是 flask 用于路由的装饰器不保留 self 变量我使用
普通 JavaScript 中的 jqueryposition()

我有以下代码行 var newLeftPos span s i position left parseInt span s i css width 10 它在 ie6 及更高版本中工作得很好但我还需要让它在 ie5 5 中工作现在我们不
使用 Redux 获取 Widget 树外部的更新状态

是否可以从 Widget 树之外的 Store 获取最新状态在 Provider 中您可以通过像这样调用 Provider 轻松做到这一点并且如果有任何更改状态将更新 Provider of
为什么 MSBuild 将 *.XmlSerializers.dll 程序集放在已发布的 Web 应用程序的根文件夹中？

我有一个构建过程它采用我的 VS 2008 NET 2 0 ASP NET 项目并使用 MSBuild 构建它该项目包含 ASPX 文件和一个 Web 服务并且还连接到另一个 Web 服务一切似乎都运行良好除了 MSBuild 将
c# xml序列化不写null

当我序列化一个包含可为 null DateTime 的 C 对象时有没有办法将 null 值保留在 xml 文件之外而不是让
SFINAE：static_assert 与 std::enable_if

是否存在以下缺点建议句法 template lt typename T gt void f static assert std is same lt T int gt value 而不是 SFINAE 看起来像拐杖 template l
使用“随机”键反序列化 JSON

我正在尝试反序列化此 Json 代码 hotkeyOptions autoSwitchHotkeyPreset true currentHotkeySetName Paladin hotkeySets Newbie F10 useObjec
添加引号到 CSV 导出

我正在使用以下命令将数据导出到 CSV 文件fputcsv 我有正在写入的字符串但是我要求数据用双引号引起来 foreach orderDetails lines as line fputcsv orderImportCsv line 在
如何使用 html5 音频标签在 Android 上使用 PhoneGap 播放本地 mp3？

我正在使用phonegap 上的Android SDK v19 在Android 4 4 上进行部署我在与我的 index html 文件相同的文件夹中有一个 mp3 文件我想使用 html5 音频标签来播放它
如何在 ASP.NET Core 的 Razor Pages 中设置全局变量？

我想检查浏览器是否是 IE 并在 razor 页面中执行某些操作我刚刚在剃刀页面中创建了一个函数来做到这一点不过我认为在每个razor页面中使用检查浏览器是否为IE的功能是多余的对于独立用户我只需要检查一次并设置一个全局变量IsI
如何在 C# 命令中使用 LIKE 运算符？

我需要将字符串插入 Sql 命令 search CommandText SELECT FROM Contacts WHERE Name like person 正确的使用方法是什么LIKE在命令中应该 SELECT FROM Contac
实例化新 Android Fragment 的最佳实践

我见过在应用程序中实例化新片段的两种一般做法 Fragment newFragment new MyFragment and Fragment newFragment MyFragment newInstance 第二个选项使用静态方法ne
sizeof- 函数还是宏？ [复制]

这个问题在这里已经有答案了在c中我们使用sizeof 用于获取数据类型的大小所以它是如何定义的它是一个宏或一个函数因为我们可以用两种方式来使用它 sizeof int and sizeof int 那么这是如何在头文件中定义的
将非 ASCII 字符分配给宽字符并使用 printf 打印

如何将非 ASCII 字符分配给宽字符并将其打印到控制台这段代码不起作用 include
SelectKBest (chi2) 如何计算分数？

我试图通过将特征选择方法应用于我的数据集来找到最有价值的特征我现在使用 SelectKBest 函数我可以生成分值并根据需要对它们进行排序但我不明白这个分值是如何计算的我知道理论上的高分更有价值但我需要一个数学公式或一个例子来计算
JMeter 使用 jmx 文件的相对路径上传文件

我正在 JMeter 中创建一个 HTTP 请求采样器以自动将文件上传到 http 服务有没有办法将通过请求发送文件中的文件路径设置为jmx文件位置的相对路径是的这在 JMeter v2 9 中得到了证实您可以在文件名输入
如何在 SQL Server 2005 Express 中启用全文索引？

我正在尝试在 SQL Server 2005 Express 中启用全文索引我在装有 Vista Ultimate 的笔记本电脑上运行此程序据我所知标准版本的 SQL Server Express 没有全文索引我已经下载并安装了 M
从 Rails-geocoder gem 中的控制器获取纬度和经度值

使用时是否可以在控制器中获取纬度和经度值geocoder https github com alexreisner geocoder宝石在轨道上目前正在做的获取所有附近位置的操作是传递位置名称如下所示 event address Eve
在 python 中使用 pandas 检索数据列上的匹配字数

我有一个df Name Description Ram Ram is one of the good cricketer Sri Sri is one of the member Kumar Kumar is a keeper 和一个清单

在 python 中使用 pandas 检索数据列上的匹配字数

在 python 中使用 pandas 检索数据列上的匹配字数 的相关文章

随机推荐

热门标签

在 python 中使用 pandas 检索数据列上的匹配字数的相关文章