从 pandas 数据帧的列中提取主题标签

2024-03-01

我有一个数据框df。我想从 Max==45 的推文中提取主题标签:

Max    Tweets
42   via @VIE_unlike at #fashion
42   Ny trailer #katamaritribute #ps3
45   Saved a baby bluejay from dogs #fb
45   #Niley #Niley #Niley 

我正在尝试类似的方法,但它给出了空数据框:

df.loc[df['Max'] == 45, [hsh for hsh in 'tweets' if hsh.startswith('#')]]

pandas 中是否有一些东西可以用来有效且更快地执行此操作。


您可以使用pd.Series.str.findall:

In [956]: df.Tweets.str.findall(r'#.*?(?=\s|$)')
Out[956]: 
0                  [#fashion]
1    [#katamaritribute, #ps3]
2                       [#fb]
3    [#Niley, #Niley, #Niley]

这将返回一列lists.

如果你想先过滤然后查找,你可以很容易地使用boolean indexing:

In [957]: df.Tweets[df.Max == 45].str.findall(r'#.*?(?=\s|$)')
Out[957]: 
2                       [#fb]
3    [#Niley, #Niley, #Niley]
Name: Tweets, dtype: object

这里使用的正则表达式是:

#.*?(?=\s|$)

要理解它,请将其分解:

  • #.*?- 对以主题标签开头的单词进行非贪婪匹配
  • (?=\s|$)- 提前查找单词结尾或句子结尾

如果可能的话你有#在一个单词的中间not主题标签,这会产生您不想要的误报。在这种情况下,您可以修改正则表达式以包含lookbehind:

(?:(?<=\s)|(?<=^))#.*?(?=\s|$)

正则表达式lookbehind断言空格或句子的开头必须在a之前#特点。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从 pandas 数据帧的列中提取主题标签 的相关文章

  • 从 Python 下载/安装 Windows 更新

    我正在编写一个脚本来自动安装 Windows 更新 我可以将其部署在多台计算机上 这样我就不必担心手动更新它们 我想用 Python 编写这个 但找不到任何关于如何完成此操作的信息 我需要知道如何搜索更新 下载更新并从 python 脚本安
  • Pyqt-如何因另一个组合框数据而更改组合框数据?

    我有一个表 有 4 列 这 4 列中的两列是关于功能的 一个是特征 另一个是子特征 在每一列中 所有单元格都有组合框 我可以在这些单元格中打开txt 我想 当我选择电影院作为功能时 我只想看到子功能组合框中的电影名称 而不是我的 数据 中的
  • Pandas dataframe:每批行的操作

    我有一个熊猫数据框df我想计算每批行的一些统计信息 例如 假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框 我怎样才能做这样的事情呢 这是我想要的一个例子 prin
  • “一旦获取切片就无法更新查询”。最佳实践?

    由于我的项目的性质 我发现自己不断地从查询集中取出切片 如下所示 Thread objects filter board requested board id order by updatedate 10 但这给我带来了实际对我选择的元素进
  • 将二维数组放入 Pandas 系列中

    我有一个 2D Numpy 数组 我想将其放入 pandas 系列 而不是 DataFrame 中 gt gt gt import pandas as pd gt gt gt import numpy as np gt gt gt a np
  • 小部件之间的自定义信号

    尝试将信号从一个 gtk EventBox 子级发送到另一个 在 init HeadMode 第 75 行 上出现错误 类型错误 未知信号名称 消息发送 why usr bin env python coding utf8 import p
  • 揭秘sharedctypes性能

    在 python 中 可以在多个进程之间共享 ctypes 对象 然而我注意到分配这些对象似乎非常昂贵 考虑以下代码 from multiprocessing import sharedctypes as sct import ctypes
  • 对使用 importlib.util 导入的对象进行酸洗

    我在使用Python的pickle时遇到了一个问题 我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块 如下所示 import importlib util spec importlib util sp
  • 如何使用 Bokeh 动态隐藏字形和图例项

    我正在尝试在散景中实现复选框 其中每个复选框应显示 隐藏与其关联的行 我知道可以通过图例来实现这一点 但我希望这种效果同时在两个图中发生 此外 图例也应该更新 在下面的示例中 出现了复选框 但不执行任何操作 我显然不明白如何更新用作源的数据
  • 如何在 Django 中使用基于类的视图创建注册视图?

    当我开始使用 Django 时 我几乎使用 FBV 基于函数的视图 来处理所有事情 包括注册新用户 但当我更深入地研究项目时 我意识到基于类的视图通常更适合大型项目 因为它们更干净且可维护 但这并不是说 FBV 不是 无论如何 我将整个项目
  • Python Django-如何从输入文件标签读取文件?

    我不想将文件保存在我的服务器上 我只想在下一页中读取并打印该文件 现在我有这个 index html
  • Python Pandas:如何对组中的所有项目进行分组并为其分配 id?

    我有 df domain orgid csyunshu com 108299 dshu com 108299 bbbdshu com 108299 cwakwakmrg com 121303 ckonkatsunet com 121303
  • GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

    我发现计算的梯度取决于 tf function 装饰器的相互作用 如下所示 首先 我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
  • 为什么我应该使用 WSGI?

    使用 mod python 一段时间了 我读了越来越多关于 WSGI 有多好的文章 但没有真正理解为什么 那么我为什么要切换到它呢 有什么好处 这很难吗 学习曲线值得吗 为了用 Python 开发复杂的 Web 应用程序 您可能会使用更全面
  • 合并数据框而不重复行

    我想合并两个数据框 但如果有多个匹配项 则不想重复行 相反 我想总结一下那天的观察结果 来自 合并 提取两个数据框中与指定列匹配的行并将其连接在一起 如果有多个匹配项 则所有可能的匹配项各贡献一行 这是一些示例代码 days lt as d
  • sqlite3从打印数据中删除括号

    我创建了一个脚本 用于查找数据库第一行中的最后一个值 import sqlite3 global SerialNum conn sqlite3 connect MyFirstDB db conn text factory str c con
  • 带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

    我使用以下代码来限制日志文件的大小 最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
  • 附加两个具有相同列、不同顺序的数据框

    我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
  • 使用Multiprocessing和Pool时如何访问全局变量?

    我试图避免将变量冗余地传递到dataList e g 1 globalDict 2 globalDict 3 globalDict 并在全球范围内使用它们 global globalDict然而 在下面的代码中并不是这样做的解决方案 是否有
  • tkinter:打开一个带有按钮提示的新窗口[关闭]

    Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案 用户如何按下 tkinter GUI 中的按钮来打开新窗口 我只需要非常简单的解决方案 如果代码也能被解释那就太好了 这

随机推荐

  • 从 Python 句子中提取三元组

    我正在尝试使用Python中的斯坦福依赖解析器从给定的句子中提取三元组 主语 谓语 宾语 有人可以指导我完成这个任务吗 提前致谢 您可以参考以下链接来从句子中提取三元组 https github com tdpetrou RDF Tripl
  • 如何在 MediaPlayer 上设置代理

    在我的音乐流程序中 如何设置代理android media MediaPlayer通过代理网络传输链接文件的类 我了解 NTCredential UsernamePasswordCredential Proxy Authorization
  • 如何使用 github graphql API 创建新的提交?

    我正在尝试使用 github graphql api 创建一个新的提交 使用创建CommitOnBranch https github blog changelog 2021 09 13 a simpler api for authorin
  • 如何删除添加到列表中的最后一个元素?

    我在 C 中有一个列表 我在其中添加列表字段 现在 在添加时我必须检查条件 如果条件满足 那么我需要删除从列表中添加的最后一行 这是我的示例代码 List lt gt rows new List lt gt foreach User use
  • 如何使用 php / symfony 进行 Windows 身份验证

    我在 Symfony 应用程序 Intranet 上工作 我听说可以使用身份验证窗口 而不必使用传统的身份验证窗口登录 有人可以给我 1 或 2 个有关该主题的链接地址吗 我自己搜索过 但找不到合适的关键词 他是WSSE吗 先感谢您 如果您
  • MFC中Tree(CTreeCtrl)中添加特定树项的图标

    我们可以为特定的树项目添加图标吗 我使用以下功能添加带有图标的项目 HTREEITEM InsertItem LPCTSTR lpszItem int nImage int nSelectedImage HTREEITEM hParent
  • 海龟图形 - 如何控制窗口何时关闭?

    我有一个小的 python 脚本 可以绘制一些海龟图形 当我的脚本运行完毕后 海龟屏幕会自动关闭 因此为了能够暂时看到图形 我必须使用time sleep 5 在脚本末尾以延迟关闭 有什么方法可以使其更加动态 即告诉 python 我想自己
  • Vba Excel从关闭的文件中进行vlookup

    我想从关闭文件到活动打开文件进行 vlookup 关闭文件的路径将作为变体给出 可以说mypath C list 我不知道是只设置路径更好还是设置完整路径 路径 文件名 你能帮忙吗 您将需要完整路径 Example Option Expli
  • 使用 SAN 证书时公用名称无效

    我已经为内部服务器生成了一个证书 该证书也可以从外部访问 根据this https stackoverflow com a 5937270 918406所以回答 CN 和 SAN 字段相互补充 因此我将 CN 设置为 server doma
  • 带 MVC 的 PHP 前端控制器

    我正在尝试通过前端控制器设计深入研究 MVC 我想通过使用一行来调用我的整个应用程序 例如在index php中 require once myclass php output new myClass 我很想摆脱 require once
  • Zend Form:如何让它屈服于我的意志?

    我已经多次阅读该手册 我搜索了谷歌提供的有关该主题的帖子 我什至买了几本有关采埃孚的书籍 现在 为什么我还是一头雾水 我可以使用 Zend Form 制作一个可以正常验证和运行的表单 我不能做的是制作一个看起来与我希望的完全一样的表单 并带
  • 搜索部分类名,返回完整类名

    想象一下这个 页面 A 包含此内容body div class overlay homepage span span div B页包含 div class overlay results span span div 我可以使用此脚本来识别它
  • 位置:固定和宽度:继承百分比父级

    我想给一个fixed元素awidth百分比父母 这里 container 当我使用像素而不是百分比时 它就起作用了 我该怎么做 这可能吗 CSS HTML div div div Sitename div div div CSS outer
  • 可以省略不必要的启动图像吗?

    我有一个仅支持运行 iOS 10 或更高版本的 iPhone 的应用程序 我只添加了以下图像 电子邮件受保护 cdn cgi l email protection 电子邮件受保护 cdn cgi l email protection 电子邮
  • JUnit 测试 if else case

    如何将测试写入当前方法 我使用 jUnit 4 public void setImage if conditionOne myView setImageOne else myView setImageTwo 好的 您编写此方法的方式存在缺陷
  • 忽略排队的鼠标事件

    我有一个用 C 编写的针对 NET Compact Framework 3 5 的应用程序 在 Windows CE 上运行 有时 会在 UI 线程上执行持续一秒左右的操作 我目前设置的是Cursor Current属性来指示应用程序正忙
  • 在 Windows 命令终端中启动 R

    我不知道如何在 Windows 命令终端中启动 R 我跑cmd键入后打开命令提示符R rcmd start R并尝试我发现的其他可能性 但我有一个错误 R is not recognized as an internal or extern
  • 架构arm64解析的未定义符号

    我正在尝试在我的应用程序中实现解析 这里的问题是我收到这些奇怪的错误 我不知道它们的含义 我尝试过 1 更改架构 但最新版本的Xcode不允许我设置自己的架构 例如arm64 2 我尝试删除可能有冲突的 SDK Dropbox 3 我已经链
  • 有选择地恢复或签出 Git 中文件的更改?

    是否有命令允许您部分撤消对工作目录中一个或多个文件的更改 假设您对一个文件进行了多次编辑 但您意识到想要将某些更改撤消回已提交状态 但不想将其他更改撤消 我正在设想一个选项git checkout这很像git add p 即它会逐个检查文件
  • 从 pandas 数据帧的列中提取主题标签

    我有一个数据框df 我想从 Max 45 的推文中提取主题标签 Max Tweets 42 via VIE unlike at fashion 42 Ny trailer katamaritribute ps3 45 Saved a bab