从 pandas 数据帧的列中提取主题标签

2024-03-01

我有一个数据框df。我想从 Max==45 的推文中提取主题标签：

Max    Tweets
42   via @VIE_unlike at #fashion
42   Ny trailer #katamaritribute #ps3
45   Saved a baby bluejay from dogs #fb
45   #Niley #Niley #Niley

我正在尝试类似的方法，但它给出了空数据框：

df.loc[df['Max'] == 45, [hsh for hsh in 'tweets' if hsh.startswith('#')]]

pandas 中是否有一些东西可以用来有效且更快地执行此操作。

您可以使用pd.Series.str.findall:

In [956]: df.Tweets.str.findall(r'#.*?(?=\s|$)')
Out[956]: 
0                  [#fashion]
1    [#katamaritribute, #ps3]
2                       [#fb]
3    [#Niley, #Niley, #Niley]

这将返回一列lists.

如果你想先过滤然后查找，你可以很容易地使用boolean indexing:

In [957]: df.Tweets[df.Max == 45].str.findall(r'#.*?(?=\s|$)')
Out[957]: 
2                       [#fb]
3    [#Niley, #Niley, #Niley]
Name: Tweets, dtype: object

这里使用的正则表达式是：

#.*?(?=\s|$)

要理解它，请将其分解：

#.*?- 对以主题标签开头的单词进行非贪婪匹配
(?=\s|$)- 提前查找单词结尾或句子结尾

如果可能的话你有#在一个单词的中间not主题标签，这会产生您不想要的误报。在这种情况下，您可以修改正则表达式以包含lookbehind：

(?:(?<=\s)|(?<=^))#.*?(?=\s|$)

正则表达式lookbehind断言空格或句子的开头必须在a之前#特点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

extract

hashtag

从 pandas 数据帧的列中提取主题标签的相关文章

从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
“一旦获取切片就无法更新查询”。最佳实践？

由于我的项目的性质我发现自己不断地从查询集中取出切片如下所示 Thread objects filter board requested board id order by updatedate 10 但这给我带来了实际对我选择的元素进
将二维数组放入 Pandas 系列中

我有一个 2D Numpy 数组我想将其放入 pandas 系列而不是 DataFrame 中 gt gt gt import pandas as pd gt gt gt import numpy as np gt gt gt a np
小部件之间的自定义信号

尝试将信号从一个 gtk EventBox 子级发送到另一个在 init HeadMode 第 75 行上出现错误类型错误未知信号名称消息发送 why usr bin env python coding utf8 import p
揭秘sharedctypes性能

在 python 中可以在多个进程之间共享 ctypes 对象然而我注意到分配这些对象似乎非常昂贵考虑以下代码 from multiprocessing import sharedctypes as sct import ctypes
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
如何使用 Bokeh 动态隐藏字形和图例项

我正在尝试在散景中实现复选框其中每个复选框应显示隐藏与其关联的行我知道可以通过图例来实现这一点但我希望这种效果同时在两个图中发生此外图例也应该更新在下面的示例中出现了复选框但不执行任何操作我显然不明白如何更新用作源的数据
如何在 Django 中使用基于类的视图创建注册视图？

当我开始使用 Django 时我几乎使用 FBV 基于函数的视图来处理所有事情包括注册新用户但当我更深入地研究项目时我意识到基于类的视图通常更适合大型项目因为它们更干净且可维护但这并不是说 FBV 不是无论如何我将整个项目
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
Python Pandas：如何对组中的所有项目进行分组并为其分配 id？

我有 df domain orgid csyunshu com 108299 dshu com 108299 bbbdshu com 108299 cwakwakmrg com 121303 ckonkatsunet com 121303
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
合并数据框而不重复行

我想合并两个数据框但如果有多个匹配项则不想重复行相反我想总结一下那天的观察结果来自合并提取两个数据框中与指定列匹配的行并将其连接在一起如果有多个匹配项则所有可能的匹配项各贡献一行这是一些示例代码 days lt as d
sqlite3从打印数据中删除括号

我创建了一个脚本用于查找数据库第一行中的最后一个值 import sqlite3 global SerialNum conn sqlite3 connect MyFirstDB db conn text factory str c con
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
使用Multiprocessing和Pool时如何访问全局变量？

我试图避免将变量冗余地传递到dataList e g 1 globalDict 2 globalDict 3 globalDict 并在全球范围内使用它们 global globalDict然而在下面的代码中并不是这样做的解决方案是否有
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

从 Python 句子中提取三元组

我正在尝试使用Python中的斯坦福依赖解析器从给定的句子中提取三元组主语谓语宾语有人可以指导我完成这个任务吗提前致谢您可以参考以下链接来从句子中提取三元组 https github com tdpetrou RDF Tripl
如何在 MediaPlayer 上设置代理

在我的音乐流程序中如何设置代理android media MediaPlayer通过代理网络传输链接文件的类我了解 NTCredential UsernamePasswordCredential Proxy Authorization
如何使用 github graphql API 创建新的提交？

我正在尝试使用 github graphql api 创建一个新的提交使用创建CommitOnBranch https github blog changelog 2021 09 13 a simpler api for authorin
如何删除添加到列表中的最后一个元素？

我在 C 中有一个列表我在其中添加列表字段现在在添加时我必须检查条件如果条件满足那么我需要删除从列表中添加的最后一行这是我的示例代码 List lt gt rows new List lt gt foreach User use
如何使用 php / symfony 进行 Windows 身份验证

我在 Symfony 应用程序 Intranet 上工作我听说可以使用身份验证窗口而不必使用传统的身份验证窗口登录有人可以给我 1 或 2 个有关该主题的链接地址吗我自己搜索过但找不到合适的关键词他是WSSE吗先感谢您如果您
MFC中Tree(CTreeCtrl)中添加特定树项的图标

我们可以为特定的树项目添加图标吗我使用以下功能添加带有图标的项目 HTREEITEM InsertItem LPCTSTR lpszItem int nImage int nSelectedImage HTREEITEM hParent
海龟图形 - 如何控制窗口何时关闭？

我有一个小的 python 脚本可以绘制一些海龟图形当我的脚本运行完毕后海龟屏幕会自动关闭因此为了能够暂时看到图形我必须使用time sleep 5 在脚本末尾以延迟关闭有什么方法可以使其更加动态即告诉 python 我想自己
Vba Excel从关闭的文件中进行vlookup

我想从关闭文件到活动打开文件进行 vlookup 关闭文件的路径将作为变体给出可以说mypath C list 我不知道是只设置路径更好还是设置完整路径路径文件名你能帮忙吗您将需要完整路径 Example Option Expli
使用 SAN 证书时公用名称无效

我已经为内部服务器生成了一个证书该证书也可以从外部访问根据this https stackoverflow com a 5937270 918406所以回答 CN 和 SAN 字段相互补充因此我将 CN 设置为 server doma
带 MVC 的 PHP 前端控制器

我正在尝试通过前端控制器设计深入研究 MVC 我想通过使用一行来调用我的整个应用程序例如在index php中 require once myclass php output new myClass 我很想摆脱 require once
Zend Form：如何让它屈服于我的意志？

我已经多次阅读该手册我搜索了谷歌提供的有关该主题的帖子我什至买了几本有关采埃孚的书籍现在为什么我还是一头雾水我可以使用 Zend Form 制作一个可以正常验证和运行的表单我不能做的是制作一个看起来与我希望的完全一样的表单并带
搜索部分类名，返回完整类名

想象一下这个页面 A 包含此内容body div class overlay homepage span span div B页包含 div class overlay results span span div 我可以使用此脚本来识别它
位置：固定和宽度：继承百分比父级

我想给一个fixed元素awidth百分比父母这里 container 当我使用像素而不是百分比时它就起作用了我该怎么做这可能吗 CSS HTML div div div Sitename div div div CSS outer
可以省略不必要的启动图像吗？

我有一个仅支持运行 iOS 10 或更高版本的 iPhone 的应用程序我只添加了以下图像电子邮件受保护 cdn cgi l email protection 电子邮件受保护 cdn cgi l email protection 电子邮
JUnit 测试 if else case

如何将测试写入当前方法我使用 jUnit 4 public void setImage if conditionOne myView setImageOne else myView setImageTwo 好的您编写此方法的方式存在缺陷
忽略排队的鼠标事件

我有一个用 C 编写的针对 NET Compact Framework 3 5 的应用程序在 Windows CE 上运行有时会在 UI 线程上执行持续一秒左右的操作我目前设置的是Cursor Current属性来指示应用程序正忙
在 Windows 命令终端中启动 R

我不知道如何在 Windows 命令终端中启动 R 我跑cmd键入后打开命令提示符R rcmd start R并尝试我发现的其他可能性但我有一个错误 R is not recognized as an internal or extern
架构arm64解析的未定义符号

我正在尝试在我的应用程序中实现解析这里的问题是我收到这些奇怪的错误我不知道它们的含义我尝试过 1 更改架构但最新版本的Xcode不允许我设置自己的架构例如arm64 2 我尝试删除可能有冲突的 SDK Dropbox 3 我已经链
有选择地恢复或签出 Git 中文件的更改？

是否有命令允许您部分撤消对工作目录中一个或多个文件的更改假设您对一个文件进行了多次编辑但您意识到想要将某些更改撤消回已提交状态但不想将其他更改撤消我正在设想一个选项git checkout这很像git add p 即它会逐个检查文件
从 pandas 数据帧的列中提取主题标签

我有一个数据框df 我想从 Max 45 的推文中提取主题标签 Max Tweets 42 via VIE unlike at fashion 42 Ny trailer katamaritribute ps3 45 Saved a bab

从 pandas 数据帧的列中提取主题标签

从 pandas 数据帧的列中提取主题标签 的相关文章

随机推荐

热门标签

从 pandas 数据帧的列中提取主题标签的相关文章