计算数据框中主题标签的频率

2024-03-02

我正在尝试计算数据框“文本”列中主题标签词的频率。

index        text
1            ello ello ello ello #hello #ello
2            red green blue black #colours
3            Season greetings #hello #goodbye 
4            morning #goodMorning #hello
5            my favourite animal #dog

word_freq = df.text.str.split(expand=True).stack().value_counts()

上面的代码将对文本列中的所有字符串执行频率计数，但我只是返回主题标签频率。

例如，在上面的数据帧上运行代码后，它应该返回

#hello        3
#goodbye      1
#goodMorning  1
#ello         1
#colours      1
#dog          1

有没有一种方法可以稍微重新调整我的 word_freq 代码，以便它只计算主题标签单词并以我上面放置的方式返回它们？提前致谢。

Use Series.str.findall https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.findall.html在列上text找到所有主题标签词然后使用Series.explode https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.explode.html + Series.value_counts https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html:

counts = df['text'].str.findall(r'(#\w+)').explode().value_counts()

另一个想法使用Series.str.split https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.split.html + DataFrame.stack https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.stack.html:

s = df['text'].str.split(expand=True).stack()
counts = s[lambda x: x.str.startswith('#')].value_counts()

Result:

print(counts)
#hello          3
#dog            1
#colours        1
#ello           1
#goodMorning    1
#goodbye        1
Name: text, dtype: int64

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

计算数据框中主题标签的频率的相关文章

PyTorch 如何计算二阶雅可比行列式？

我有一个正在计算向量的神经网络u 我想计算关于输入的一阶和二阶雅可比矩阵x 单个元素有人知道如何在 PyTorch 中做到这一点吗下面是我项目中的代码片段 import torch import torch nn as nn class
Python正则表达式查找所有单个字母字符

我想找到字符串中单个字母字符每次出现的所有索引我不想捕获单个字符 html 代码这是我的代码 import re s fish oil B stack peanut c b words re finditer S s has alpha
Pycharm 出现 Kivy 错误 [严重] [应用程序] 无法获取窗口，中止

我正在尝试让示例 Kivy 代码之一在我的机器上运行我使用的是 Pycharm 社区版 2017 1 安装了 anaconda python 2 7 和 Kivy 1 9 我已使用项目设置将 Kivy 模块和 Pygame 模块安装到项目
为什么tcl/tkinter只支持BMP字符？

我正在尝试在基于 tkinter 和 tcl 构建的 gui 中查询和显示 utf 8 编码字符但是我发现 tkinter 无法显示 4 字节字符即大于 U FFFF 的 unicode 代码点为什么会这样呢实现非 BMP 字符对
Flask / Werkzeug - 套接字卡在 CLOSE_WAIT 中

我遇到过一种情况 API 构建于Flask 宁静 https github com flask restful flask restful间歇性变得无反应目前它从 Werkzeug 运行我知道它仅用于非生产用途并且是单线程的让事情变
Python 的贝叶斯垃圾邮件过滤库

我正在寻找一个可以进行贝叶斯垃圾邮件过滤的 Python 库我查看了 SpamBayes 和 OpenBayes 但两者似乎都没有维护我可能是错的谁能推荐一个好的 Python 或 Clojure Common Lisp 甚至 Rub
为什么del是Python中的指令而不是方法？ [复制]

这个问题在这里已经有答案了为什么Python的创建者更喜欢这种语法指令 del list index 超过这个方法 list del index 在我看来这del属于同一类别 append remove find ETC 因此应该
“unicode”对象没有属性“_meta”

我正在尝试创建一个视图用户在其中从下拉菜单中选择一个选项提交它然后返回一些数据具体来说他们将从数据库中的模型中进行选择并返回该类的所有实例我使用 django tables2 输出数据以便可以排序但这是我的症结所在 Vie
使用 Python 访问 MP3 音乐数据

我正在尝试编写一个 Python 脚本用于使用歌曲的数据作为比较的基础来搜索重复的 mp3 4 文件我的情况涉及许多文件名相似但 ID3 标签不同的 mp3 4 文件起初我尝试循环并使用 md5 来查找重复文件忽略文件名当然当
如何获取 Flask 中当前的基本 URI？ [复制]

这个问题在这里已经有答案了在下面的代码中我想将 URL 存储在变量中以检查发生 URL 错误的错误 app route flights methods GET def get flight flight data mongo db fl
如何使绘图的 xtick 标签成为简单的绘图？

我不想用单词或数字作为 x 轴的刻度标签而是想绘制一个简单的绘图由直线和圆圈组成作为每个 x 刻度的标签这可能吗如果是这样在 matplotlib 中处理它的最佳方法是什么我会删除刻度标签并将文本替换为patches http
包含文件中的块未被扩展模板填充

我有一个如下所示的模板 include base top html with context include base nav html with context div Stuff block content endblock div i
将2个暗淡数组“列表列表”输出到python中的文本文件

简单的问题我正在创建一个两个暗淡的数组 ddist 0 d for in 0 d 在下面的代码中使用列表它使用 gis 数据输出距离我只是想要一种简单的方法来获取数组列表的结果并将其输出到保持相同的 N N 结构的文本文件我过去曾
为什么for循环只显示最后一个循环的结果

我有这个样本矩阵 X1 X2 X3 X4 1 F F F F 2 C C C C 3 D D D D 4 A A A A 我正在尝试使用 for 循环来获取每列中唯一音高的数量我正在尝试这样做 y lt read csv file fra
我可以在 psycopg2 中使用 md5 身份验证吗？

经过两个小时的阅读文档源代码和帮助线程后我放弃了我无法让 psycopg2 使用 md5 字符串进行身份验证根据this http bytes com topic python answers 42597 psycopg authe
dump() 缺少 1 个必需的位置参数：python json 中的“fp”

我正在尝试美化 json 格式但收到此错误 import requests as tt from bs4 import BeautifulSoup import json get url tt get https in pinterest
为文件中的每个单词创建字典并计算其后面的单词的频率

我正在尝试解决一个难题却迷失了方向这就是我应该做的 INPUT file OUTPUT dictionary Return a dictionary whose keys are all the words in the file br
需要FTP文件而不存储解释器文件通过Python保存在本地

我正在尝试做一些图像解释器并尝试将它们直接存储到 FTP 服务器但我的步骤是从本地文件夹上传图像然后将其转换为蒙版图像然后它将获得最终输出但是在我的蒙版和最终输出场景中临时图像被保存在本地这是我不想要的但如果不将图像存储在本地
Django MySQL 创建表时出错

我有一个类似的问题这张票 https code djangoproject com ticket 18256在 Django 论坛上提出我该如何解决这个问题我还扩展了一个用户模型如下所示 class Profile models Mo
Django ALLOWED_HOSTS 与 CORS(django-cors-headers)

ALLOWED HOSTS 和 CORS 之间有什么区别如果我定义了 ALLOWED HOSTS 我还需要定义 CORS 吗我没有使用 django 模板我也有可能动态定义这两个吗我认为没有我使用 django 作为后端并在不同

随机推荐

使用 Cocoa 和 Core Data 自动保存

我正在开发一个非基于文档的核心数据应用程序我希望更改发生时能够保存这是用户对此类应用程序的期望这也是苹果公司实施的iPhoto or iTunes 一种强力方法是设置一个计时器来频繁保存然后由保存触发的方法将吞掉所有验证错误以免
Emacs 使用 Git-Rebase 将缓冲区恢复到奇怪的先前状态

我在 OS X 上使用 Emacs 23 3 1 我从终端发出 git 命令而不使用任何 Emacs 的 VC 功能我将 Emacs 设置为在修改文件时刷新这是通过我的 emacs 文件中的这些行启用的 custom set vari
使用 javascript 处理文本区域上的 Enter 键

我在页面上有 5 个文本区域我希望在第一个文本区域上按 Enter 键时发生特定事件在其他文本区域上按 Enter 键时发生不同的事件您能否建议如何实现这一目标
替代

我正在尝试修复为我编写的旧脚本我需要它运行而无需我想从脚本内部运行该函数而无需像该命令那样的内联代码抱歉我不是 JS 专家但是我该怎么做呢或者如果您使用的是 jQuery function Your code here
BITS 多域传输文件

如何在不同域的服务器之间传输文件 i e PS C Users Desktop gt Import Module bitstransfer PS C Users Desktop gt c get credential PS C Users
在R中进行线性回归时，如何有条件地删除因子的NA观察？

我正在尝试在 R 中建立一个简单的线性回归模型模型中有三个因子变量模型是 lm Exercise Econ Job Position 其中锻炼是数字因变量即锻炼的时间量经济工作职位都是因子变量经济是指一个人是否有工作
需要 T SQL 合并示例来帮助理解

下列 MERGE dbo commissions history AS target USING SELECT amount requestID AS source amount request ON target request sour
如何对齐SpriteBatch.DrawString绘制的文本？

有没有一种简单的方法可以将文本向右和居中对齐而不是默认的左对齐我使用这段代码 Flags public enum Alignment Center 0 Left 1 Right 2 Top 4 Bottom 8 public void
C# double 未按预期工作[重复]

这个问题在这里已经有答案了我知道双精度数是小数在下面的程序中输出是 1 尽管我认为它会重复 1 05 static void Main string args double d 19 18 Console WriteLine d Co
从结构数组中选择 Spark DataFrames 中的特定列

我有一个 Spark 数据框df具有以下架构 root k integer nullable false v array nullable true element struct containsNull true a integer nu
使用 VS Code 远程 Docker 容器网络挂起 5 秒

我有 3 个服务共享同一网络的 webapp app 数据库 db 和 redis rd 随机地两个服务数据库和 Redis 的连接都会挂起大约 5 秒不仅当我运行连接到数据库的网络服务器时甚至当我浏览网页上的链接时也是如此有时
如何在 git 中列出版本控制的文件？

我想列出 git 存储库根目录中的版本控制文件要在集市中执行相同的操作您可以运行 bzr ls versioned non recursive 我如何在 git 中执行此操作如果您准确描述要显示的列表将会更有帮助从 bzr 文档猜
SQL Server 查询处理器耗尽内部资源

Query update mytable set mycol null where id in 583048 583049 50000 more Message 查询处理器耗尽了内部资源并且无法生成查询计划这是一个罕见的事件仅预计极
Kinesis lambda DynamoDB

我正在学习 AWS 服务的一个用例在浏览完文档后我想出了一个简单的流程我想使用 Streams API 和 KPL 将数据提取到 Kinesis 流中我使用示例 putRecord 方法将数据提取到流中我正在将此 JSON 摄取到
Windows Phone 8 cordova视口高度问题

我们用 cordova 开发了一个 Windows Phone 8 应用程序可以正常使用但是在 windows Phone 8 之后8 0 10328 78释放页脚即可清理我之前检查过代码我得到的视口高度为 768 现在为 800
自定义 Android 中的警报对话框

我想在警报对话框的浅色背景上显示深色文本但我不知道该怎么做请帮我 Thanks 您可以在 XML 视图中创建自己的布局就像创建活动一样
具有相同标签的列的平均值

我有两个向量 data vector A 1 2 2 1 2 6 2 3 2 3 3 5 label vector B 1 2 1 2 3 NaN 我想取具有相同标签的所有列的平均值并将它们输出为按标签号排序的矩阵忽略 NaN 所以在
从耶拿的文件中删除无效的 N-Quads

我有一个包含 N Quads 的文件使用 schema org 词汇表我想使用 Apache Jena 的命令行工具将其加载到 TDB RDF 存储中我正在使用的命令是 tdbloader loc
iOS 验证得到 Main_iPhone~iphone.storyboardc 未找到

我正在尝试分发我的 iOS 应用程序在 xCode 验证期间收到以下错误消息未找到故事板文件 Main iPhone iphone storyboardc 请确保指定的文件包含在捆绑包中并在文件名后附加任何所需的设备修饰符需要一些建
计算数据框中主题标签的频率

我正在尝试计算数据框文本列中主题标签词的频率 index text 1 ello ello ello ello hello ello 2 red green blue black colours 3 Season greetings h

计算数据框中主题标签的频率

计算数据框中主题标签的频率 的相关文章

随机推荐

热门标签

计算数据框中主题标签的频率的相关文章