计算数据帧列中字符串的最大连续出现次数

2024-01-21

我有一个 panda 数据框，我想在其中计算一列中特定字符串连续出现的次数。

假设我有以下数据框。

   col1
0  string1
1  string1
2  string1
3  string2
4  string3
5  string3
6  string1

我想定义a例如最大连续出现的次数string1或任何其他字符串col1.

在这种情况下，a应该返回3如果我想搜索string1并返回2 for string3.

如何才能实现呢？

可以执行对连续值进行分组的常见技巧：

df1 = df.groupby((df.col1 != df.col1.shift()).cumsum().rename(None)).col1.agg(['size', 'first'])
#   size    first
#1     3  string1
#2     1  string2
#3     2  string3
#4     1  string1

Then sort_values + drop_duplicates找到最大的：

df1 = df1.sort_values('size').drop_duplicates('first', keep='last').set_index('first').rename_axis(None)
#         size
#string2     1
#string3     2
#string1     3

现在您可以轻松查找它们：

df1.loc['string1']
#size    3
#Name: string1, dtype: int64

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

计算数据帧列中字符串的最大连续出现次数的相关文章

如何使用 QWebView 显示 html。 Python？

如何在控制台中显示 HTML 格式的网页 import sys from PyQt4 QtGui import QApplication from PyQt4 QtCore import QUrl from PyQt4 QtWebKit i
matplotlib：在次要标签下绘制主要刻度标签

这看起来应该很容易但我不知道该怎么做我有一个 X 轴上有时间的图我想设置两组刻度小刻度显示一天中的小时大刻度显示日月所以我这样做 set date ticks to something sensible xax ax get
每个刻度标签都有不同的颜色

我正在尝试使用 matplotlib python 3 5 创建一个散点图其中 x 轴上的每个刻度都有不同的颜色这怎么可能例如假设 x 刻度为 Mo Tu We Th Fr Sa Su 现在我希望 Mo 是绿色的 Tu 是蓝色的等
如果使用 unicode 字符，则从数据库中进行 SELECT 会出现问题

我在用着latest带DatabaseLibrary的python和机器人框架版本 https franz see github io Robotframework Database Library api 1 0 1 DatabaseLi
导入 scipy.stats 时，出现“ImportError: DLL load failed: 找不到指定的过程”

我无法导入 scipy stats 并收到以下错误但不知何故 import scipy as sp 仍然可以正常工作其他库如numpy pandas都可以毫无问题地导入我尝试在 Anaconda 中重新安装 scipy 1 2 1 降
Emacs：在缓冲区求值期间将参数传递给下级 Python shell

最近我开始使用 Emacs 作为 Python IDE 它不太直观我现在遇到的问题是当使用 C c C c 评估缓冲区时如何将命令行参数传递给下级 python shell 感谢帮助这似乎并不容易实现管理的劣质流程python el模
pybind11：如何将 c++ 和 python 代码打包到一个包中？

我正在尝试使用 CMake 和 pybind 11 将现有的 Python 代码和新的 C 11 代码打包在一起我认为我缺少一些可以添加到 CMake 脚本中的简单内容但在任何地方都找不到它 pybind11 示例只有 C 代码和没有P
在我的 Mac 上以 root 身份运行 pip 时出现“权限被拒绝”

我开始使用我的 Mac 来安装 Python 包就像我在工作中使用 Windows PC 一样然而在我的 Mac 上我经常遇到没有权限写入日志文件或站点包时出错于是我想到了跑步pip install
Django - 该进程无法访问该文件，因为该文件正在被另一个进程使用

我正在尝试在 Windows 10 上运行 Django 我是 Django 的新手我正在使用 Compressor Toolkit 我的问题是我可以运行 manage py 但本地主机说 base html 第 9 行出错该进程无法访
有效地写入 pandas 中的多个相邻列

使用 numpy ndarray 可以一次写入多个列而无需先进行复制只要它们相邻如果我想写入数组的前三列我会写 a 0 0 3 1 2 3 this is very fast a is a numpy ndarray 我希望在 pa
如何列出静态链接的 python 版本中可用的所有 openssl 密码？

在python 2 7 8到2 7 9升级中 ssl模块从使用更改为 DEFAULT CIPHERS DEFAULT aNULL eNULL LOW EXPORT SSLv2 to DEFAULT CIPHERS ECDH AESGCM D
Tkinter：通过多处理启动进程会创建不需要的新窗口

我计划围绕数值模拟编写一个小型 GUI 这就是我现在使用 Tkinter 的原因模拟应在单独的进程中从 GUI 启动为了玩一下我定义了一个函数 random process 来生成成对的 randn 数字这应该是一个真正的模拟过程
如何更改Python使用的SQLite版本？

我在 Debian 9 12 上安装了 Python 3 8 和 SQLite 3 16 2 并且需要升级到较新版本的 SQLite 我已经下载并编译了 SQLite 网站上提供的合并并将其放入 usr bin 所以当我这样做时 sqli
Pandas 使用什么规则来生成视图和副本？

我对 Pandas 在决定数据帧中的选择是原始数据帧的副本或原始数据帧的视图时使用的规则感到困惑例如如果我有 df pd DataFrame np random randn 8 8 columns list ABCDEFGH index
Django admin.py 未知命令：'collectstatic'

我已经从 django 1 2 7 升级到 django 1 5 1我正在使用 python 2 6 6当我尝试跑步时python manage py collectstatic i get 未知命令 collectstatic 从我的设置
出于安全目的，您是否有理由不执行自己的算法来打乱 ID？

我计划实现我自己的非常简单的哈希公式为具有多个用户的应用程序添加一层安全性我目前的计划如下用户创建一个帐户此时后端会生成一个 ID ID 通过公式运行假设 ID 57 8926 36 7 或同样随机的东西然后我将新的用户
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
Pandas：合并多个数据框并控制列名称？

我想将九个 Pandas 数据帧合并到一个数据帧中对两列进行联接控制列名称这可能吗我有九个数据集它们都有以下列 org name items spend 我想将它们加入到具有以下列的单个数据框中 org name items df
将非方邻接矩阵导入 Networkx python

我在下面有一些 pandas 数据框形式的数据其中列代表离散技能行代表离散工作仅当工作需要该技能时才存在 1 否则为 0 skill 1 skill 2 job 1 1 0 job 2 0 0 job 3 1 1 我想使用 netwo
matplotlib imshow() 和像素强度

我试图了解矩阵的值是如何输入到 matplotlib 的imshow 函数确定灰度模式下像素的强度考虑示例代码 import random import matplotlib pyplot as plt import matplotlib

随机推荐

iPhone应用程序启动时间指南[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案请指出 iPhone 应用程序启动时间指南我发现有大约 24 秒的硬性限制如果应用程序当时未启动
读取EDI格式文件

我是 EDI 新手我有一个问题我读到通过查看 ISA 行的最后 3 个字符您可以获得有关 EDI 格式的大部分信息如果每个 EDI 都使用换行符来分隔实体那么这很好但我发现许多都是单行文件其中使用任意数量的字符作为换行符我
使用 pandas apply 时的异常处理

我可以使用 series str extract 从 pandas 系列中提取子字符串 ds pd Series 1A apple 1B pear 3C orange grape ds str extract d 1 expand Fals
Broom.mixed exp 模型预测

我想请求一些帮助来绘制我的模型的预测值以及 lmer 估计生成的方程所以我得到的数据是不同老鼠在不同日期的质量体积每只老鼠都有不同的时间点来测量该体积那么我使用的模型是 m1 lt lmer lVolume Country Day
AWS Lambda - NAT 网关互联网访问导致超时

我有一个 AWS Lambda 函数检查 Redis Elasticache 实例如果在缓存中未找到该项目则转至 Google Places API 服务 Redis 实例位于私有子网因此为了获取它我添加了 VPC 和实例所在的
Android：ping：icmp 打开套接字：不允许操作

是否可以在没有 root 访问权限的情况下在 Android 4 3 上执行 ping 有些人建议 sudo chmod u s system bin ping http ben goodacre name tech Ping icmp o
@media Chrome 下打印文字阴影

当我添加 css 规则时文字阴影对于未显示在其中的文本媒体打印另存为PDF 并且它不适用于特殊情况Chrome 它在 IE11 下工作得很好但在 Chrome 下不行这让我非常非常失望这是简单的文本阴影示例 item tex
仅在添加预先存在的数据后才始终删除闪亮的 CRUD 应用程序中的第一行

我被困住了需要帮助我正在按照这个要点工作https gist github com gluc d39cea3d11f03542970b https gist github com gluc d39cea3d11f03542970b 基本
如何在 C++ 中创建类对象的向量？

我正在尝试使用 C 中的向量创建一个简单的堆栈这是代码 include
在powershell中将Arraylist转换为字符串

我正在尝试从变量中 grep 一些数据 Select String inputObject patternstring Pattern regex AllMatches Matches Value OutVariable outputVal
故事板和 Segue - 传递数据我做得好吗？

我正在使用情节提要和转场我想从联系人列表 tableView 切换到个人资料视图 ScrollView 三个问题这是最好的方法更干净和漂亮吗为什么当我这样做时 ProfileViewController aProfileVi
从 if else 转换为 switch 语句

我有以下 if else if else 构造我只是好奇如何将此类构造转换为 switch 语句 var emailSubject email subject toLowerCase if emailSubject indexOf acc
用箭头标记直方图箱

我有一个直方图可以用下面的 MWE 复制 import pandas as pd import matplotlib pyplot as plt import seaborn as sns import numpy as np pd Se
npm 添加根 CA

我正在寻找一种将自定义 CA 添加到 NPM 的方法这样我就可以使用所述证书内部 git 服务器从某个位置下载而不必使用以下命令取消所有 CA 检查 npm config set strict ssl false 有什么方法可以实现
使用 hive 出现异常 java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning

配置hadoop后我可以运行 hdfs 然后安装 hive 并编辑conf文件使其默认在tez上运行但直接使用 hive 时遇到一些特殊问题 hive Exception in thread main java lang NoClass
由于参数失败，调用与互斥体配对。无法将互斥锁插入 unordered_map

下面是一个错误 std mutex mtx auto t std make pair std string hello mtx 但下面的不是吗 std mutex mtx auto t std make pair std string he
Oracle Sql 中的列行转置

您好我有一个简单的查询给出了这个结果我想修改如下 Name 列成为列标题 studentID 列成为第一行 WITH t AS SELECT 1001 studentid john NAME FROM dual UNION ALL SE
将十六进制字符串（char[]）转换为int？

我有一个 char 其中包含诸如 0x1800785 之类的值但我想要为其提供该值的函数需要一个 int 如何将其转换为 int 我四处搜寻但找不到答案谢谢你有没有尝试过strtol strtol 将字符串转换为长整数 http pu
C语言中删除句子中所有出现的单词的函数

我有这段代码它将删除句子中第一次出现的单词 include stdio h include string h int delete char source char word void main void char sentence 50
计算数据帧列中字符串的最大连续出现次数

我有一个 panda 数据框我想在其中计算一列中特定字符串连续出现的次数假设我有以下数据框 col1 0 string1 1 string1 2 string1 3 string2 4 string3 5 string3 6 strin

计算数据帧列中字符串的最大连续出现次数

计算数据帧列中字符串的最大连续出现次数 的相关文章

随机推荐

热门标签

计算数据帧列中字符串的最大连续出现次数的相关文章