如何根据 pandas 中另一行的值组合一行中的值

2023-11-30

我有一个带有几列的 pandas 数据框（单词、开始时间、停止时间、扬声器）。我想合并“word”列中的所有值，而“speaker”列中的值不变。此外，我想保留组合中第一个单词的“开始”值和最后一个单词的“停止”值。

我目前有：

      word        start  stop      speaker
0      but   2.72  2.85        2
1   that's   2.85  3.09        2
2  alright   3.09  3.47        2
3    we'll   8.43  8.69        1
4     have   8.69  8.97        1
5       to   8.97  9.07        1
6     okay   9.19 10.01        2
7     sure  10.02 11.01        2
8    what?  11.02 12.00        1

但是，我想把它变成：

       word        start start speaker
0  but that's alright  2.72  3.47  2
1       we'll have to  8.43  9.07  1
2           okay sure  9.19 11.01  2
3               what? 11.02 12.00  1

我们将使用GroupBy.agg使用 aggfuncs 字典：

(df.groupby('speaker', as_index=False, sort=False)
   .agg({'word': ' '.join, 'start': 'min', 'stop': 'max',}))

   speaker                word  start  stop
0        2  but that's alright   2.72  3.47
1        1       we'll have to   8.43  9.07

要按连续出现的情况进行分组，请使用移位 cumsum 技巧，然后将其与“speaker”一起用作第二个分组：

gp1 = df['speaker'].ne(df['speaker'].shift()).cumsum()

(df.groupby(['speaker', gp1], as_index=False, sort=False)
   .agg({'word': ' '.join, 'start': 'min', 'stop': 'max',}))

   speaker                word  start   stop
0        2  but that's alright   2.72   3.47
1        1       we'll have to   8.43   9.07
2        2           okay sure   9.19  11.01
3        1               what?  11.02  12.00

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

如何根据 pandas 中另一行的值组合一行中的值的相关文章

Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M

随机推荐

查找用户是否正在通话？

我想查看用户是否正在使用该应用程序以及他们是否正在打电话我正在点击此链接来检查用户是否正在通话 iOS 如何检查当前是否正在通话然而这看起来像是针对 Objective C 的我想知道是否有一个 Swift 等价的东西这是我的尝试
ng-click 不适用于 ng-bind-html

我有这样的 html 模板 scope template span class pointer i class icon refresh pointer i span 我想使用绑定这个模板ng bind html 我尝试使用它也使用过ng
Django JQuery 自动完成

我正在尝试向我的表单添加自动完成字段但我无法去上班我几乎尝试了所有教程请求发送正常我收到 200 响应在开发人员工具窗格中当我单击请求时在响应选项卡上我会看到整个 HTML 文件不应该有一个 json 格式的东西吗这是
System.out.println 错误新程序员

我正在尝试执行一个简单的输入程序但出现错误System out println命令我不知道为什么它不接受该命令并且在我修复它之前无法继续工作错误说 Multiple markers at this line Syntax error
Populate() 引用嵌套在对象数组中

我正在尝试使用 Show 模型中的数据填充我的 User 模型中的所有订阅我尝试过 populate subscriptions show 但它对结果没有任何作用如果我将订阅设为一个简单的参考数组如下所示 subscriptions
htaccess 只接受来自特定 http_referer 的流量

我正在尝试设置一个 htaccess 文件来完成以下任务仅当查看用户来自特定域时才允许查看我的网站链接那么举例来说我有一个名为保护 mydomain com 我只希望来自 unprotected mydomain com 上的链
使用 mbox Python 模块解码并访问 mbox 文件

我需要将电子邮件数据库迁移到 CRM 但有两个问题我可以访问 mbox 文件但内容未正确解码我想创建一个类似数据框的结构其中包含以下列日期发件人收件人主题正文我已经尝试过以下方法 for i message in enu
Java 中整数到字节的转换

在Java中我们可以做 byte b 5 但是为什么我们不能将相同的参数传递给接受的函数byte myObject testByte 5 public void testByte byte b System out println Its
RESTEasy - 动态添加资源类

通过 RESTEasy 我实现了 Application 的子类来提供单例资源列表有没有办法稍后动态添加另一个单例我还没有从 API 文档中找到实现这一点的方法我自己没有尝试过但我找到了一篇博客文章其中描述了这一点 http sa
在 fltk 窗口内绘制 gnuplot 图形

我正在编写一个程序它使用用 fltk 打开的窗口绘制 3D 对象虽然我真的想在同一个窗口除了 3D 对象中添加一些 gnuplot 的图形因为它们比 OpenGl 的图形更漂亮那可能吗我正在致力于模拟对象的运动并用 OpenG
通过进程名称取消隐藏进程？

前段时间我写了一段代码来隐藏恢复进程窗口我所做的是这样的隐藏进程 1 在正在运行的进程中查找进程名 2 将 MainWindowHandle 添加到容器在本例中为字典这对于稍后取消隐藏该进程是必要的 3 使用ShowWindow
如何获取视频的最后一帧？

我想要视频的最后一帧我的代码如下所示 let asset AVURLAsset AVURLAsset URL videoURL options nil let generate AVAssetImageGenerator AVAssetI
如果文件已经打开，fopen 是否返回 NULL 指针？

我当时假设fopen回报NULL指针如果文件已打开但看起来fopen不返回NULL如果文件已在以下位置打开 w 模式下面是我用来尝试此操作的代码但没有收到任何错误我尝试使用 mingw32 以及 TDM GCC 64 编译器如果
MVC2：是否有用于原始 Html 的 Html Helper？

是否有一个 Html 助手可以简单地接受并返回原始 html 而不是做这样丑陋的事情 h2 Results h2 我想做这样的事情虽然不是很干净但我认为这是一个进步存在这样的东西吗或者是否有比使用 Html 助手更好的替代方法来从这
Mysql问题：没有mysql.sock

昨天我正在使用安装在我的计算机上的 MySQL 进行工作我下载了xampp 所以我改变了my cnf文件到套接字的路径 opt lampp var mysql mysql sock 该文件就在那里今天我想继续处理它我发现该文件不再存在
选择所有行及其在单个查询中的计数

我有一些名为 items 的表想要从中获取一些行并在单个查询中计数全部现在我正在尝试这样的操作 SELECT COUNT as count SELECT FROM items WHERE as items FROM items 但我得
NSDictionary 对象中的非字符串键？

我已经使用 Foundation 框架中的 NSJSONSerialization 解析了一些 JSON 数据但是我得到了 NSDictionary 组的奇怪密钥如下所示 stop times departure time 5 48a
为什么 SymGetSymFromAddr64 不工作？它返回错误代码 126

我正在尝试使用以下代码捕获异常的堆栈跟踪 include stdafx h include
nls——收敛误差

对于这个数据集 dat structure list x c 5L 5L 5L 5L 10L 10L 10L 10L 15L 15L 15L 15L 17L 17L 17L 17L 20L 20L 20L 20L 20L 20L 20L 2
如何根据 pandas 中另一行的值组合一行中的值

我有一个带有几列的 pandas 数据框单词开始时间停止时间扬声器我想合并 word 列中的所有值而 speaker 列中的值不变此外我想保留组合中第一个单词的开始值和最后一个单词的停止值我目前有 word sta

如何根据 pandas 中另一行的值组合一行中的值

如何根据 pandas 中另一行的值组合一行中的值 的相关文章

随机推荐

热门标签

如何根据 pandas 中另一行的值组合一行中的值的相关文章