将连续行与相同的列值合并

2024-05-28

我有一个看起来像这样的东西。我该如何处理：

    0             d
0   The         DT
1   Skoll       ORGANIZATION
2   Foundation  ORGANIZATION
3   ,           ,
4   based       VBN
5   in          IN
6   Silicon     LOCATION
7   Valley      LOCATION

to this:

    0                       d
0   The                     DT
1   Skoll Foundation        ORGANIZATION
3   ,                       ,
4   based                   VBN
5   in                      IN
6   Silicon Valley          LOCATION

@rfan 的答案当然有效，作为替代方案，这是一种使用 pandas 的方法groupby http://pandas.pydata.org/pandas-docs/stable/groupby.html.

The .groupby()按“b”列对数据进行分组 -sort=False是保持订单完整所必需的。这.apply()对每组 b 数据应用一个函数，在本例中将字符串连接在一起，并用空格分隔。

In [67]: df.groupby('b', sort=False)['a'].apply(' '.join)
Out[67]: 

b
DT                       The
Org         Skoll Foundation
,                          ,
VBN                    based
IN                        in
Location      Silicon Valley
Name: a, dtype: object

EDIT:

为了处理更一般的情况（重复的非连续值） - 一种方法是首先添加一个哨兵列，用于跟踪每行适用于哪一组连续数据，如下所示：

df['key'] = (df['b'] != df['b'].shift(1)).astype(int).cumsum()

然后将键添加到 groupby 中，即使使用重复的值，它也应该可以工作。例如，使用具有重复的虚拟数据：

df = DataFrame({'a': ['The', 'Skoll', 'Foundation', ',', 
                      'based', 'in', 'Silicon', 'Valley', 'A', 'Foundation'], 
                'b': ['DT', 'Org', 'Org', ',', 'VBN', 'IN', 
                      'Location', 'Location', 'Org', 'Org']})

应用分组依据：

In [897]: df.groupby(['key', 'b'])['a'].apply(' '.join)
Out[897]: 
key  b       
1    DT                       The
2    Org         Skoll Foundation
3    ,                          ,
4    VBN                    based
5    IN                        in
6    Location      Silicon Valley
7    Org             A Foundation
Name: a, dtype: object

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

将连续行与相同的列值合并的相关文章

Django 自引用关系？

我正在尝试创建模型页面页面也应该能够有子页面我的模型代码如下使Python崩溃 http pastie org private butthk1aaeb3pmh7mmag1g在我的Mac python 2 6 1 和Ubuntu 10
将鼠标悬停在 Folium 的弹出窗口中

用这样一个简单的例子 import folium map 1 folium Map location 45 372 121 6972 zoom start 12 tiles Stamen Terrain folium Marker 45 3
为什么这个“[::-1]”在Python中返回一个反向列表？ [复制]

这个问题在这里已经有答案了可能的重复 Python 切片表示法的良好入门指南 https stackoverflow com questions 509211 good primer for python slice notation P
SQLAlchemy如何为同一个表定义两个模型

我有一个表其中一列是具有两个值的 varchar groupA groupB 当我创建模型时我想实现两件事 A 组模型包含 X 数量的相关函数 B 组模型包含 Y 数量的相关函数两个模型的功能并不相同尽管它们代表了same ta
如何针对 Heroku 路由器的代理/缓冲情况优化 uWSGI？

我在 Heroku 的生产中使用 uWSGI 已有一年多了它似乎比 Gunicorn 处理所有事情都要好得多随着我们的流量扩大我试图更好地理解heroku的路由器和uWSGI之间的接口以优化和防止问题但它对我来说仍然相当不透明我
如何在不使用pygame的情况下检测按键事件和按键按住事件

我目前正在寻找一个能够检测监视键盘的库我的目的是检测何时按下某个键以及当它发生时应该发生一些事情大多数 SO 帖子建议使用 pygame 但我发现它有点太多了涉及一个像这样的库来完成这个简单的任务我也尝试过pynput 这导致只
从 FTP 服务器上的 ZIP 存档读取文件，无需下载到本地系统

我在 FTP 服务器上的目标文件是 ZIP 文件 CSV 位于更远的两个文件夹中我如何才能使用 BytesIO 让 pandas 读取 csv 而无需下载它这是我到目前为止所拥有的 ftp FTP FTP SERVER ftp logi
Pygame - 两个圆圈的碰撞检测

我正在制作一个碰撞检测程序其中我的光标是一个半径为 20 的圆当它碰到另一个圆时应该将值更改为 TRUE 出于测试目的我在屏幕中心有一个半径为 50 的固定圆我可以测试光标圆是否击中固定圆但它不能正常工作因为它实际上是在测试它是
Python条件运算符“if else”不等于“and or”[重复]

这个问题在这里已经有答案了我认为下面两个函数的结果会相同但事实并非如此 def fib2 n return n and n lt 2 or fib2 n 1 fib2 n 2 def fib3 m return m if m lt 2
如何在Python中按天对时间序列数据求和？ resample.sum() 没有效果

我是Python新手如何根据日期求和数据并绘制结果我有一个 Series 对象其数据如下 2017 11 03 07 30 00 NaN 2017 11 03 09 18 00 NaN 2017 11 03 10 00 00 NaN
如何在Python中生成0-1矩阵的所有可能组合？

如何生成大小为 K N 的 0 1 矩阵的所有可能组合例如如果我取 K 2 和 N 2 我会得到以下组合 combination 1 0 0 0 0 combination 2 1 0 0 0 combination 3 0 1 0 0
当使用 cx_Freeze 和 tkinter 时，我得到：“DLL 加载失败：找不到指定的模块。” （Python 3.5.3）

当使用 cx Freeze 和 Tkinter 时我收到以下消息 File C Users VergilTheHuragok AppData Local Programs Python Python35 32 lib tkinter in
PySpark：根据与另一列中的字符串匹配的字典值创建新列

我有一个数据框 A 如下所示 ID SOME CODE TITLE 1 024df3 Large garden in New York New York 2 0ffw34 Small house in dark Detroit Michig
Python 中 Javascript 的 reduce()、map() 和 filter() 的等价物是什么？

Python 的等价物是什么 Javascript function wordParts currentPart lastPart return currentPart lastPart word Che mis try console l
Numpy 相当于 if/else 不带循环

有没有任何Pythonic方法可以删除下面代码中的for循环和if else 此代码迭代 NumPy 数组并检查条件并根据条件更改值 gt gt gt import numpy as np gt gt gt x np random rand
MySQL：进行基本搜索

我的数据库中有一个名称表我希望对其进行模糊搜索例如我的数据库包含 Name ID John Smith 1 Edward Smith 2 Gabriel Gray 3 Paul Roberts 4 目前当我通过 python 搜索数据
Android Systrace 没有这样的文件或目录

这是错误消息 D Programming Tools ADT bundle sdk platform tools systrace gt python systrace py Traceback most recent call last
检查Python multiprocessing.Connection 的实例吗？

Connection对象是在打开时创建的multiprocessing Pipe 然而尚不清楚如何检查一个对象是否是一个实例Connection 在Python3 3 4 3 3 3 2 中检测Connection我可以 from mu
python chaco轴标签时间格式

在 Enthought 的 Chaco 中 TimeFormatter类用于格式化刻度的时间字符串标签有没有办法指定时间格式类似于time strftime 源代码现在将显示月份和日期时的格式硬编码为美国风格 MMDD 我想添加一些灵
命名空间与常规包

命名空间 Python 包之间有什么区别没有 init py 和一个常规的Python包有一个 init py 特别是当 init py普通包裹是空的吗我很好奇因为最近我忘记了 init py在我制作的包中我从未注意到任何问题事

随机推荐

Rails：将参数从视图传递到控制器

我在 Rails 中有以下模型 class Task lt ActiveRecord Base attr accessible description name project belongs to project validates na
htaccess 将所有子域重定向到同一目录

我希望能够将所有子域重定向到一个文件夹 RewriteCond HTTP HOST example com RewriteRule http example com subdomains 1 L P 例如如果某些访问sub1 exampl
Oracle中如何选择前100行？

我的要求是获取每个客户的最新订单然后获取前100条记录我编写了一个如下查询来获取每个客户的最新订单内部查询工作正常但我不知道如何根据结果获得前 100 名 SELECT FROM SELECT id client id ROW NU
在 Windows 上使用 C/C++ 开发时省略 msvcr100.dll？

是否可以在 Windows 上使用 C C 进行开发而不链接到 msvcr100 dll 我知道这是 Windows 的标准 c 库但我想知道如果我没有安装 Visual Studio 或 Redistributable 软件包我的计算
使用缓存时计算“页面浏览量”或“点击量”

我有一个叫做show board 在其中除其他外我增加了一个字段Board views每次运行时加 1 以计算页面浏览量问题是当我在该视图上使用 cache page 装饰器时 Board views仅在每次生成新的缓存视图时才会增加
导出socket.io时无法读取未定义的属性“socket”

我正在尝试模块化我的应用程序并希望在不同的 js 文件上向客户端发出不同的事件下面的示例代码显示将从 led js 触发事件 onlinestatus 然而我不断收到消息类型错误无法读取未定义的属性套接字每当我尝试从 led j
如果项目包含多个文件夹，如何使用 Add-Migration

我想Add Migration使用我的 DbContext 但出现错误 The term add migration is not recognized as the name of a cmdlet function script fil
如何使用 C# 将表格粘贴到 Ms-Word 文档的末尾

我有一个预制的 Word 模板其中有一个表格我想打开它然后在文档末尾添加粘贴另一个表格问题是它不会转到文档的末尾而是将新表格粘贴到原始表格的第一个单元格中任何帮助将不胜感激 previous code copied a ta
List 或其他类型上的 string.Join

我想将整数数组或列表转换为逗号分隔的字符串如下所示 string myFunction List
如何在不使用 -cp 开关的情况下在 Groovy 中自动加载数据库 jar？

我想简化调用 Oracle 数据库的 Groovy 脚本的执行如何将 ojdbc jar 添加到默认类路径以便我可以运行 groovy RunScript groovy 代替 groovy cp ojdbc5 jar RunScript
布尔 pandas 之间的操作对称性破缺。具有不等索引的系列

隐式索引匹配pandas用于不同之间的操作DataFrame Series很棒而且大多数时候它都有效但是我偶然发现了一个无法按预期工作的示例 import pandas as pd 0 21 0 import numpy as np
如何使弹出窗口溢出：在溢出内可见：自动上下文

我有一个 div 列表如果超过父框 overflow x 应该滚动并且在悬停时我想看到一个弹出窗口我的问题是如果我将鼠标悬停在任何子 div 上弹出窗口将被考虑用于溢出计算但我只想让它在所有内容之上可见而不是使其扩展滚动区域
自定义信息窗口上的按钮未接收 ios 中的操作

我在 iOS 应用程序中使用 Google 地图并实现了一个自定义信息窗口来显示标记的标题现在我在该自定义信息窗口上添加了一个按钮但我的问题是按钮操作方法没有被调用自定义信息窗口 h import
SSIS Master 包执行来自另一个项目的包

我有多个SSIS项目但其中的一些包是相同的我想创建一个包含所有内容的项目generic包并将其他项目与他们的特定包一起保存所以我的问题是是否有可能有一个主包可以执行并将父变量传递给另一个项目的包我是 SSIS 新手如果这是一个明
电子节点集成不起作用，也普遍奇怪的电子行为[重复]

这个问题在这里已经有答案了我是 Electron 的新手我一直在努力让它工作我遇到了无法解释的行为所以这里有一个总结我无法让 Electron 和 html 之间的通信正常工作即使我有nodeIntegration true 网
在 cl-mongo 中实现 MongoDB SASL 身份验证

我已经从 fons 分叉了 cl mongo common lisp MongoDB 库存储库因为它已经不再维护并且不支持 SCRAM SHA 1 登录过程这是我的叉子 https github com mprelude cl mon
合并具有公共字段的列表的最快方法？

我正在学习 F 并且正在做赔率比较服务 ala www bestbetting com 以将理论付诸实践到目前为止我有以下数据结构 type price Bookie string Odds float32 type selection
如何缩放曼德尔布罗集

我已经成功实现了维基百科文章中所述的曼德尔布罗集但我不知道如何放大特定部分这是我正在使用的代码 void createSetWithWidth int width Height int height Thing void int int
为什么/何时应该使用泛型方法？

学习Java的时候遇到过通用方法 public
将连续行与相同的列值合并

我有一个看起来像这样的东西我该如何处理 0 d 0 The DT 1 Skoll ORGANIZATION 2 Foundation ORGANIZATION 3 4 based VBN 5 in IN 6 Silicon LOCATIO

将连续行与相同的列值合并

将连续行与相同的列值合并 的相关文章

随机推荐

热门标签

将连续行与相同的列值合并的相关文章