如何在Python中将具有相似文本的数据框分组

2024-01-06

我有一个像这样的数据框 DF：

DF = pd.DataFrame({'Code':['abc', 'abc', 'abc', 'abc', 'def'],  
               'Description':['ABC String', 'ABC String', 'ABC String and sth', 'Only sth else', 'ABC String'],     
               'Value':[10, 20, 30, 40, 100]})

我需要按代码和描述对其进行分组。按代码分组很简单：

GR = DF.groupby('Code')

现在我想继续按描述分组，因此所有相同或相似（具有共同部分）的值都分组在一起。你能帮我用一个公式来得到这样的东西：

可能存在两个问题：“相同的值”和“相似的值”。如果至少有关于“同等价值”的任何暗示，那就太好了。

你也可以使用fuzzywuzzy计算 Levenshtein 距离，即使有两个以上的“相似”值

例如

import numpy as np
import pandas as pd
from fuzzywuzzy import fuzz

DF = pd.DataFrame({'Code':['abc', 'abc', 'abc', 'abc', 'def', 'def', 'def', 'abc'],  
               'Description':['ABC String', 'ABC String', 
                              'ABC String and sth', 'Only sth else', 
                              'ABC String', 'CDEFGH', 'CDEFGH and sth', 
                              'CDEFGH and sth',],
               'Value':[10, 20, 30, 40, 50, 60, 70, 80]}) 

# for each unique value in Description
for d in DF.Description.unique():
    # compute Levensthein distance
    # and set to True if >= a limit
    # (you may have to play around with it)
    DF[d] = DF['Description'].apply(
        lambda x : fuzz.ratio(x, d) >= 60
    )
    # set a name for the group
    # here, simply the shortest
    m = np.min(DF[DF[d]==True].Description)
    # assign the group
    DF.loc[DF.Description==d, 'group'] = m

print(DF)

  Code         Description  Value  ABC String          group  \
0  abc          ABC String     10        True     ABC String   
1  abc          ABC String     20        True     ABC String   
2  abc  ABC String and sth     30        True     ABC String   
3  abc       Only sth else     40       False  Only sth else   
4  def          ABC String     50        True     ABC String   
5  def              CDEFGH     60       False         CDEFGH   
6  def      CDEFGH and sth     70       False         CDEFGH   
7  abc      CDEFGH and sth     80       False         CDEFGH   

   ABC String and sth  Only sth else  CDEFGH  CDEFGH and sth  
0                True          False   False           False  
1                True          False   False           False  
2                True          False   False           False  
3               False           True   False           False  
4                True          False   False           False  
5               False          False    True            True  
6               False          False    True            True  
7               False          False    True            True

现在你可以groupby创建的组

DF.groupby('group').Value.mean()

group
ABC String       27.5
CDEFGH           70.0
Only sth else    40.0
Name: Value, dtype: float64

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

pandasgroupby

如何在Python中将具有相似文本的数据框分组的相关文章

Python 中的哈希映射

我想用Python实现HashMap 我想请求用户输入根据他的输入我从 HashMap 中检索一些信息如果用户输入HashMap的某个键我想检索相应的值如何在 Python 中实现此功能 HashMap
如何使用 opencv.omnidir 模块对鱼眼图像进行去扭曲

我正在尝试使用全向模块 http docs opencv org trunk db dd2 namespacecv 1 1omnidir html用于对鱼眼图像进行扭曲处理Python 我正在尝试适应这一点C 教程 http docs op
使用 Python 从文本中删除非英语单词

我正在 python 上进行数据清理练习我正在清理的文本包含我想删除的意大利语单词我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作例如给出一些文本 Io andiamo to the beach w
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
使用字典映射数据帧索引

为什么不df index map dict 工作就像df column name map dict 这是尝试使用index map的一个小例子 import pandas as pd df pd DataFrame one A 10 B 2
YOLOv8获取预测边界框

我想将 OpenCV 与 YOLOv8 集成ultralytics 所以我想从模型预测中获取边界框坐标我该怎么做呢 from ultralytics import YOLO import cv2 model YOLO yolov8n pt
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
Python，将函数的输出重定向到文件中

我正在尝试将函数的输出存储到Python中的文件中我想做的是这样的 def test print This is a Test file open Log a file write test file close 但是当我这样做时我收到
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
如何使用 Mysql Python 连接器检索二进制数据？

如果我在 MySQL 中创建一个包含二进制数据的简单表 CREATE TABLE foo bar binary 4 INSERT INTO foo bar VALUES UNHEX de12 然后尝试使用 MySQL Connector P
如何使用 pybrain 黑盒优化训练神经网络来处理监督数据集？

我玩了一下 pybrain 了解如何生成具有自定义架构的神经网络并使用反向传播算法将它们训练为监督数据集然而我对优化算法以及任务学习代理和环境的概念感到困惑例如我将如何实现一个神经网络例如 1 以使用 pybrain 遗传算法
pip 列出活动 virtualenv 中的全局包

将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装系统软件包的列表而不是我的 virtualenv 中安装的软件包的列表我尝试再次降级到 1 4 但这并不能解决我的问题这有点类似于这个问题 http
在本地网络上运行 Bokeh 服务器

我有一个简单的 Bokeh 应用程序名为app py如下 contents of app py from bokeh client import push session from bokeh embed import server do
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我
Django-tables2 列总计

我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页
如何应用一个函数 n 次？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案假设我有一个函数它接受一个参数并返回相同类型的结果 def increment x return x 1 如何制作高阶函数repeat可以
如何计算Python中字典中最常见的前10个值

我对 python 和一般编程都很陌生所以请友善我正在尝试分析包含音乐信息的 csv 文件并返回最常听的前 n 个乐队从下面的代码中每听一首歌曲都是一个列表中的字典条目格式如下 album Exile on Main Street
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo

随机推荐

CQ 工作流程，“Handler Advance”的目的？

我正在 Adob e CQ 5 4 中使用一些自定义 WorkflowProcess 类当我将工作流程步骤配置为工作流程模型的一部分时有一个标题为处理程序前进检查您的处理程序是否将前进到下一步的复选框我的 Java 类实际上确实
Node.js + MySQL - 处理事务

我正在使用express和node mysql驱动程序在node js上构建一个应用程序当我需要进行一系列数据库插入更新时我的应用程序中有几种情况我希望它们在一个事务中这样如果第二个或第三个失败以前的插入将完全回滚目前我这样
如何旋转形状 (n,) 或 (n,1) 的 numpy 数组中的数字？

假设我有一个 numpy 数组 gt gt gt a array 0 1 2 3 4 我想旋转它以获得 gt gt gt b array 4 0 1 2 3 什么是最好的方法我一直在转换为双端队列并返回见下文但是有更好的方法吗 b
使用 Angular ui-router 设置 URL 查询参数而不更改状态

我应该如何使用 AngularJS 的 ui router 通过更改查询参数来更新地址栏 URL 以在刷新页面时保持状态目前我正在使用 state transitionTo search q updated search term 每当
MySQL单字段斜率（趋势）（最佳拟合线）

我有一个名为 LOGENTRY 的简单表其中包含名为 DATE 和 COST 的字段例子 DATE COST MAY 1 2013 0 8 SEP 1 2013 0 4 NOV 1 2013 0 6 DEC 1 2013 0 2 我想找
HTTP/2 请求和以冒号开头的标头

你好亲爱的 SO 社区我有一个问题折磨了我好几个月却没有解决办法我正在尝试在 HTTP 2 端点上发出请求该端点使用一些以冒号开头的标头例子 method POST 我尝试过 python hyper requests php g
如何在 AngularJS 网页中滚动后修复元素

我最近用 AngularJs 做了一个网站我还处于学习阶段我希望在页面上的某个元素到达顶部后对其进行修复我尝试过各种 Javascript 和 Jquery 函数然而他们似乎并没有工作我也尝试使用 Angular UI 的 ui
如何在 Linux 上的 Bash 中一次删除多个文件？

我在 Linux 服务器上有以下文件列表 abc log 2012 03 14 abc log 2012 03 27 abc log 2012 03 28 abc log 2012 03 29 abc log 2012 03 30 abc
onsubmit 方法与提交事件监听器

我一直在为一门课程做一个邮件程序我遇到了与通过 return false 阻止表单提交有关的行为我不明白情况 1 未正确阻止表单提交重新加载 DOM 并出现 200 错误 document querySelector compose
IDEA 中的 Spring 支持与 Lombok：是否支持“导航到自动装配依赖项”？

Lombok 支持生成构造函数 Inject注释 RequiredArgsConstructor onConstructor Inject 所以而不是 Service public class FooService private fin
Node.js 支持“let”语句吗？

Node js 是否支持 let 语句例如MDN 上有描述吗 https developer mozilla org en JavaScript Reference Statements let var x 8 y 12 let x 5
opencv 使用 waitKey() 函数处理箭头键

我想处理箭头键但是当我打印出 waitKey 函数的输入值时它是 0 我不知道为什么我尝试从 int 更改为 char 但它不起作用我怎么解决这个问题 int pos 100 imshow image image onChange
页面加载时的 jQuery .fadeIn() ？

我正在尝试设置一些代码以便我有一个首先隐藏但在页面加载后淡入的代码我有以下 HTML 代码 div class hidden p This is some text p div 然后我还有这个 CSS 代码它隐藏了 div div h
如何从war文件中获取java源代码？

我没有最新的源代码但在服务器上部署了 war 最新文件请建议最好的方法1 从war ear获取源代码2 将可用源代码与 war ear 中存在但可用源代码中缺失的代码进行比较并合并更新我正在使用 ECLIPSE IDE 提前致谢
如何在 Mac 上与图层支持的视图交互

我正在设计一个包含多个标签和文本字段的用户界面我想像这样设计用户界面为我的内容视图设置背景图案NSWindow 在左上角背景添加自定义图标我通过将内容视图设置为层支持视图如中所述Apple 的文档NSView http develop
使用 Scipy 进行图像腐蚀和膨胀

我正在尝试使用 scipy 来做erosion http docs scipy org doc scipy reference generated scipy ndimage morphology binary erosion html a
弥补 Java 中基于多态参数的运行时方法查找不足的模式？

看来Java无法根据参数的运行时类型选择最合适的方法实现如文档所示here http www rizzoweb com java polymorphismAndOverloading html 回顾一下这个例子 class Supercl
在安装 conda 包期间更新 @INC 变量

我正在尝试安装 Perl 模块的 conda 包到目前为止我可以使用创建包conda build 为此我有一个食谱其中包含build sh and a meta yaml files 然后我使用安装它conda install在新环
Angular 2 azure 部署刷新错误：您正在查找的资源已被删除、名称已更改或暂时不可用

我有一个 Angular 2 rc 2 应用程序实现了基本路由路径是 path1这是默认路径并且 path2 回家之路重定向到 path1 当我在本地 lite server 运行它时一切正常我设法将此应用程序部署到 Azure
如何在Python中将具有相似文本的数据框分组

我有一个像这样的数据框 DF DF pd DataFrame Code abc abc abc abc def Description ABC String ABC String ABC String and sth Only sth el

如何在Python中将具有相似文本的数据框分组

如何在Python中将具有相似文本的数据框分组 的相关文章

随机推荐

热门标签

如何在Python中将具有相似文本的数据框分组的相关文章