Group by 模糊字符串与 fuzzywuzzy 和 groupby 匹配

2023-12-08

我有一个随机单词和名称的数据集，我正在尝试对所有相似的单词和名称进行分组。因此给出下面的数据框：

     Name           ID            Value
0    James           1             10
1    James 2         2             142
2    Bike            3             1
3    Bicycle         4             1197
4    James Marsh     5             12
5    Ants            6             54
6    Job             7             6
7    Michael         8             80007  
8    Arm             9             47 
9    Mike K          10            9
10   Michael k       11            1

我的伪代码类似于：

import pandas as pd
from fuzzywuzzy import fuzz

minratio = 95
for idx1, name1 in df['Name'].iteritems():
   for idx2, name2 in df['Name'].iteritems():
      ratio = fuzz.WRatio(name1, name2)
      if ratio > minratio:
          grouped = df.groupby(['Name', 'ID'])['Value']\
                        .agg(Total_Value='sum', Group_Size='count')

然后这会给我想要的输出：

print(grouped)
     Name           ID            Total_Value          Group_Size
0    James           1             164                     3 # All James' grouped
2    Bike            3             1198                    2 # Bike's and Bicycles grouped
5    Ants            6             54                      1 
6    Job             7             6                       1
7    Michael         8             80017                   3 # Mike's and Michael's grouped
8    Arm             9             47                      1

显然这是行不通的，老实说，我不确定这是否可能，但这就是我正在努力实现的目标。任何能让我走上正轨的建议都会很有用。

Using 亲和力传播聚类（并不完美，但也许是一个起点）：

import pandas as pd
import numpy as np
import io
from fuzzywuzzy import fuzz
from scipy import spatial
import sklearn.cluster

s="""Name           ID            Value
0    James           1             10
1    James 2         2             142
2    Bike            3             1
3    Bicycle         4             1197
4    James Marsh     5             12
5    Ants            6             54
6    Job             7             6
7    Michael         8             80007  
8    Arm             9             47 
9    Mike K          10            9
10   Michael k       11            1"""
df = pd.read_csv(io.StringIO(s),sep='\s\s+',engine='python')

names = df.Name.values
sim = spatial.distance.pdist(names.reshape((-1,1)), lambda x,y: fuzz.WRatio(x,y))
affprop = sklearn.cluster.AffinityPropagation(affinity="precomputed", random_state=None)
affprop.fit(spatial.distance.squareform(sim))

res = df.groupby(affprop.labels_).agg(
        Names=('Name',','.join),
        First_ID=('ID','first'),
        Total_Value=('Value','sum'),
        Group_Size=('Value','count')
        )

Result

                                Names  First_ID  Total_Value  Group_Size
0  James,James 2,James Marsh,Ants,Arm         1          265           5
1                        Bike,Bicycle         3         1198           2
2                                 Job         7            6           1
3            Michael,Mike K,Michael k         8        80017           3

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

fuzzywuzzy

Group by 模糊字符串与 fuzzywuzzy 和 groupby 匹配的相关文章

pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
从零开始的 numpy 形状意味着什么

好的我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况这对我来说是有意义的它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑为什么这么定义呢据我所知这只是表达空数组的
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包

随机推荐

为什么 sizeof...(T) 这么慢？实现不带 sizeof...(T) 的 C++14 make_index_sequence

我找到了 C 14 make index sequence 算法的实现 template lt int gt struct index sequence using type index sequence template lt type
如何将字典列表拆分为多个保持相同索引的列？

我有一个数据框它有一个时间戳作为索引还有一个包含字典列表的列 index var A 2019 08 21 09 05 49 Date1 Aug 21 2017 9 09 51 AM Date2 Aug 21 2017 9 09 54
如何在 umbraco 6 的管理面板中创建自定义部分？

我希望在 umbraco 6 的管理面板中开发一个自定义用户部分此部分可以管理用户详细信息以及管理员批准有人知道如何实现这一点吗显然它类似于在 Umbraco 4 中这样做但在 Umbraco 6 中不是对umbracoApp表
对于画布，.drawImage 函数抛出“TypeError：预期图像或画布”

我正在尝试在我的不和谐机器人中添加排名卡为了做到这一点我正在尝试使用画布但是当我使用画布时一切正常直到我点击 drawImage方法它给我一个错误提示 TypeError 需要图像或画布虽然我已经要求了canvas在全球范围
Python if any() 不起作用

我想检查列表中是否有任何字符串元素phrases包含一组中的某些关键字phd words 我想用any但它不起作用 In 19 import pandas as pd import psycopg2 as pg def test phd w
由 pywin32 生成的 python 可执行文件中的 dll 加载错误

我使用 py2exe 使用 64 位 python 解释器和 32 位 python 解释器创建了 python 可执行文件在我的程序中我使用该模块pywin32 com 因此我在创建可执行文件之前下载并安装了该程序的 64 位和 32
Android sqlite，限制数据库中的行数[关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我一直有新数据进入应用程序因此我想将表中的行数限制为 100 条记录我将其描述为 FIFO 队列每当有新数据一次只有几行进来时表底部的旧数据就会被刷新并删除由于它是
用汇编语言定义“变量”

我知道这是一个非常愚蠢的问题但我有一段时间无法找到答案如何在 GAS AT T 汇编语言中正确声明和定义变量例如我想要 5 个字节的缓冲区两个 1 字节变量最初值为 0 2 字节变量为 0 和 2 字节变量为 10 这段代码不能
通过Java访问谷歌照片API

我对 google API 很陌生并且遇到了麻烦我红色文档适用于 Java 的 Google 照片 API 然后我在 google API 控制台中创建了 OAuth 凭据并下载了它 credentials json 文件之后我尝试访
链接 .so 文件中的旧符号版本

在 x86 64 linux 上使用 gcc 和 ld 我需要链接到较新版本的库 glibc 2 14 但可执行文件需要在旧版本 2 5 的系统上运行由于唯一不兼容的符号是 memcpy 需要 memcpy GLIBC 2 2 5 但提供
Meteor 的标签建议

各位流星用户在搜索教程和示例应用程序时我发现了一个使用独特头部结构的教程和示例应用程序这个特定的示例应用程序甚至没有标记任何地方只是一个名为head html其中包含上述代码我还了解到
C#同时更新两个文本框？

假设我有两个文本框一个包含二进制数据另一个包含 ASCII 等效数据如果用户更改其中任何一个我如何同时更新另一个文本框而无需按按钮你必须防止无限循环 asciiTextBox变化binaryTextBox Text这改变了asc
获取或插入 PostgreSQL

我有一个对象表其中包含多个属性的列和一个具有唯一 SERIAL 标识符的列例如 CREATE TABLE person id SERIAL NOT NULL name VARCHAR 16 NOT NULL age INT NOT NU
如何防止Android中移动网站的深度链接？

我已经为我的所有活动添加了这样的深层链接
Android 字符串比较不起作用

我很难使用 Java 比较 Android 中的两个字符串我所做的是运行 HTTP get 请求该请求返回 yes 或 no 并根据该请求决定是否启动新活动我正在 Async onPostExecute 方法中执行字符串比较尽管 H
如何检查iframe是否加载失败？ jquery？

我现在有这个 jquery 代码并且工作正常当用户单击提交按钮时它会隐藏表单显示加载器然后将数据提交到链接并在 iframe 中加载输出 document ready function xxx form validate submi
如何在html代码中使用json文件

我有 json 文件mydata json 这个文件中是一些 json 编码的数据我想在文件中获取这些数据index html并在 JavaScript 中处理这些数据但不知道如何在 html 文件中连接 json 文件请告诉我这是
Android 自定义按钮状态选择器 XML 文件导致 Resource$NotFoundException

由于 Resource NotFoundException 我的活动随机崩溃并且总是由于我的自定义按钮的状态选择器文件之一而导致而且崩溃是完全随机的我将多次检查整个应用程序而不会发生崩溃然后第 n 次转到 Activity 然后它会
使用 jQuery 自定义下拉面板

我正在尝试为以下问题找到 jQuery 解决方案通用下拉控件折叠时看起来像一个普通的选择框下拉一个自定义面板您可以在其中放置任何内容 I m not寻找菜单控件或者可设置样式的选择或列表控件我需要一个下拉面板可以容纳任何内容的控
Group by 模糊字符串与 fuzzywuzzy 和 groupby 匹配

我有一个随机单词和名称的数据集我正在尝试对所有相似的单词和名称进行分组因此给出下面的数据框 Name ID Value 0 James 1 10 1 James 2 2 142 2 Bike 3 1 3 Bicycle 4 1197 4

Group by 模糊字符串与 fuzzywuzzy 和 groupby 匹配

Group by 模糊字符串与 fuzzywuzzy 和 groupby 匹配 的相关文章

随机推荐

热门标签

Group by 模糊字符串与 fuzzywuzzy 和 groupby 匹配的相关文章