Pandas 会影响 Rapidfuzz 匹配的结果吗？

2024-04-18

我正在碰壁。如果我在 pandas 数据帧内运行 Rapidfuzz 以及单独运行它，它会为字符串分数相似性提供不同的结果吗？为什么地址相似度 2 和最后一行的结果不同？

from rapidfuzz import process, utils, fuzz
import pandas as pd
import numpy as np

address_a = 'high new technology development zones huainan city anhui province china anhui anhui any city'
address_b = 'industrial park of funan city'

test_anui_data = {'Processed Client Name': ['anhui jinhan clothing co ltd'], 'Processed Aruvio Name': ['anhui jinhan clothing co ltd'], 'Processed Client Address': [address_a], 'Processed Aruvio Address': [address_b],  'Name Similarity': [89.2857142857142],  'Address Similarity': [np.nan]}  
  
# Create DataFrame  
test_anui = pd.DataFrame(test_anui_data)  
test_anui

test_anui= test_anui[(test_anui['Address Similarity'].isnull()) & (test_anui['Address Similarity']!='')]
test_anui['Address Similarity 2'] = fuzz.token_sort_ratio(str(test_anui['Processed Client Address']), str(test_anui['Processed Aruvio Address']))
print('the address similarity is different? ', fuzz.token_sort_ratio(address_a, address_b))

该错误来自于您在应用模糊测试时调用整个列。如果您执行以下操作，即将模糊应用于单独的行，您会得到相同的结果：

test_anui= test_anui[(test_anui['Address Similarity'].isnull()) & (test_anui['Address Similarity']!='')]
test_anui['Address Similarity 2'] = fuzz.token_sort_ratio(str(test_anui.at[0,'Processed Client Address']), str(test_anui.at[0,'Processed Aruvio Address']))

print('the address similarity is different? ', fuzz.token_sort_ratio(address_a, address_b))

或者，使用.loc

test_anui= test_anui[(test_anui['Address Similarity'].isnull()) & (test_anui['Address Similarity']!='')]
test_anui['Address Similarity 2'] = fuzz.token_sort_ratio(str(test_anui.loc[0,'Processed Client Address']), str(test_anui.loc[0,'Processed Aruvio Address']))

print('the address similarity is different? ', fuzz.token_sort_ratio(address_a, address_b))

数据框中的输出是：

    Processed Client Name         Processed Aruvio Name  \
0  anhui jinhan clothing co ltd  anhui jinhan clothing co ltd   

                            Processed Client Address  \
0  high new technology development zones huainan ...   

        Processed Aruvio Address  Name Similarity  Address Similarity  \
0  industrial park of funan city        89.285714                 NaN   

   Address Similarity 2  
0             28.099174

and of fuzz.token_sort_ratio(address_a, address_b) is 28.099173553719012.

换句话说，您需要指定要从中提取字符串的行。我想您的数据框由几行组成，这意味着您必须对每一行执行此操作：

for i in len(test_anui):
    test_anui['Address Similarity 2'] = fuzz.token_sort_ratio(str(test_anui.loc[i,'Processed Client Address']), 
    str(test_anui.loc[i,'Processed Aruvio Address']))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Pandas 会影响 Rapidfuzz 匹配的结果吗？的相关文章

NumPy linalg.eig

我有这个烦人的问题但我还没有弄清楚我有一个矩阵我想找到特征向量所以我写 val vec np linalg eig mymatrix 然后我得到了 vec 我的问题是当我小组中的其他人对相同的矩阵 mymatrix 做同样的事情时
从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
ImportError：运行 jupyter Notebook 时没有名为 IPython.paths 的模块？

我通过以下方式安装了 jupyter usr local opt python bin python2 7 m pip install jupyter 这将安装 ipython 版本 4 1 2 但是当我运行 jupyter Notebo
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
Pandas：如何将数据框插入 Clickhouse

我正在尝试将 Pandas 数据框插入 Clickhouse 这是我的代码 import pandas import sqlalchemy as sa uri clickhouse default localhost default ch
Alembic：如何迁移模型中的自定义类型？

My User模型是 class User UserMixin db Model tablename users noinspection PyShadowingBuiltins uuid Column uuid GUID default
设置 verify_certs=False 但 elasticsearch.Elasticsearch 因证书验证失败而引发 SSL 错误

self host KibanaProxy 自我端口 443 self user 测试 self password 测试我需要禁止证书验证使用选项时它与curl一起使用 k在命令行上但是在使用 Elasticsearch pytho
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
如何使用 Bokeh 动态隐藏字形和图例项

我正在尝试在散景中实现复选框其中每个复选框应显示隐藏与其关联的行我知道可以通过图例来实现这一点但我希望这种效果同时在两个图中发生此外图例也应该更新在下面的示例中出现了复选框但不执行任何操作我显然不明白如何更新用作源的数据
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
Python、subprocess、call()、check_call 和 returncode 来查找命令是否存在

我已经弄清楚如何使用 call 让我的 python 脚本运行命令 import subprocess mycommandline lumberjack sleep all night work all day subprocess cal
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
falcon，AttributeError：“API”对象没有属性“create”

我正在尝试测试我的猎鹰路线但测试总是失败而且看起来我把所有事情都做对了 my app py import falcon from resources static import StaticResource api falcon API
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
使用 Python 将对象列表转为 JSON

我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c

随机推荐

如何检查用户是否在.Net Core 2.0的Razor页面中进行了身份验证

我想检查用户是否在 Razor 页面的 ASP NET Core 2 0 应用程序中登录以下代码适用于 NET 4 6 1 if Request IsAuthenticated p a href Url Action class btn
如何使用gmail帐户进行ssrs电子邮件订阅

我有一份使用的报告SSRS 2008 R2 我想使用电子邮件选项订阅此报告我已在报告服务管理器中配置设置将服务器用作 smtp gmail com 并将发件人地址用作我的 gmail ID 我还尝试使用 SMTP 虚拟服务器并使用智
无法打开 HTTP 流：打开文件时出错 (../cap_ffmpeg_impl.hpp:529)

这是我的 HTTP 流的链接格式用户密码和地址已更改为虚拟 http username email protected cdn cgi l email protection 8093 axis cgi mjpg video cgi 该流
改变图例ggplot2中的形状

这是我的数据 head pcf IID POP PC1 PC2 PC3 PC4 PC5 shape 1 HG01113 CLM 0 00284857 0 01432160 0 01585010 0 024035900 0 01479180
在 Jupyter Notebook for Anaconda3 中导入自定义 .py 文件

我在 Mac 上的哪里存储 Anaconda3 的自定义 py 文件以便我可以将它们作为包导入到 Jupyter Notebook 中如果插入您可以将它们存储在任何地方 import os import sys sys path ap
微软机器人框架上的对话机器人可能吗？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案是否有可能使用微软的机器人框架建立一个对话机器人我目前正在使用 Luis 和 Qna Maker 的组合但它仍然是一个单一的问答机
扩展C++字符串成员函数

我需要进行不区分大小写的查找并发现以下代码可以解决问题 bool ci equal char ch1 char ch2 return toupper unsigned char ch1 toupper unsigned char ch2
AngularJS 和休息服务

我最近开始尝试AngularJS 我正在构建一个简单的 html5 应用程序来更新MySQL数据库索引 html
获取 LinkedIn 分享计数 JSONP

使用 LinkedIn API 我想获取 URL 的分享计数 https www linkedin com countserv count share url http www linkedin com format json 但这给了我一
从Java调用Android WebView中的jQuery函数？

我正在尝试调用在 html 中定义的 javascript 函数喜欢 WebView loadUrl javascript hoge 我可以调用非 jQuery 函数但无法调用我在 document ready function jQu
IllegalStateException：getAttribute：会话已失效

我的第一个 JSF IceFaces 版本 1 8 2 应用程序在 JBoss 5 1 0 上运行时遇到问题一段时间后我收到一个异常告诉我有关会话问题这很奇怪因为我根本不在我的代码中使用会话以下日志显示由于此错误来自 JBoss
指向动态分配的 boost multi_array 中的类的指针，未编译

我对 C 和 Boost 还很陌生我想要 world 类的对象有一个名为 chunk 类型为 octreenode 的数组以前我有一个普通的一维数组这工作得很好现在我尝试转向使用具有 Boost 的 multi array 功能的
使用 PHP 从多选下拉列表中获取数据并插入到 MySQL 中

我的数据库中有一个使用以下命令创建的日期列表SET数据类型 SET Mon Tue Wed Thr Fri Sat Sun 我希望用户能够使用多选下拉列表选择多天放入数据库
如何在 WPF 中按名称查找样式触发器嵌入元素？

首先问题的核心如果通过样式触发器将一个元素指定为 ContentControl 的内容我似乎无法按名称找到它现在了解更多详细信息我有一个面板其布局和功能根据其数据上下文而有很大差异这是来自错误库的错误当该错误为空时它是一
根据合并请求触发 gitlab-ci 中的作业

是否可以仅根据合并请求从 gitlab ci 运行作业现在我们有一个包含大量测试的大型整体项目但我们只想在合并到分支 master 之前运行测试嗯目前还没有内置但是您自己也不是不可能 Gitlab 允许trigger https
支持 __getitem__ 的类的 Python 类型提示

我想向一个函数添加类型提示该函数将接受带有 getitem 方法例如在 def my function hasitems locator hasitems locator 我不想限制hasitems成为特定类型例如list or d
如何将查询字符串传递给backbone.js 路由

我正在使用 Backbone js 和 jQuery mobile jQuery 移动路由被禁用我仅将库用于 UI 除了选择页面转换之外我一切正常我需要将页面转换向上切片淡入淡出向下滑动传递到主干路由器因为转换根据用户来自的
获取数据工厂中单个管道执行的成本

我正在考虑使用 Azure 数据工厂 V2 进行集成导入并想知道是否有办法跟踪正在运行的各个管道的成本例如如果我有 3 个管道代表 3 个不同的集成是否有办法查看每个管道产生的成本还有一种方法可以近乎实时地执行此操作以便在一个
我们应该使用 setTargetFragment() 吗？我认为 Fragments 不应该互相通信

Android开发者教程建议我使用片段的宿主活动来传递数据等等那么为什么有一个设置获取目标片段方法呢到目前为止我的应用程序包含一个主机活动和一个片段其中有一个启动按钮DialogFragment 其中有一个按钮可以启动另一个Dia
Pandas 会影响 Rapidfuzz 匹配的结果吗？

我正在碰壁如果我在 pandas 数据帧内运行 Rapidfuzz 以及单独运行它它会为字符串分数相似性提供不同的结果吗为什么地址相似度 2 和最后一行的结果不同 from rapidfuzz import process utils

Pandas 会影响 Rapidfuzz 匹配的结果吗？

Pandas 会影响 Rapidfuzz 匹配的结果吗？ 的相关文章

随机推荐

热门标签

Pandas 会影响 Rapidfuzz 匹配的结果吗？的相关文章