工程实际应用算法：字符串相似度计算-模糊匹配（python版）

2023-05-16

字符串相似度计算-模糊匹配（python版）

字符串相似度计算
- difflib库
- - 计算两字符串相似度
  - 复现sql中like功能-模糊匹配
- fuzzywuzzy库

字符串相似度计算

最近在处理小区位置名称匹配的问题：找出表A、表B中相同的小区名称。但两个表的小区名称存在不规范的问题，需要模糊匹配。考虑到数据量较大，还是尽量使用python的第三方库效率更高。python中相关的库是difflib库和fuzzywuzzy库。

difflib库

计算两字符串相似度

difflib.SequenceMatcher返回值在0-1之间，如果为1则认为完全相等。

def get_similarity(str1, str2):
    """
    :param str1:
    :param str2:
    :return: 计算两个字符串的相似度，
    """
    return difflib.SequenceMatcher(None, str1, str2).quick_ratio()

复现sql中like功能-模糊匹配

str1 = '中国'
str2 = '中国人'
name_list = ['美国', '中国', '俄罗斯']
# get_close_matches()函数返回namelist中str2的模糊匹配
str_test = difflib.get_close_matches(str2, name_list)

fuzzywuzzy库

fuzzywuzzy库的本质是编辑距离，主要涉及fuzz和 process两个模块。

from fuzzywuzzy import fuzz, process

# fuzz 主要用于计算字符串之间的匹配
str1 = '中国'
str2 = '中国.'
list1 = ['中国人', '中华人民共和国', '美国', '俄罗斯']

print(fuzz.ratio(str1, str2))   # 计算相似度：完全相似为100
print(fuzz.partial_ratio(str1, str2))   # 部分匹配，str1是str2的子串，依然返回100
print(fuzz.token_sort_ratio(str1, str2))    # 感觉这个没啥用

# process模块
print(process.extractOne(str1, list1))  # 返回list中最相似的一个
print(process.extract(str1, list1, limit=2))    # 返回list中比较相似的topn

～如果你的程序比较耗时，那么一定要反思是不是算法不对。一点感触：工作就是解应用题，而且是多重约束的应用题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

工程实际应用算法：字符串相似度计算-模糊匹配（python版）的相关文章

计算机软件论述题,2015年计算机四级软件工程论述题真题及答案(2)

4 测试是指对编码的查错和排错 xff0c 应说测试的内容和过程 xff0c 如单元测试集成测试系统测试等 2 软件复审是软件在编码前对分析文档和设计文档的审查 xff0c 其目的是发展和纠正在分析和设计阶段中可能产生的系统性错误 xf
python线程数组_Python基础——多线程、多进程（0523）

一多进程的共享内存 Value 和 Array 一般的变量在进程之间是没法进行通讯的 xff0c multiprocessing提供了Value和Array模块 xff0c 他们可以在不通的进程中共同使用主进程的内存空间中创建共享的
c语言自动生成系统时间函数,使用C语言中的time函数获取系统时间

使用C语言中的time函数获取系统时间可以通过time 函数来获得计算机系统当前的日历时间 Calendar Time xff0c 处理日期时间的函数都是以本函数的返回值为基础进行运算其原型为 xff1a time t time tim
django 默认查询条件_Django多条件筛选查询

Django多条件筛选查询主模型只存在外键一对多关系模型设计快捷筛选状态 class Status models Model order number 61 models PositiveIntegerField unique 61
java 循环右移_java实现数据结构-数组中按次数进行循环右移

此类实现输入一串数据作为数组 xff0c 然后输入循环右移次数根据循环右移次数 xff0c 实现数组各个元素向右循环移动 xff0c 如数组为 5 8 7 6 9 3 2 循环右移次数为3 xff0c 则循环右移后的结果是 9 3 2
win10商店打不开_win10自带的照片查看器打不开的修复方法

我们知道win10或win7等系统都自带有默认的照片查看器 xff0c 安装好系统后 xff0c 我们再不用安装第三方看图软件来查看照片了 xff0c 给我们玩电脑带来了极大的方便但有些朋友近来向我求教照片查看器打不开 xff0c 或打开
重装MySQL在最后一步无响应解决方法

1 卸载原来的MySQL 2 在C盘下搜索 mysql 删除所有找到的文件 xff08 此处注意 xff1a 在C盘下有个隐藏的文件夹 ProgramData xff0c mysql的一部分文件在这个文件夹内 xff0c 即使搜到 xff0
python数值运算代码_Python数值

一 python数值类型 python数值类型有以下四种 xff1a int 整数 float 浮点数 complex 复数 bool 布尔型注意 xff1a python3取消了long型二 python数值运算符 2 1算术运算符
使用python获取指定进程的CPU/内存情况；Python获取指定进程的CPU和内存使用情况

方法一 xff1a psutil 这里使用了psutil的库使用前需要pip一下而这玩意儿直接抓cpu好像会因为某些原因效果不理想所以抄了网上的代码取10次的平均值 span class token comment user env b
mysql数据库中的分组查询语句_详解MySQL中的分组查询与连接查询语句

分组查询 group bygroup by 属性名 having 条件表达式 with rollup 属性名指按照该字段值进行分组 xff1b having 条件表达式用来限制分组后的显示 xff0c 满足条件的结果将被显示 xff1b
pcm转mp3_前端音频可视化——PCM数据解决方案

一概述本文的需求来自于标注团队对于音频文件的标注 xff0c 需要将音频准确定位到毫秒位置进行内容标注 xff0c 方便团队训练Ai模型而产品也对标注功能提出了三项不可妥协的需求 xff1a 1 波形图必须基于音频原WAV无损格式进行
51单片机99秒倒计时C语言程序,单片机课程设计-99秒倒计时

单片机应用技术课程设计指导书合肥通用职业技术学院电气与计算机系二OO九年11月单片机应用是一门很重要的专业课 xff0c 它涉及到的理论及技术在工业过程控制智能仪器仪表及家用电器中有非常广泛的应用 xff0c 本课程设计的意义和
esp8266原理图_ESP8266物联网开发板原理图设计过程

首先是CH340G下载电路 xff0c CH340自动下载电路在前一个帖子已经分析过了 xff0c 这里有一个点需要确认即可 xff0c 在网上看到有的是5V供电的 xff0c 有的是3 3V供电的 xff0c 需要确认一下那个是合理的我
python统计大小写字母个数_编写一个Python函数，它接受一个字符串并计算大写字母和小写字母的数量...

问题why this one doesn 39 t work 除了语法错误和运行时错误之外 xff0c 您的代码逻辑还有很长的路要走你实际上没有按问题所问的去做您似乎正在尝试计算单个字符中的大写字符数那是不正确的让我们回顾一下正确实
js数组截取指定的长度_数组使用大全

0 2数组使用大全 1数组定义定义之后直接赋值直接声明一个空数组使用构造函数声明一个有长度的空数组实例2数组遍历 for循环 forEach 遍历数组中每一项 xff0c 没有返回值 xff0c 对原数组没有影响 map 有返回值 xf
Linux内存管理（最透彻的一篇）

摘要 xff1a 本章首先以应用程序开发者的角度审视Linux的进程内存管理 xff0c 在此基础上逐步深入到内核中讨论系统物理内存管理和内核内存的使用方法力求从外到内水到渠成地引导网友分析Linux的内存管理与使用在本章最后 xff
python turtle库绘制一个六角形,使用Python的turtle库实现六角形以及正方形螺旋线的绘制...

1 六角形的绘制思路 xff1a 一个六角形可以看作是两个等边三角形具有共同的中心且垂线互成60 角所以只需实现一个等边三角形的绘制以及第二个三角形绘制起点的移动即可代码如下 xff1a import turtle turtle se
电脑相机,万能相机电脑版

万能相机电脑版是一款专业的手机相机拍照软件 xff0c 万能相机电脑版是美图秀秀最新开发的集拼图特效自拍于一体的拍照神器 xff0c 万能相机电脑版能够让用户轻松掌控拍照技巧它聚合了拼图相机特效相机自拍相机三大拍摄模式软件拥有6
tomcat服务器配置文件虚拟路径,Windows系统下安装Tomcat服务器和配置虚拟目录的方法...

安装Tomcat和配置环境变量安装jdk xff0c 这个我就不用说了安装的时候指定安装路径我指定的是 D Program Files Java jdk1 6 0 05 3 解压下载的apache tomcat 5 5 23 zip 我
查询虚拟服务器,虚拟主机服务器查询

虚拟主机服务器查询内容精选换一换弹性云服务器 Elastic Cloud Server xff0c 以下简称ECS 是由CPU 内存镜像云硬盘组成的一种可随时获取弹性可扩展的计算服务器 xff0c 同时它结合VPC 虚拟防火墙

随机推荐

mysql 部署注意事项_MySQL多IDC部署注意事项

目前暂时还没有哪款数据库产品是专门针对跨IDC进行的优化 xff0c 在理论上被业界认为最优的方案是采用基于Paxos协议暂时只有google做目前暂时还没有哪款数据库产品是专门针对跨IDC进行的优化 xff0c 在理论上被业界认为最优
Mysql用户密码插件_MySQL8 修改密码验证插件

MySQL8 修改密码验证插件查看当前用户使用的密码验证插件 mysql gt show variables like 39 auth 39 43 43 43 Variable name Value 43 43 43 default au
360网页服务器的根目录,360浏览器收藏夹路径在哪里

用户在使用浏览器收藏网址以后 xff0c 会需要使用 xff0c 那么这时候需要怎么操作呢 xff0c 今天小编就会为用户提供寻找根目录的方法 xff0c 用户可以使用浏览器寻找到自己收藏的网址 xff0c 直接调用 xff0c 直接复制粘
树莓派有线网络设置_树莓派的基本网络配置

树莓派 Raspberry Pi 是如图所示的小电路板 xff0c 别看它只有卡片大小 xff0c 但它却能够运行Linux系统 xff0c 树莓派拥有USB接口 xff0c 可以连接鼠标键盘 xff0c 还有HDMI口 xff0c 可以连
MinGW + VSCode配置pthread

使用第三方的pthread库 xff1a pthreads w32 2 8 0 release exe 下载地址 ftp sourceware org pub pthreads win32 pthreads w32 2 8 0 releas
iOS - 组件化开发一私有库pod制作

前言 xff1a 最近和朋友聊天聊到组件化开发 xff0c 网上非常多优秀的文章有介绍也有很多的demo 组件化的几种实现方案的选择这里不做讨论 xff0c 这里介绍一个组件化的基本技能 xff1a 制作私有库 61 61 61 gt 给新
python中左闭右开是啥意思_Python的一些整理

The Zen of Python by Tim Peters xff08 import this xff09 Beautiful is better than ugly Explicit is better than implicit S
python中自然数e怎么表示_python e怎么表示

exp 方法返回x的指数 xff0c ex 语法以下是 exp 方法的语法 import math math exp x 相关推荐 xff1a Python教程注意 xff1a exp 是不能直接访问的 xff0c 需要导入 math
rust图形编程_一个Rust的GUI库

Conrod 线条一个易于使用完全由Rust编写的2D的GUI库目前Rust并未给出官方的GUI库 xff0c 但是社区已经有很多人跃跃欲试了 xff0c 其中GitHub上千星的项目貌似就两个 xff0c 其中就有本文的主角Conr
苹果11 nfc模拟门禁卡步骤_手机隐藏的NFC功能，可以秒开小区门禁，用过才知道是真方便...

我们每次进出自己的小区门口都需要拿着门禁卡 xff0c 有时候还经常忘记带 xff0c 或者不小心弄丢了 xff0c 都是非常不方便的那么今天笔者就来带大家了解NFC功能 xff0c 小区门禁手机碰一碰就能开 xff0c 下面就来教大家怎
iphone panic故障对照表_解决iPhone无法充电和缓慢问题。

检查充电配件是否损坏如果是第三方配件 xff0c 请检查有没有获得 Apple 认证如果充电线缆或适配器存在损坏的情况 xff0c 请更换您的配件然后再尝试给 iPhone 充电检查充电端口清除设备底部充电端口中的任何碎屑 xff0
苹果移除id工具_苹果能进系统的云空间移除id

很多小伙伴因为钞票不够 xff0c 喜欢从各种平台上购买便宜的二手苹果手机 xff0c 买来以后发现已经登陆了id xff0c 手机登录了id xff0c 开启了查找 xff0c 如下图有的是为了贪便宜 xff0c 以为能正常使用就行当
ubuntu 设置静态路由_ubuntu配置静态路由及重启生效

ubuntu配置静态路由及重启生效第一种方法使用route命令添加临时路由添加到主机的路由 route add host 192 168 1 123 dev eth0 route add host 192 168 1 123 gw
python中以下不能创建一个字典的语句是,以下语句不能创建一个字典的是？（）...

以下语句不能创建一个字典的是 xff1f 答 xff1a d 61 1 2 3 Python 下面不是左倾错误表现的是答 xff1a 放弃对革命武装的领导某商店今年全部商品的销售量为去年的115 这个相对数是答 xff1a 数量指
AD显示飞线

第一步打开PCB文件 xff0c 在AD软件的最上面找到View选项卡 xff0c 找到并单击选择 View gt Connections gt Show All 如果飞线正常显示了 xff0c 那么问题解决如果未正常显示 xff0c
获取服务器上图片的位置,怎么获取服务器上的图片地址

怎么获取服务器上的图片地址内容精选换一换图片组件作为一个基本组件 xff0c 用于展示图片用户可以通过属性图片地址 xff0c 来选择图片业务接入DDoS高防后 xff0c 经过高防转发的流量到服务端之后真实源IP将被隐藏 xf
时间服务器端口协议,时间服务器端口

时间服务器端口内容精选换一换以ADC所在服务器的时间为准 xff0c 将ADA所在服务器的时间与ADC所在服务器的时间同步参见准备环境完成环境配置以HwHiAiUser用户登录安装Toolkit组件的服务器执行命令 xff0c
数据集抄系统云服务器,数据集抄系统云服务器

数据集抄系统云服务器内容精选换一换云备份和镜像服务有很多功能交融的地方 xff0c 有时需要搭配一起使用镜像有时也可用来备份云服务器运行环境 xff0c 作为备份来使用云备份和镜像服务区别主要有以下几点 xff0c 如表1所示备
用java程序对字符数组排序_java实现6种字符串数组的排序(String array sort)

java实现6种字符串数组的排序 String array sort 发布于 2020 8 11 复制链接摘记注意 xff0c 本文不是字符串排序 xff0c 是字符串数组的排序方法分别是 xff1a 1 低位优先键索引排序 2 高位
工程实际应用算法：字符串相似度计算-模糊匹配（python版）

字符串相似度计算模糊匹配 xff08 python版 xff09 字符串相似度计算difflib库计算两字符串相似度复现sql中like功能模糊匹配 fuzzywuzzy库字符串相似度计算最近在处理小区位置名称匹配的问题 xff1a