python计算字符串相似度,字符串相似度算法-LEVENSHTEINDISTANCE算法

2023-05-16

Levenshtein Distance 算法，又叫 Edit Distance 算法，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

算法实现原理图解：

a.首先是有两个字符串,这里写一个简单的 abc 和 abe

b.将字符串想象成下面的结构。

A 处是一个标记，为了方便讲解，不是这个表的内容。

abc

abe

A处

c.来计算 A 处出得值

它的值取决于：左边的 1、上边的 1、左上角的 0。

按照 Levenshtein distance 的意思：

上面的值加 1 ，得到 1+1=2 ，

左面的值加 1 ，得到 1+1=2 ，

左上角的值根据字符是否相同，相同加 0 ，不同加 1 。A 处由于是两个 a 相同，左上角的值加 0 ，得到 0+0=0 。

然后从我们上面计算出来的 2，2，0 三个值中选取最小值，所以 A 处的值为 0 。

d.于是表成为下面的样子

abc

abe

B处

在 B 处会同样得到三个值，左边计算后为 3 ，上边计算后为 1 ，在 B 处由于对应的字符为 a、b ，不相等，所以左上角应该在当前值的基础上加 1 ，这样得到 1+1=2 ，在(3,1,2)中选出最小的为 B 处的值。

e.于是表就更新了

abc

abe

C处

C 处计算后：上面的值为 2 ，左边的值为 4 ，左上角的：a 和 e 不相同，所以加 1 ，即 2+1 ，左上角的为 3 。

在(2,4,3)中取最小的为 C 处的值。

f.于是依次推得到

A处 0

D处 1

G处 2

B处 1

E处 0

H处 1

C处 2

F处 1

I处 1

I 处: 表示 abc 和 abe 有1个需要编辑的操作( c 替换成 e )。这个是需要计算出来的。

同时，也获得一些额外的信息：

A处: 表示a 和a 需要有0个操作。字符串一样

B处: 表示ab 和a 需要有1个操作。

C处: 表示abe 和a 需要有2个操作。

D处: 表示a 和ab 需要有1个操作。

E处: 表示ab 和ab 需要有0个操作。字符串一样

F处: 表示abe 和ab 需要有1个操作。

G处: 表示a 和abc 需要有2个操作。

H处: 表示ab 和abc 需要有1个操作。

I处: 表示abe 和abc 需要有1个操作。

g.计算相似度

先取两个字符串长度的最大值 maxLen，用 1-(需要操作数除 maxLen)，得到相似度。

例如 abc 和 abe 一个操作，长度为 3 ，所以相似度为 1-1/3=0.666 。

最近需要对文本内容进行对比计算相似度，找了很久还真的让我找到个现成的模块 python-Levenshtein ，这个模块用法直接用help看吧，我主要用到里面的distance和ratio，其它的暂时还不知道有什么功能。

原文链接:https://www.cnblogs.com/jingsupo/p/python-Levenshtein.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python计算字符串相似度,字符串相似度算法-LEVENSHTEINDISTANCE算法的相关文章

linux nas 性能,编辑中把折腾进行到底——我的高性能家用NAS搭建之二:软...

本帖最后由阿崔于 2018 3 27 16 16 编辑 4 软件 4 1 前言这篇文章作为硬件篇的后续 xff0c 本来应该在去年完成 xff0c 但是由于作者懒癌晚期 xff0c 就算看到之前有坛友从自组服务器变成给群晖做贡献 xf
如何将linux子系统弄掉,如何在Win10中重置和注销Linux子系统

原标题 xff1a 如何在Win10中重置和注销Linux子系统在Windows 10中 xff0c 我们可以注销Linux子系统的发行版 xff0c 也可以将其重置为默认值重置后 xff0c 当我们下次启动它时 xff0c Windo
open64 linux,ARM Linux系统调用的原理

ARM Linux系统调用的原理操作系统为在用户态运行的进程与硬件设备进行交互提供了一组接口在应用程序和硬件之间设置一个额外层具有很多优点首先 xff0c 这使得编程更加容易 xff0c 把用户从学习硬件设备的低级编程特性中解放出来
python安装包太慢怎么破_Python-pip安装包下载慢，怎么办？

大家在安装python包的时候有时候遇到过安装一个包等半天 xff0c 或者有时候还会遇到超时的情况 xff1f 下面介绍几个国内的python包镜像站并教大家如何快速安装Python包 1 国内几个镜像站点 xff0c 镜像站点如下 x
oracle 12c 索引命令,oracle12c数据库管理常用语句

oracle12c数据库管理常用语句 select name from v database 查看数据库名 desc v database select instance name from v instance 数据库实例名以上三条sq
老笔记本 android,利用旧笔记本电脑，变身为 Android 电脑

利用旧笔记本电脑 xff0c 变身为 Android 电脑 2021 03 24 18 22 28 10点赞 62收藏 11评论这些年下来 xff0c 大家手头可能已经有不止一台闲置的笔记本电脑设备了一方面 xff0c 电脑升级几年一代
linux gbk编码转换,UTF-8和GBK编码转换iconv

iconv 文件编码转换 iconv 文件编码转换 http www cnblogs com xuxm2007 archive 2010 11 09 1872379 html 查看iconv的支持的编码 iconv 解决Linux文档显示中
linux忘掉su密码,linux下记录su密码的代码

kpr fakesu c V0 9beta167 P by koper Setting up admin 64 host gcc o su fakesu c rm rf fakesu c admin 64 host mv su var tm
java socket 单例_java socket 简单实例（线程）

这是一个简单的socket测试实例 xff0c 应用Javaswing 线程客户端类 package com xyb fhy socketthreadtest import java awt Container import java i
Win11使用WSL2安装ubuntu，ubuntu桌面配置，ubuntu子系统删除

精简命令行版 1 开启WSL2 管理员打开PowerShell span class token comment 开启linux子系统 span dism exe online enable feature featurename Micr
linux debian硬盘安装,硬盘安装linux debian如何配置grub文件

本文来自 www 020fix com 自己手动源码安装gtk xff0c 可能改变了一些依赖包 xff0c 从而导致系统自动升级后桌面系统Natilus出现了一点小问题后来越弄越糟 xff0c 直到整个桌面崩溃于是乎 xff0c 改用
linux RDP 共享磁盘,Remmina：一个Linux下功能丰富的远程桌面共享工具

Remmina 是一款在 Linux 和其他类 Unix 系统下的自由开源功能丰富强大的远程桌面客户端 xff0c 它用 GTK 43 3 编写而成它适用于那些需要远程访问及使用许多计算机的系统管理员和在外出行人员它以简单统一同
Linux使用fdisk命令无法打开,linux下fdisk命令的使用方法

linux下fdisk命令的使用方法 2006 07 13 13 35 57 在学习 Linux 的过程中 xff0c 安装 Linux 是每一个初学者的第一个门槛在这个过程中间 xff0c 最大的困惑莫过于给硬盘进行分区虽然 xff0
c语言ctrl,在C中捕获Ctrl-C

点击这里 xff1a http www csl mtu edu cs4411 ck www NOTES signal install html 注 xff1a 显然 xff0c 这是一个简单的例子解释只是如何建立一个CtrlC处理程序 xf
origin如何绘制双y轴曲线_使用Origin软件绘制双y轴曲线图的过程

在平时数据处理过程中 xff0c 常常需要做双Y轴的曲线图 Origin作为一款功能强大的绘图软件 xff0c 可以轻松地作出漂亮的双y轴曲线图那么具体的操作是怎样的呢下面就和大家详细地分享一下利用Origin软件绘制双y轴曲线图的过程
linux的debin版本,8个最佳的基于Debian的Linux发行版

原标题 xff1a 8个最佳的基于Debian的Linux发行版来自 xff1a Linux迷 https www linuxmi com 10 debian linux html 毫无疑问 xff0c Debian是最受欢迎的发行版之一
linux 7.3图形化远程,RHEL7 配置VNC远程桌面

VNC Virtual Network Computing 是一款优秀的远程控制工具软件 xff0c 由著名的AT amp T的欧洲研究实验室开发的 VNC是在基于UNIX和Linux操作系统的免费的开放源码软件 xff0c 远程控制能力强
python桌面程序连接mysql_连接Python程序与MySQL的教程

MySQL是Web世界中使用最广泛的数据库服务器 SQLite的特点是轻量级可嵌入 xff0c 但不能承受高并发访问 xff0c 适合桌面和移动应用而MySQL是为服务器端设计的数据库 xff0c 能承受高并发访问 xff0c 同时占用
Bringing Old Photos Back to Life微软老照片修复全解析(原理、代码、训练、测试）

挖坑 xff0c 写一下该论文相关的信息 xff0c 从原理模型代码分析测试最后写模型的数据集及其训练 xff08 1 xff09 Bringing Old Photos Back to Life原理和测试 xff08 2 xff09
iOS YYText的使用笔记二(YYLabel聊天表情+文字并排)

上一篇博客记录了一个图文编辑器的功能 xff08 YYTextview的使用 xff09 xff0c 接下来记录一下YYLabel的简单使用 xff0c 其实他们的图文并排的原理都是一样的都是 NSMutableAttributedStr

随机推荐

php 连接小票机,网络无线小票打印机如何连接和使用

网络小票打印机和传统打印机的区别就在于 xff0c 小票打印机可以不通过电脑驱动来控制打印机 xff0c 而是仅仅需要一个网络小票打印机管理软件来在服务器上安装和管理网络打印机 xff0c 随着移动互联网 43 技术的飞速发展 xff0c
激励视频广告 Android,微信小程序中插入激励视频广告并获取收益(实例代码)

最近微信小程序后台发送通知 xff0c 小程序激励式视频广告组件日前已全量上线 xff0c 也就是说大家可以在小程序中插入激励视频广告了 xff0c 之前只允许小游戏可以使用激励式视频广告用户在小程序中主动触发激励式广告 xff0c 并
java隐式转换类型_Java数据类型的转换:隐式(自动)转换与强制转换

http java chinaitlab com base 725590 html 1 数据类型转换的种类 java数据类型的转换一般分三种分别是 1 简单数据类型之间的转换 2 字符串与其它数据类型的转换 3 其它实用数据类型转换 2
c文件服务器的访问,c服务器访问

c服务器访问内容精选换一换 VPC为弹性云服务器构建隔离的用户自主配置和管理的虚拟网络环境 xff0c 提升用户云中资源的安全性 xff0c 简化用户的网络部署使用弹性文件服务时 xff0c 文件系统和云服务器归属于同一VPC下才能
mysql repo_在CentOS 7下使用yum配置MySQL源并安装MySQL

CentOS7默认数据库是mariadb 配置等用着不习惯因此决定改成mysql 但是CentOS7的yum源中默认好像是没有mysql的为了解决这个问题 xff0c 我们要先下载mysql的repo源 1 由于CentOS 的yum源
python语法学习_Python基础语法学习之if语句

今天我们要学习的是Python基础语法中的if语句 xff0c 主要内容有条件判断 if嵌套和if嵌套的执行顺序其中条件判断的表现形式 xff0c 主要有三种单向判断双向判断和多向判断下面赶紧来一起看看吧 xff01 一条件判断 1
freerdp 解压安装_Ubuntu Server 安装桌面环境（xrdp）

背景前面写了一篇Ubuntu安装VNC远程桌面 xff0c 但是发现在开机自启上有问题 xff0c 无法通过非交互式shell启动vnc xff0c 后面想到了模拟远程调用的方法去启动 xff0c 如下 xff1a ssh i home
linux启动jar包很慢_Windows 10和Linux脚本启动jar包服务器，并设置开机启动

Windows 10和Linux脚本启动jar包服务器 xff0c 并设置开机启动现在好多Java服务和应用都是用jar启动 xff0c jar打包成的里面会直接带有tomcat xff0c 所以可以直接启动 xff0c 但是如何通过脚本
4*4矩阵式键盘识别技术c语言程序,4×4矩阵式键盘识别技术

1 xff0e 把单片机系统区域中的P3 0 xff0d P3 7端口用8芯排线连接到 4X4行列式键盘区域中的C1 xff0d C4R1 xff0d R4端口上 xff1b 2 xff0e 把单片机系统区域中的P0 0 AD0
【python、matlab】求以e为底的矩阵中每个元素的指数

matlab中 xff1a exp 函数 xff0c 如下所示 python中 xff1a numpy exp 函数 xff0c 如下所示
更新卡住解决_逃离塔科夫启动界面卡住或者更新慢解决方法

各位玩家最近有没有玩一款叫做逃离塔科夫的硬核FPS游戏 xff1f 这个游戏最近可是非常火爆 xff0c 大家在玩的时候可能或多或少遇到了一些问题 xff0c 今天涛仔将解决启动界面卡住以及更新慢的方法分享给大家首先 xff0c 要想
linux计划任务脚本,linux下计划任务补充（脚本）

1 题目每天晚上09点到12点运行 systemctl restart network 命令 00 21 00 systmmctl restart network 错误的 xff0c 因为范围是0 23 00 21 23 00 systm
在栈中压入一个字符串c语言,一道C语言试题的探讨

对张孝祥C语言试题其中一题的探讨当绝对能够测试你的C语言功力的几个问题第一次出现在CSDN首页时 xff0c 我就进入了张老师Blog 客观上说 xff0c 出的题目比较基础 xff0c 但每一题都说出一个所以然来 xff0c 恐怕不
vscode配置cmake项目

1 插件安装 C C 43 43 CMake CMake Tools 2 打开工作文件夹 gt ctrl 43 shift 43 d gt 创建launch json文件 34 version 34 34 0 2 0 34 34 confi
linux debian硬盘安装,[Debian] 硬盘安装Debian[转载]

硬盘安装Debian 环境 xff1a Windows XP 只有一块硬盘 1 下载Debian 只要下载第一张CD就行了 xff0c 不需要下载DVD xff0c 因为一张DVD的ISO会大于4G FAT32不支持超过4G的文件将下载的
linux的netperf测试,linux下Netperf使用详解

转载自 xff1a http blog sina com cn s blog 6b1ccd6501013119 html 首先下载 http www netperf org netperf DownloadNetperf html 安装 x
linux怎么终端配qt,如何在 ubuntu linux 上配置 go 语言的 qt 开发环境

go语言是开发效率极高运行速度也接近C程序的现代编程语言 xff0c qt是跨平台的优秀gui库 xff0c 二者结合起来工作表现非常优秀本文讲的有两个事情 xff0c 第一个是安装go语言的qt绑定包 xff0c 第二个是安装go语言
ftp请使用webdav_CoreELEC/kodi播放局域网电影 win下搭建webdav服务器篇1

上一篇教程说了win下如何开启smb samba 共享 xff0c 不过smb性能偏弱 xff0c 这篇文章说一下win下搭建webdav服务器的方法 xff0c webdav性能优于smb xff0c 更适合播放原盘电影以win10为例
图像去雾，利用《bringing old photos back to life》训练并修改

目录背景数据的处理模型修改模型训练后续背景 bringing old photos back to life 是一篇用于老照片修复的论文 xff0c 论文的故事讲的很好 xff0c 但是不利于读者的理解 xff0c 而且代码中的
python计算字符串相似度,字符串相似度算法-LEVENSHTEINDISTANCE算法

Levenshtein Distance 算法 xff0c 又叫 Edit Distance 算法 xff0c 是指两个字符串之间 xff0c 由一个转成另一个所需的最少编辑操作次数许可的编辑操作包括将一个字符替换成另一个字符 xff0c

python计算字符串相似度,字符串相似度算法-LEVENSHTEINDISTANCE算法

python计算字符串相似度,字符串相似度算法-LEVENSHTEINDISTANCE算法 的相关文章

随机推荐

热门标签

python计算字符串相似度,字符串相似度算法-LEVENSHTEINDISTANCE算法的相关文章