模糊文本搜索:正则表达式通配符搜索生成器?

2023-12-23

我想知道是否有某种方法可以在 PHP 中进行模糊字符串匹配。在长字符串中查找单词,即使拼写错误也能找到潜在的匹配项;如果由于 OCR 错误而偏离一个字符,它会找到它。

我在想正则表达式生成器也许能够做到这一点。因此,如果输入“crazy”,它将生成以下正则表达式:

.*((crazy)|(.+razy)|(c.+azy)|cr.+zy)|(cra.+y)|(craz.+)).*

然后,它将返回该单词或该单词的变体的所有匹配项。

如何建造发电机:我可能会将搜索字符串/单词拆分为一个字符数组,并构建正则表达式,对新创建的数组执行 foreach 操作,用“.+”替换键值(字符串中字母的位置)。

这是进行模糊文本搜索的好方法还是有更好的方法?是否可以进行某种字符串比较,根据其接近程度来给我一个分数?我正在尝试查看某些转换错误的 OCR 文本是否包含简短的单词。


当您不知道正确的单词是什么时,字符串距离函数毫无用处。我建议 pspell 函数:

$p = pspell_new("en");
print_r(pspell_suggest($p, "crazzy"));

http://www.php.net/manual/en/function.pspell-suggest.php http://www.php.net/manual/en/function.pspell-suggest.php

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

模糊文本搜索:正则表达式通配符搜索生成器? 的相关文章

  • 为什么AES java解密返回额外的字符?

    请原谅我英语不好 我使用 mcrypt 我从这里得到它用于 php 和 java 的 MCrypt https snipt net raw ee573b6957b7416f28aa560ead71c3a2 nice 在我的android应用
  • 关于加拿大短信网关提供商的建议[关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 我很好奇 如果我能够接受传入的短信到某个号码 然后将其传递给 PHP 中的服务器端应用程序 会带来多少麻烦 金钱 我最终会通过电子邮件地址发回短信 有
  • 使用 PHP 将值插入可编辑 PDF,并保持可编辑状态

    我有一个带有可编辑字段的 PDF 我希望将 HTML 表单中的值传递到此 PDF 中 我尝试过使用 FPDF 并且它有效 但是将值传递到 PDF 后 pdf 中的字段不再可编辑 另一个缺点是 在将值传递到 PDF 时 我们必须为每个字段指定
  • 如何将 PHPMailer 与 Codeigniter 3 集成

    嗨 我正在尝试使用PHPMailer 库 https github com PHPMailer PHPMailer来自我的 Codeigniter 应用程序中的 GitHub 我下载了代码并解压到我的application library文
  • 使用 php 更改白天和黑夜的背景?

    我正在制作一个 tumblr 页面 我的 html 页面有两种不同的背景 我希望白天背景从早上 7 点到晚上 8 点显示 夜间背景从晚上 8 点到早上 7 点显示 我决定用 php 来做这件事 但对于 php 来说我是个新手 我的朋友给我发
  • Composer 用于下载私有 GitHub 存储库

    我无法使用 Composer 下载 github 私人存储库 php composer phar update 我收到以下错误 The https api github com repos company private1 https ap
  • 在 Javascript 中获取第一个数字出现后的子字符串

    我正在尝试提取第一个数字之后 并包括 的字符 ABC 123SD gt 123SD 123 gt 123 123SD gt 123SD ABC gt 我当前的解决方案如下 var string1 ABC 123SD var firstDig
  • 如何将 mysql 转换为 mysqli? [复制]

    这个问题在这里已经有答案了 我厌倦了将 mysql 转换为 mysqli 但似乎收到了很多错误和警告 连接到数据库没有问题 但其余代码似乎错误 我做错了什么 sql
  • Laravel 按动态 ID 数组对集合进行排序 [重复]

    这个问题在这里已经有答案了 我有以下 people array 5 2 9 6 11 people collection People find people 但当我倾倒并死去时 people collection集合按 ID ASC 排序
  • PHP 中的 NOW() 函数

    是否有 PHP 函数以与 MySQL 函数相同的格式返回日期和时间NOW 我知道如何使用date 但我想问是否有专门用于此的功能 例如 返回 2009 12 01 00 00 00 您可以使用date https www php net m
  • PHP7构造函数类名

    我有一个 Laravel 4 2 应用程序 它可以与 PHP5 一起使用 没有任何问题 由于我安装了一个运行 PHP7 的新 vagrant box 一旦我运行一个模型 其中函数名称与类名称 关系函数 相同 就会出现错误 如下所示
  • Android GCM 服务器的 API 密钥

    我有点困惑我应该为 GCM 服务器使用哪个 API 密钥 在文档中它说使用 android api 密钥 这对我不起作用并且总是给出未经授权的 http developer android com google gcm gs html ht
  • 从正则表达式对象中提取允许字符串的最大长度

    一旦加载到 C 中 是否可以从正则表达式模式中提取允许的字符串的最大长度Regex object 如果我有一个正则表达式字符串定义为 A Z0 9 0 20 我可以使用字符串操作来获取最大允许长度20 但是 有没有一种方法可以更轻松地实现这
  • PHP中如何识别服务器IP地址

    PHP中如何识别服务器IP地址 对于服务器 ip 来说是这样的 SERVER SERVER ADDR 这是港口的 SERVER SERVER PORT
  • 使用 DOJO 自动完成文本框

    我正在寻找一种使用 DOJO 进行文本框自动建议的简单方法 我将查询的数据库表 使用 PHP 脚本 以 JSON 形式返回 有超过 100 000 条记录 因此这确实不应该采用 FilteringSelect 或 ComboBox 的形式
  • 如何在 HTML / Javascript 页面中插入 PHP 下拉列表

    好吧 这是我的第二篇文章 请接受我是一个完全的新手 愿意学习 花了很多时间在各个网站上寻找答案 而且我几乎已经到达了我需要到达的地方 至少在这一点上 我有一个网页 其中有许多 javascript 函数 这些函数一起使用 google 地图
  • ruby 正则表达式匹配模式的多次出现

    我正在寻找构建一个 ruby 正则表达式来匹配模式的多次出现并将它们返回到数组中 模式很简单 即 两个左括号 一个或多个字符 后跟两个右括号 这就是我所做的 str Some random text lead first name and
  • 如何在没有引用的情况下复制对象?

    PHP5 OOP 有据可查对象通过引用传递 http php net manual en language oop5 references php默认情况下 如果这是默认的 在我看来 有一种非默认的方式可以在没有参考的情况下进行复制 如何
  • Azure 上的“phpcomposer.phar install”出现“无法终止进程”错误

    我正在尝试将我的 Symfony 2 应用程序部署到 Microsoft Azure 网站云 为此 我按照本指南中的步骤操作http symfony com doc current cookbook deployment azure web
  • grep 两个分隔符之间的子字符串

    我有很多bash使用的脚本perl内的表达式grep为了提取两个分隔符之间的子字符串 例子 echo BeginMiddleEnd grep oP lt Begin End 问题是 当我将这些脚本移植到运行的平台时busybox 融合的 g

随机推荐

  • 是否建议将 PHP Session 存储在 MemCache 中?

    我正在使用负载均衡器后面的几个 Web 服务器 并且我可以启用粘性会话来将用户保留到一个特定的 Web 服务器 这将起作用 我一直在阅读有关 PHP Sessions MemCache 的内容 我必须说我读到的内容有点令人困惑 因为有些页面
  • 如何忽略TortoiseSVN中的目标文件夹

    如何忽略TortoiseSVN中的目标文件夹 这是一个老问题 但供进一步参考 它也可以在 TortoiseSVN gt 设置 上下文菜单选项中进行全局配置 只需将 目标 用空格分隔 添加到 全局忽略模式 设置中 然后单击 应用
  • 检查汇编语言中的空字符

    我是汇编语言新手 需要明确的是 这是家庭作业 问题给定一个char list 如何找到哪个字符是字符串的结尾 所以我有 xor ecx ecx counter loop1 mov esi list mov eax esi ecx cmp e
  • 应用CSS的顺序

    我正在研究 CSS 和 Web 开发 但遇到了一些我真的不明白的事情 header position absolute width 60 top 20 left 50 transform translateX 50 lt executed
  • 没有要加载的文件——openssl

    我正在尝试将我的 Rails 应用程序加载到新的 Linux 机器上 并且我已经完成了所需的所有安装 并且捆绑安装正在运行 现在我的问题是当我启动服务器 rails s 然后尝试打开 Web 应用程序时 它会告诉我我 没有要加载的文件 op
  • proguard 针对逆向工程的安全性如何?

    我将在应用程序中处理非常敏感的数据 根据我的定义 混淆并不会增加安全性 它只会在有限的时间内延迟破解者的攻击 Proguard 是否有可能在这方面做得如此出色 以至于可以称为增强安全性 最敏感的是一些网络调用 嗅探密码将很困难 因为我们将在
  • 为什么我应该在 pandas 中复制数据框

    当从父数据帧中选择子数据帧时 我注意到一些程序员使用 copy 方法 例如 X my dataframe features list copy 而不仅仅是 X my dataframe features list 他们为什么要复制数据框 如
  • 为什么 C++ 参数范围会影响命名空间内的函数查找?

    这对我来说似乎有点倒退 但它有效 include
  • 如何使用 termios.h 配置串行端口以传递原始字节?

    我需要通过 USB 虚拟串行设备与硬件进行通信 我所需要的只是使用正确的 UART 设置来快速地来回传递原始字节 我不想使用终端 使用 termios 的概念验证软件没有配置正确的位 并且除非我在运行之前通过 stty 输入一个神奇的配置字
  • 如何从一个 PHP 脚本调用另一个 PHP 脚本?

    我有一个运行时间为 34 秒的 PHP 脚本 但30秒后它就会死亡 我猜我的虚拟主机的时间限制为 30 秒 我正在考虑将脚本分为两部分 即 PHP 1 和 PHP 2 我可以从 PHP 1 调用 PHP 2 并杀死 PHP 1 吗 这两个脚
  • 使用语句和 Close 方法

    与数据库连接对象一起使用时 using 语句是否真的调用 close 方法 MSDN 文档 http msdn microsoft com en us library yh598w02 aspx说它确保调用 Dispose 方法 但没有提及
  • 如何序列化 numpy 数组?

    我是 django rest framework 的新手 所以如果我的问题太简单或没有多大意义 我很抱歉 我已经编写了一个科学的 python 包 并希望通过 API 提供它 为此 我使用 django Rest 框架 从高层次的角度来看
  • 正则表达式:没有/包含模式

    我有一个正则表达式模式来匹配 HTML 脚本标记 如何更改此脚本标记模式 以便该模式意味着 输入字符串与脚本标记模式不匹配 换句话说 给定一个模式 需要进行哪些更改才能将模式的含义更改为 与此模式不匹配 例如 如果我有一个模式 d 3 d
  • 任务管理器丢失/被杀死[关闭]

    Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案 当我尝试在独立集群中运行 flink 作业时 出现以下错误 java lang Exception TaskManager was lost
  • f1-micro VM 机器类型是永久免费的吗?

    当我尝试创建 f1 micro 包时 月费下方会显示以下消息 本月您可以免费使用 f1 micro 实例的前 720 小时 现在是11月 还有30天 720除以30就是24小时 看来f1 micro 套餐是整个月免费的 我尝试在网上查找一些
  • PowerShell:使用 Invoke-Command 执行命令时出错?

    我试图在远程服务器上执行以下语句 Invoke Command ComputerName server1 ScriptBlock Get Process 但我收到一条错误消息 server1 Connecting to remote ser
  • GitLab 页面可以用于审查 mkdocs 项目上的应用程序吗?

    这个答案 https stackoverflow com a 58402821 342327 by joki https stackoverflow com users 4618482 joki to a 上一个问题 https stack
  • C 语言 Fizzbuzz 程序

    好吧 这确实不是一个杂乱的问题 而是一个 C 问题 我用 C 编写了一些简单的代码 用于根据需要打印出 fizzbuzz include
  • 使用引导卡作为超链接

    我有一张引导卡 用作链接 试图用它来包裹它 a 更改卡片的所有样式 div class card style width 15rem display inline block img class card img top src https
  • 模糊文本搜索:正则表达式通配符搜索生成器?

    我想知道是否有某种方法可以在 PHP 中进行模糊字符串匹配 在长字符串中查找单词 即使拼写错误也能找到潜在的匹配项 如果由于 OCR 错误而偏离一个字符 它会找到它 我在想正则表达式生成器也许能够做到这一点 因此 如果输入 crazy 它将