为什么模式匹配一个单词而有两个相同的单词？

2024-03-29

请看一下这个：

如你所见，只有one匹配于regex101，但浏览器匹配two相同的单词。所以为什么regex101无法匹配第二个单词？无论如何我需要匹配这两个词（或更多，如果存在的话）.

注意到它与以下内容无关g旗帜。因为我在小提琴中使用过它。

这里是fiddle https://regex101.com/r/VWRELJ/1/

处理这样的文本对于以后的使用来说是很困难的。您必须找到每个字母的不同表示才能更改搜索词مجلس到其他类似的东西احمدی نژاد根据@Wiktor的解决方案。

这就是为什么正常化 http://php.net/manual/en/class.normalizer.php过程很方便：

规范化是一个涉及转换字符和将字符序列转换为正式定义的底层表示。当需要对文本进行处理时，此过程最为重要比较排序和搜索，但在存储时也使用它文本以确保文本以一致的表示形式存储。

我们需要首先使用以下方法规范化我们的输入字符串Normalizer::normalize() http://php.net/manual/en/normalizer.normalize.php然后，无需对正则表达式进行任何更改，我们就可以安全地运行preg_match_all超过它：

<?php

$text = <<< 'STR'
یک نماینده مجلس عنوان کرد: ﺩﺭ ﺩﻭﺭﻩ ﺍﺣﻤﺪﯼﻧﮋﺍﺩ ﻣﺮﺩﻡ ﺩﺭ
ﺭﻓﺎﻩ ﺑﻮﺩﻧﺪ !/دولت سابق تنها دولتی که پس از انقلاب به مردم خدمت کرد! ﻳﻚ
ﻧﻤﺎﯾﻨﺪﻩ ﮔﺮﻭﻩ ﭘﺎﻳﺪﺍﺭی دﺭ ﻣﺠﻠﺲ ﺷﻮﺭﺍﯼ ﺍﺳﻼﻣﯽ ﺩﺭ ﭘﺎﺳﺦ ﺑﻪ ﺳﺆﺍﻟﯽ ﺩﺭ ﻣﻮﺭﺩ
ﺑﺎﺯﮔﺸﺖ ﺍﺣﻤﺪﯼﻧﮋﺍﺩ ﺑﻪ ﻋﺮﺻﻪ ﺍﻧﺘﺨﺎﺑﺎﺕ ﺍﻇﻬﺎﺭ ﺩﺍﺷﺖ : ﻣﺎ ﺍﻣﯿﺪﻭﺍﺭﯾﻢ ﺍﯾﻦ ﺍﺗﻔﺎﻕ
ﺑﯿﻔﺘﺪ ﻭ ﺍﺣﻤﺪﯼﻧﮋﺍﺩ ﺑﺮﺍﯼ ﺷﺮﮐﺖ ﺩﺭ ﺍﻧﺘﺨﺎﺑﺎﺕ ﺣﺎﺿﺮ ﺷﻮﺩ چرا که دولت وی تنها
دولتی است که پس از انقلاب به مردم خدمت کرده است.
STR;


$normalizedText = normalizer_normalize( $text , Normalizer::NFKC );
preg_match_all('~مجلس~', $normalizedText, $matches);

print_r($matches);

Outputs:

Array
(
    [0] => Array
        (
            [0] => مجلس
            [1] => مجلس
        )

)

注意：需要php_intl.dll要启用的扩展。

现场演示 https://3v4l.org/1fgDA

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

php

regex

为什么模式匹配一个单词而有两个相同的单词？的相关文章

如何在 Laravel 中基于 application/json 标头加载路由

我正在使用application json标头来控制我的控制器在收到请求时的行为我需要在单元测试中的 POST 中包含application json header 我试过了 public function testStore this
如何获取 $node 内的 html 而不仅仅是 $nodeValue [重复]

这个问题在这里已经有答案了目前情况描述我有一个装满页面的文件夹页面文件夹该文件夹内的每个页面除其他外都有一个 div id short info 我有一个代码可以提取所有 div div 从该文件夹中并使用显示其中的文本text
Laravel 转义 Blade 模板中的所有 HTML

我正在 Laravel 中构建一个小型 CMS 并尝试显示内容存储在数据库中它显示 HTML 标签而不是执行它们就像所有打印数据都有一个自动 html entity decode 一样
需要使用 imap php 保存电子邮件副本，然后可以在 Outlook Express 中打开

我有 IMAP PHP 脚本它连接并读取邮箱中的电子邮件我正在寻找的是我想将电子邮件保存在服务器磁盘上并将其命名为 testing eml 文件因此当我稍后记下这些电子邮件时可以在 Outlook Express 中查看任何
在 php 中将单词转换为数字 II

这里有一个很棒的功能在 PHP 中将单词转换为数字 https stackoverflow com questions 1077600 converting words to numbers in php来自埃尔约博但我有一个问题字符串
将数组数据从 html 表单传递到 php 数组变量

我有一张表格来记录一组项目的工作时间该表单使用项目 ID 小时数和注释字段的数组表单行是项目数量的循环该表单将数据传递给 PHP 脚本进行处理 PHP 脚本没有看到数组中的值它只是给我 Array 作为输出文档和其他示例让我想知道
Google 应用程序引擎 - 上传的文件在谷歌云存储上不公开

我有一个允许用户上传图像的应用程序并且我希望其他用户能够看到该图像我使用 CloudStorageTools createUploadUrl 方法允许用户通过 POST 上传然后我将上传的文件并使用 move uploaded fi
Symfony 3新建项目报错

我开始编写有关 Symfony 3 的教程在使用以下命令创建新项目时遇到问题 php symfony phar new Symfony 我有这个错误 GuzzleHttp Exception RequestException Error
如何修复 Nginx 自动 301 重定向到带有尾部斜杠的相同 URL？

当我尝试将 Web 应用程序的子目录中的索引文件访问到相同的 URL 但附加了斜杠时 Nginx 出现了不良行为它正在重新路由请求我有一个简单的 Web 应用程序其中设置了一个根目录和其中的许多子目录每个子目录中都有一个 inde
php 中的 stackoverflow 上有这样的成就系统吗？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案从概念上讲如何使用 PHP 和 MySQL 为网站编写一个成就系统唯一真正的方法是不断执行 MySQL 查询来测试成绩等吗您有两
使用 .htaccess 重定向到动态相对路径？

是否可以使 htaccess 理解动态相对路径并正确重定向到它们我的设置如下 http domain com htroot aaa xyz http domain com htroot bbb xyz http domain com h
下拉 24 小时选项值和 12 小时显示

我需要创建一个时间数组以便在 HTML 下拉列表中使用数组键应采用 24 小时格式值应采用 12 小时制包含 am 和 pm 在数据库中我想存储 24 小时格式有没有一种快速的方法来创建数组而不是每小时键入 example 00
Woocommerce 获取产品

我使用以下代码从我的 WordPress 网站中的 WooCommerce 获取产品类别列表
如果一个多维数组中的子数组与另一个多维数组不同，则覆盖该子数组

我坚持这个问题真的不知道如何解决我有两个多维数组需要将第二个数组中的每个 entry id 与第一个数组进行匹配然后需要检查第二个数组中的每个 file no 是否在数据库第一个数组中并且 status 是否与第一个数组匹配
无需 cron 在后台发送邮件

我想知道是否有一种方法可以运行 PHP 循环以便在后台向订阅者发送几百封电子邮件我的目标是格式化新闻通讯单击发送然后关闭浏览器或更改页面当然发送电子邮件的实际过程将在后台运行不会因浏览器关闭而中断我知道这可以通过 cron
具有挑战性的问题 - 使用 PHP 对 XML 数据进行排序

我有 xml 文件其中包含大量产品数据我需要根据我的字段 ProductRange 的数据对我的产品进行排序 ProductRange urldecode GET Range XML 文件数据
PHP strtotime() 未返回正确的月份

由于当前月份年份是 2012 年 1 月为什么以下代码返回 2011 年 12 月而不是 2011 年 11 月 echo date F Y strtotime 2 months 如果有影响的话这是在 PHP 5 3 0 上要获得您
从远程托管上的 PHP 获取 PHP 错误日志

是否有 PHP 函数或其他方式以字符串形式获取 PHP 错误日志我需要这个因为我无法访问在其他人的服务器上运行的站点的错误日志他提出通过电子邮件将错误日志发送给我但这不太方便有什么方法可以将错误日志输出到 PHP 页面吗我意识到
如何使用 PHP 查找字符串中字符的序列模式？

假设我有随机的文本块 EAMoAAQAABwEBAAAAAAAAAAAAAAABAgMFBgcIBAkBAQABBQEBAAAAAAAAAAAAAAAGAgMEBQcBCBAAAQMDAgMEBQcIBQgGCwEAAQACAxEEBSEG
Angular 2：使用正则表达式进行数字验证

我正在尝试验证 IE 11 中的数字字段

随机推荐

为什么数组的类型推导优先考虑指向第一个的指针而不是对数组的引用？

int v 1 auto p1 v auto p2 v auto p3 v p1属于类型int 同样适用于p3 特别是在这个微不足道的样本中我发现p2 int 1 更有用因为它固有的数组语义例如我可以申请sizeof on p2给予与
Eclipse Google -App -Engine“不会增强”

第一次日食无法摆脱这个错误已经尝试了谷歌上所有建议的修复方法持久类 com blahb blahblah master UserToken 类似乎没有得到增强您可能需要重新运行增强器并检查输出中的错误数据库中没有表但操作需要它
如何在引导日期选择器中更改日期格式（dd-mmm-yyyy）

Script Textbox
导出导入的模块

我有两个 javascript 模块如下所示 inner mod js export function myFunc mod js import as inner from inner mod 我想出口myFunc from mod js
Typescript 用循环动态创建数组

我正在创建一个模拟类用于为我的 Angular2 TypeScript 项目生成示例数据我仍然是编程初学者并且对有关 TypeScript 的可用信息感到困惑我的问题我想创建 100 个项目并将它们保存在一个数组中这 100 个
如何创建表单类的新实例，然后将其作为 acDialog 框打开（暂停其他代码）？

Problem 我有一个复杂的搜索表单需要多次同时打开以允许用户同时进行多个搜索我发现可以使用以下命令打开表单的实例因为它是一个类 Option Compare Database Option Explicit Array to
Plotly R - 错误“`line.width`当前不支持多个值。”

当我运行以下命令时 interactive plot lt plot ly data vep wes aff rare summary x n y mean af type scatter mode markers hoverinfo te
为什么 Android 不使用更多的枚举？

我开始非常喜欢在代码中使用 C 和 Java 枚举原因如下它们比整数字符串或布尔标志集更加类型安全它们会产生更具可读性的代码将枚举设置为无效值比 int 或字符串更困难它们可以轻松发现变量或参数的允许值我读到的所有内容都表明它
分支/更改未合并，尽管 Gerrit 声称，它是

每次我都看到merged关于我在 Gerrit 中的变化的状态我确实git pull origin 我可以清楚地看到我的更改分支实际上尚未合并到 master 中请检查我的 Gerrit 工作流程并告诉我我做错了什么或缺少什么在
用于清除 Git Bash 屏幕（包括输出缓冲区）的命令

Git 中是否有任何命令可以清除屏幕例如在window命令行中执行了很多代码后如果输入cls 那么它会清除之前的所有代码所以我想要 Git 中相同类型的功能所以任何人都可以告诉我命令名称实际上你正在寻找一个Unix用户环境命令 c
Firefox 中 Window.getCompulatedStyle 未实现接口 Element 错误

我想将一些数据附加到 HTML 元素因此我使用了以下代码 bookListDiv append data HTMLString 一切都正常但是我想在显示此元素时添加淡入动画因此我将其修改为 data HTMLString hide a
是否可以对任何文本分类应用 PCA？

我正在尝试用 python 进行分类我正在对网页使用朴素贝叶斯多项式NB分类器将数据从网络检索到文本稍后我对此文本进行分类网络分类现在我尝试对这些数据应用 PCA 但 python 给出了一些错误我的朴素贝叶斯分类代码 fro
Spark 选择 RDD 中的最高值

原始数据集是 numbersofrating title avg rating newRDD 3 monster 4 4 minions 3D 5 我想在newRDD中选择前N个avg ratings 我使用以下代码它有一个错误 sele
模拟对象返回带有 Moq 的模拟列表

我正在尝试测试以下代码 public void CleanUp List
直接读取程序计数器

Intel CPU 上的程序计数器可以在内核模式或其他模式下直接读取即没有技巧吗不 EIP IP 无法直接访问但在位置相关代码中它是链接时间常量因此您可以使用附近或远处的符号作为立即数 mov eax nearby lab
使用python(windows)创建两个子进程

使用Python编程语言完成以下任务创建两个进程我们称之为 P1 和 P2 P1应该打印我是P1 P2应该打印我是P2 主进程创建 P1 和 P2 的进程应该等待它们然后 P1和P2完成后主进程应该打印我是主进程两个进程
在特定行之后添加行

我正在尝试将特定行添加到文件中的特定区域我正在使用这个 new file open file txt r for line in new file if line Include below line line nIncluded tex
Find() 与Where().FirstOrDefault()

我经常看到人们使用Where FirstOrDefault 进行搜索并获取第一个元素为什么不直接使用Find 对方有优势吗我看不出有什么不同 namespace LinqFindVsWhere class Program static
使用正则表达式修剪电话号码

可能是一个简单的正则表达式问题如何从电话号码中删除除前导之外的所有非数字 i e 012 3456 gt 0123456 1 234 56789 gt 123456789
为什么模式匹配一个单词而有两个相同的单词？

请看一下这个如你所见只有one匹配于regex101 但浏览器匹配two相同的单词所以为什么regex101无法匹配第二个单词无论如何我需要匹配这两个词或更多如果存在的话注意到它与以下内容无关g旗帜因为我在小提琴中使用过它

为什么模式匹配一​​个单词而有两个相同的单词？

为什么模式匹配一​​个单词而有两个相同的单词？ 的相关文章

随机推荐

热门标签

为什么模式匹配一个单词而有两个相同的单词？

为什么模式匹配一个单词而有两个相同的单词？的相关文章