Python 正则表达式匹配无法匹配孟加拉语句子中的特定单词

2023-12-04

这里有奇怪的小问题, 我有孟加拉语(随机)句子:"তিনি কবিতা প্রিয়, সুগঠিত স্বাস্থ্যের অধিকারী।"我尝试在其上运行正则表达式(使用Pythonre库)像这样:

  • সুগঠিত(“令牌#4”):
re.search(r"\bসুগঠিত\b", "তিনি কবিতা প্রিয়, সুগঠিত স্বাস্থ্যের অধিকারী।") : <re.Match object; span=(19, 25), match='সুগঠিত'>
  • কবিতা(“令牌#2”):
re.search(r"\bকবিতা\b", "তিনি কবিতা প্রিয়, সুগঠিত স্বাস্থ্যের অধিকারী।"): None

知道为什么会发生这种情况吗?

更新(来自下面的答案建议):

  • 查看孟加拉语(和其他印度语言)中使用的变音符号

如果你检查你的字符是什么কবিতা包括(我喜欢使用这项服务),您将了解到最后一个字母是 ‎U+09BE, 这是一个孟加拉语元音符号AA属于Mc(标记、空格组合)Unicode类别.

Note that McUnicode 类别 chars 不属于单词 charsre正则表达式。 Pythonre \w火柴"Unicode 字母、表意文字、数字或下划线",其中“表意文字”指的是Mn(标记、非空格)Unicode 类别 only.

最后\b正则表达式中的单词边界requires字符串的结尾,或者紧随其后的非单词字符AA元音,因为单词边界出现在非单词之后AA char.

因此,如果您需要将所有组合标记添加到单词边界中,则需要使用PyPi 正则表达式库 where 问题已解决:

'word' 字符的定义 (问题#1693050)

“单词”字符的定义已针对 Unicode 进行了扩展。它符合 Unicode 规范http://www.unicode.org/reports/tr29/.

See the Python在线演示:

import regex
print( regex.search(r"\bকবিতা\b", "তিনি কবিতা প্রিয়, সুগঠিত স্বাস্থ্যের অধিকারী।") )
# => <regex.Match object; span=(5, 10), match='কবিতা'>
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python 正则表达式匹配无法匹配孟加拉语句子中的特定单词 的相关文章

随机推荐

  • 使用 Qt QNetworkAccessManager 发送 HTTP 标头信息

    我有以下代码 我想在调用时添加一些 HTTP 标头信息 无论如何我能做到吗 void NeoAPI call QString apiCall if this gt ApiCall contains apiCall QNetworkAcces
  • 根据响应递归组合 HTTP 结果

    有一个 API https panelapp genomicsengland co uk api v1 panels page 1 我想将所有数据消耗到我的角度应用程序中 问题是他们的 API 有分页 我想一次检索所有内容 正如您在 API
  • 无法绘制 MKPolylineView 交叉经度 +/-180

    我在 MKMapView 上绘制 MKPolylineView 时遇到问题 该线路代表一次环游世界的旅行 起点和终点均在纽约附近 始终向东行驶 从日本到旧金山的旅程的其中一段跨越太平洋 因此经度为 180 MKPolylineView 确实
  • 如何获取 WFFM 字段的值作为标签并将其输出到 Sitecore DMS 报告中?

    如果我创建一个启用了分析的 Web Forms For Marketers 表单 我可以选择将每个字段作为标签添加到访客 我看不到如何配置应将它们添加到哪个标签 甚至看不到默认情况下该标签的名称 我假设创建了带有字段名称的标签 我还想知道如
  • OmniAuth 无效响应错误

    我将 OmniAuth 与 Devise 结合使用 允许用户使用 Facebook 登录或使用用户名和密码创建普通帐户 当我最初设置这一切时 我使用了来自铁路广播 两个多月以来 一切都运行良好 但就在前几天 Facebook 登录停止工作
  • 如何在同一主机上运行 Angular 2 客户端应用程序和 Node 服务器应用程序

    我在 Angular 2 中构建了一个应用程序来从数据库获取数据 并使用 node express 从服务器获取数据并将其提供给 Angular 客户端 目前它们都运行在不同的本地主机上 如何将它们组合成一个项目并在同一主机上运行 假设您的
  • Android 管理 API:企业/策略列表?

    这让我抓狂 我已成功遵循Android 管理 API 快速入门创建项目 企业 策略并将其安装在设备上 我愚蠢地没有写下企业或策略 ID 我尝试创建一个新集 但非企业电子邮件现在给出错误 表明它已经是另一个 EMM 的一部分 控制台中是否有一
  • Heroku SSL 错误:密钥与 PEM 证书不匹配

    我正在尝试使用 Heroku 建议的说明生成自签名证书 http www akadia com services ssh test certificate html 这将创建 sever key 和 server crt 然后我尝试使用以下
  • 隐藏 UITableViewCell

    有没有办法隐藏 UITableView 单元格 我正在寻找一些可以在同步 cellForRowAtIndexPath 返回的 UITableViewCell 上调用的属性或方法 以隐藏它并使其无法被用户选择 对我来说 使用映射并不是一个简单
  • 如何获取并解析附加到 url 中的查询字符串? PHP

    我正在尝试开发一个 PHP 类 它使我能够将查询字符串附加到 url 中 并根据传递的变量对其进行处理 如何才能做到这一点 Eg www example com var1 a var2 b var3 c 现在我想要得到 var1 a var
  • 在 Lyx 中使用 Knitr 时出现 R 函数错误

    使用summary 函数时出现错误 Lyx 中的针织者 它前面的函数可以工作 lt lt gt gt library faraway head teengamb mdl lt lm gamble sex status data teenga
  • 如何在 Jenkins 托管的网格上使用 Chromedriver 设置 Selenium

    我刚刚迈出了使用 Selenium 的第一步 我成功设置了一个测试 Firefox 驱动程序 在我的 Jenkins 上的 Selenium 网格上运行 使用 Jenkins Selenium Grid 插件 我还在运行 Jenkins 的
  • JavaScript sweetAlert 弹出窗口在一秒钟后自行关闭

    我有一个 SweetAlert 弹出窗口 但它会自动关闭 通常它应该保留到用户单击 确定 为止 我已经包含并测试了所有 SweetAlert 文件
  • 通过 RStudio 加载 com.databricks.spark.csv

    我已经安装了Spark 1 4 0 我还安装了它的 R 包 SparkR 并且可以通过 Spark shell 和 RStudio 使用它 但是 有一个我无法解决的差异 启动 SparkR shell 时 bin sparkR master
  • for 循环中的 MATLAB 和元胞数组处理

    我是 MATLAB 新手 想从数据库中获取的元胞数组中提取数据 sensors 1 23 1 0 0 1000 1x29 char 2 23 1 120 0 1000 1x43 char 3 23 1 120 0 1000 1x42 cha
  • FaceBook 应用程序:检索我的应用程序用户的 ID 列表

    我可以使用 fql 或 graph api 检索它吗 每次用户访问您的应用程序时 都可以像这样检索他的 facebook id facebook new Facebook api key secret facebook gt require
  • 关闭时为详细信息标签设置动画

    我正在为我的历史项目开发一个网站 但遇到了一个问题 我尝试为详细信息标签设置动画 但似乎没有任何效果 这是我用于打开动画的代码 keyframes open 0 opacity 0 transform translateY 1vw 100
  • 如何在 Visual Studio 2010 中打开 IntelliSense?

    我正在尝试为 aspx 文件类型启用智能感知 我在文本编辑器选项中检查了自动列表成员 勾选隐藏高级会员与否没有什么区别吗 如何在 vs net 2010 中启用智能感知 应立即为 ASP NET 启用 IntelliSense 包括 asp
  • Python 将图像转换为使用更少的颜色

    我想拍摄一张图像并 以某种方式 将其读取为像素数组 这意味着 2d 数组的每个元素都是表示该像素颜色的十六进制代码或 RGB 三元组 我研究过图像处理 发现了 Pillow 或 SciPy 之类的东西 但我只发现了过于简单的东西 例如添加过
  • Python 正则表达式匹配无法匹配孟加拉语句子中的特定单词

    这里有奇怪的小问题 我有孟加拉语 随机 句子 我尝试在其上运行正则表达式 使用Pythonre库 像这样 令牌 4 re search r b b