Python 正则表达式匹配无法匹配孟加拉语句子中的特定单词

2023-12-04

这里有奇怪的小问题，我有孟加拉语（随机）句子："তিনি কবিতা প্রিয়, সুগঠিত স্বাস্থ্যের অধিকারী।"我尝试在其上运行正则表达式（使用Pythonre库）像这样：

সুগঠিত（“令牌#4”）：

re.search(r"\bসুগঠিত\b", "তিনি কবিতা প্রিয়, সুগঠিত স্বাস্থ্যের অধিকারী।") : <re.Match object; span=(19, 25), match='সুগঠিত'>

কবিতা（“令牌#2”）：

re.search(r"\bকবিতা\b", "তিনি কবিতা প্রিয়, সুগঠিত স্বাস্থ্যের অধিকারী।"): None

知道为什么会发生这种情况吗？

更新（来自下面的答案建议）：

查看孟加拉语（和其他印度语言）中使用的变音符号

如果你检查你的字符是什么কবিতা包括（我喜欢使用这项服务），您将了解到最后一个字母是 ‎U+09BE，这是一个孟加拉语元音符号AA属于Mc（标记、空格组合）Unicode类别.

Note that McUnicode 类别 chars 不属于单词 charsre正则表达式。 Pythonre \w火柴"Unicode 字母、表意文字、数字或下划线"，其中“表意文字”指的是Mn（标记、非空格）Unicode 类别 only.

最后\b正则表达式中的单词边界requires字符串的结尾，或者紧随其后的非单词字符AA元音，因为单词边界出现在非单词之后AA char.

因此，如果您需要将所有组合标记添加到单词边界中，则需要使用PyPi 正则表达式库 where 问题已解决:

'word' 字符的定义 (问题#1693050)

“单词”字符的定义已针对 Unicode 进行了扩展。它符合 Unicode 规范http://www.unicode.org/reports/tr29/.

See the Python在线演示:

import regex
print( regex.search(r"\bকবিতা\b", "তিনি কবিতা প্রিয়, সুগঠিত স্বাস্থ্যের অধিকারী।") )
# => <regex.Match object; span=(5, 10), match='কবিতা'>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 正则表达式匹配无法匹配孟加拉语句子中的特定单词的相关文章

通过另一个指标数据框评估一个数据框

我有一个源数据框input df PatientID KPI Key1 KPI Key2 KPI Key3 0 1 C602 C603 C601 NaN 1 2 C605 C606 C602 NaN 2 3 75 L239 C602 NaN
正则表达式匹配 2 个或更多单词

我有一个正则表达式尝试匹配 2 个或更多单词但它没有按预期工作我究竟做错了什么 string i dont know do you know preg match a z b 2 string match echo pre print
将 3d NumPy 数组重塑为 2d NumPy 数组时遇到问题

我正在研究图像处理问题我的数据以 3 维 NumPy 数组的形式呈现其中 x y z 条目是图像 z 的 x y 像素数值强度值有 100000 张图像每张图像为 25x25 因此数据矩阵的大小为 25x25x10000 我试图
检查时间戳列是否在另一个数据帧的日期范围内

我有一个数据框 df A 有两列 amin 和 amax 这是一组时间范围我的目标是查找 df B 中的列是否位于 df A amin 和 amax 列中范围的任何行之间 df A amin amax amin amax 0 2016 0
来自 Pandas DataFrame 的用户定义的 Json 格式

我有一个 pandas dataFrame 打印 pandas DataFrame 后结果如下所示 country branch no of employee total salary count DOB count email x a
skpy 向包含用户提及的组发送消息

我需要在发送给 Skype 群组的消息中提及特定用户我可以使用 skpy 轻松发送消息但不知道如何在消息中提及某人 sk Skype userid paasword SendMsgTo sk chats group id SendMsg
如何实现带有 ([start ,] stop [ step]) 签名的 python 方法，即左侧的默认关键字参数

由于在 python 3 X 中 build idrange 函数返回的不再是一个列表而是一个可迭代的一些旧代码在我使用时失败range 方便地生成我需要的列表所以我尝试实现我自己的lrange像这样的函数 def lrange st
ImportError：无法导入名称 GstRtspServer，未找到内省类型库

我目前正在尝试让一个简单的 GstRtspServer 程序在外部亚马逊 Linux EC2 服务器上运行但在让它实际运行时遇到了严重的问题无论我做什么当我尝试运行它时即使程序仅减少到 import gi gi require ve
忽略覆盖率报告中的空文件

覆盖率 py https github com nedbat coveragepy会包括 init py在其报告中并将其显示为 0 行但覆盖率为 100 我想从覆盖率报告中排除所有空白文件我不能只添加 init py to omit作为
使用存储的密钥作为环境变量

我有一个秘密密钥存储在 GCP 的秘密管理器中我们的想法是使用该密钥通过云功能获取预算列表现在我可以从代码中访问该密钥但我面临的问题是我需要使用该密钥设置一个环境变量这是我添加密钥的方式如果您的本地目录中有该文件但是还有其他方
Python 特征向量：numpy.linalg、scipy.linalg 和 scipy.sparse.linalg 之间的差异

Scipy 和 Numpy 具有三个不同的函数来查找给定方阵的特征向量它们是 numpy linalg eig a http docs scipy org doc numpy reference generated numpy linal
如何在 django 中发出 post 请求后获取表单的名称？
SQLAlchemy 是否会从同一连接重置 SQLAlchemy 会话之间的数据库会话？

SQLAlchemy 利用连接池这意味着相同的连接可以在不同的 SQLAlchemy 会话之间重复使用但是单个 SQLAlchemy 会话包含在其自身内并在关闭后被丢弃然而连接保持活动状态我想使用 set config 将一
我以为 Python 通过引用传递了所有内容？

采取以下代码 module functions py def foo input new val input new val module main py input 5 functions foo input 10 print input
在IPython笔记本中自动播放声音

我经常在 IPython 笔记本中运行长时间运行的单元我希望笔记本在单元完成执行时自动发出蜂鸣声或播放声音有没有办法在 iPython 笔记本中执行此操作或者我可以在单元格末尾放置一些命令来自动播放声音我正在使用 Chrome 如果
连接 Flask Socket.IO Server 和 Flutter

基本上我有一个套接字 io 烧瓶代码 import cv2 import numpy as np from flask import Flask render template from flask socketio import Soc
计算列表中的子列表

L 2 4 5 6 2 1 6 6 3 2 4 5 3 4 5 我想知道任意子序列出现了多少次 s 2 4 5 例如会返回2次 I tried L count s 但它不起作用因为我认为它期望寻找类似的东西 random numbers
将 PySpark RDD 作为新列添加到 pyspark.sql.dataframe

我有一个 pyspark sql dataframe 其中每一行都是一篇新闻文章然后我有一个 RDD 来表示每篇文章中包含的单词我想将单词的 RDD 作为名为单词的列添加到我的新文章数据框中我试过 df withColumn wo
Pepper Robot：如何将 Python 地标检测移植到 Choregraphe？

我正在尝试编写一个小程序让 Pepper 通过 Choregraphe 检查房间内的地标用于地标检测的常规 Python 代码工作得很好但我无法将其移植到 Choregraphe http doc aldebaran com 2 5
关闭 IPython Notebook 中的自动保存

我正在寻找一种方法来关闭 iPython 笔记本中的自动保存我已经通过 Google Stack Overflow 搜索看到了有关如何打开自动保存的参考资料但我想要相反的内容关闭自动保存如果这是可以永久设置的东西而不是在每个笔记本的

随机推荐

使用 Qt QNetworkAccessManager 发送 HTTP 标头信息

我有以下代码我想在调用时添加一些 HTTP 标头信息无论如何我能做到吗 void NeoAPI call QString apiCall if this gt ApiCall contains apiCall QNetworkAcces
根据响应递归组合 HTTP 结果

有一个 API https panelapp genomicsengland co uk api v1 panels page 1 我想将所有数据消耗到我的角度应用程序中问题是他们的 API 有分页我想一次检索所有内容正如您在 API
无法绘制 MKPolylineView 交叉经度 +/-180

我在 MKMapView 上绘制 MKPolylineView 时遇到问题该线路代表一次环游世界的旅行起点和终点均在纽约附近始终向东行驶从日本到旧金山的旅程的其中一段跨越太平洋因此经度为 180 MKPolylineView 确实
如何获取 WFFM 字段的值作为标签并将其输出到 Sitecore DMS 报告中？

如果我创建一个启用了分析的 Web Forms For Marketers 表单我可以选择将每个字段作为标签添加到访客我看不到如何配置应将它们添加到哪个标签甚至看不到默认情况下该标签的名称我假设创建了带有字段名称的标签我还想知道如
OmniAuth 无效响应错误

我将 OmniAuth 与 Devise 结合使用允许用户使用 Facebook 登录或使用用户名和密码创建普通帐户当我最初设置这一切时我使用了来自铁路广播两个多月以来一切都运行良好但就在前几天 Facebook 登录停止工作
如何在同一主机上运行 Angular 2 客户端应用程序和 Node 服务器应用程序

我在 Angular 2 中构建了一个应用程序来从数据库获取数据并使用 node express 从服务器获取数据并将其提供给 Angular 客户端目前它们都运行在不同的本地主机上如何将它们组合成一个项目并在同一主机上运行假设您的
Android 管理 API：企业/策略列表？

这让我抓狂我已成功遵循Android 管理 API 快速入门创建项目企业策略并将其安装在设备上我愚蠢地没有写下企业或策略 ID 我尝试创建一个新集但非企业电子邮件现在给出错误表明它已经是另一个 EMM 的一部分控制台中是否有一
Heroku SSL 错误：密钥与 PEM 证书不匹配

我正在尝试使用 Heroku 建议的说明生成自签名证书 http www akadia com services ssh test certificate html 这将创建 sever key 和 server crt 然后我尝试使用以下
隐藏 UITableViewCell

有没有办法隐藏 UITableView 单元格我正在寻找一些可以在同步 cellForRowAtIndexPath 返回的 UITableViewCell 上调用的属性或方法以隐藏它并使其无法被用户选择对我来说使用映射并不是一个简单
如何获取并解析附加到 url 中的查询字符串？ PHP

我正在尝试开发一个 PHP 类它使我能够将查询字符串附加到 url 中并根据传递的变量对其进行处理如何才能做到这一点 Eg www example com var1 a var2 b var3 c 现在我想要得到 var1 a var
在 Lyx 中使用 Knitr 时出现 R 函数错误

使用summary 函数时出现错误 Lyx 中的针织者它前面的函数可以工作 lt lt gt gt library faraway head teengamb mdl lt lm gamble sex status data teenga
如何在 Jenkins 托管的网格上使用 Chromedriver 设置 Selenium

我刚刚迈出了使用 Selenium 的第一步我成功设置了一个测试 Firefox 驱动程序在我的 Jenkins 上的 Selenium 网格上运行使用 Jenkins Selenium Grid 插件我还在运行 Jenkins 的
JavaScript sweetAlert 弹出窗口在一秒钟后自行关闭

我有一个 SweetAlert 弹出窗口但它会自动关闭通常它应该保留到用户单击确定为止我已经包含并测试了所有 SweetAlert 文件
通过 RStudio 加载 com.databricks.spark.csv

我已经安装了Spark 1 4 0 我还安装了它的 R 包 SparkR 并且可以通过 Spark shell 和 RStudio 使用它但是有一个我无法解决的差异启动 SparkR shell 时 bin sparkR master
for 循环中的 MATLAB 和元胞数组处理

我是 MATLAB 新手想从数据库中获取的元胞数组中提取数据 sensors 1 23 1 0 0 1000 1x29 char 2 23 1 120 0 1000 1x43 char 3 23 1 120 0 1000 1x42 cha
FaceBook 应用程序：检索我的应用程序用户的 ID 列表

我可以使用 fql 或 graph api 检索它吗每次用户访问您的应用程序时都可以像这样检索他的 facebook id facebook new Facebook api key secret facebook gt require
关闭时为详细信息标签设置动画

我正在为我的历史项目开发一个网站但遇到了一个问题我尝试为详细信息标签设置动画但似乎没有任何效果这是我用于打开动画的代码 keyframes open 0 opacity 0 transform translateY 1vw 100
如何在 Visual Studio 2010 中打开 IntelliSense？

我正在尝试为 aspx 文件类型启用智能感知我在文本编辑器选项中检查了自动列表成员勾选隐藏高级会员与否没有什么区别吗如何在 vs net 2010 中启用智能感知应立即为 ASP NET 启用 IntelliSense 包括 asp
Python 将图像转换为使用更少的颜色

我想拍摄一张图像并以某种方式将其读取为像素数组这意味着 2d 数组的每个元素都是表示该像素颜色的十六进制代码或 RGB 三元组我研究过图像处理发现了 Pillow 或 SciPy 之类的东西但我只发现了过于简单的东西例如添加过
Python 正则表达式匹配无法匹配孟加拉语句子中的特定单词

这里有奇怪的小问题我有孟加拉语随机句子我尝试在其上运行正则表达式使用Pythonre库像这样令牌 4 re search r b b

Python 正则表达式匹配无法匹配孟加拉语句子中的特定单词

Python 正则表达式匹配无法匹配孟加拉语句子中的特定单词 的相关文章

随机推荐

热门标签

Python 正则表达式匹配无法匹配孟加拉语句子中的特定单词的相关文章