python中接受所有泰文字符和英文字母的正则表达式

2023-11-25

我需要对泰语文本文档进行矢量化（例如 Bag of Words、doc2vec）。

首先，我想检查每个文档，省略除泰语字符和英语单词之外的所有内容（例如，没有标点符号，没有数字，除了撇号之外没有其他特殊字符）。

对于英文文档，我使用这个正则表达式：[^a-zA-Z' ]|^'|'$|''

对于泰语文档，我找不到正确的正则表达式来使用。我知道泰语的 Unicode 块是 u0E00–u0E7F。我试过[^ก-๛a-zA-Z' ]|^'|'$|''以及许多其他组合，但他们都没有成功。

例如：我想

“ทรูวิชั่นส์ประกาศถ่ายทอดสดศึกฟุตบอลพรีเมี ยร์ ลีก อังกฤษ ครบทุกนัดเป็นเวลา 3 ปี ตั้งแต่ฤดู 2016/2017 - 2018/2019 年 5 月 5 日, กัลโช เซเรีย เอ อิตาลี และลีกเอิ งฝรั่งเศสภายใต้แพ็กเกจสุดคุ้มทั้งผ่ามืนอถ ือ และโทรทัศน์一些，英语单词在这里！abc123”

to be:

“ทรูวิชั่นส์ประกาศถ่ายทอดสดศึกฟุตบอลพรีเมี ยร์ลีกอังกฤษครบทุกนัดเป็นเวลาปีตั้งแต่ฤดูก พร้อมด้วยอีกลีกดังอาทิลาลีกาสเป,กัลโชเซ เรียเออิตาลีและลีกเอิงฝรั่งเศสภายใต้แพ็กเ กจสุดคุ้ม ทั้งผ่านมือถือและโทรทัศน์这里有一些英语单词abc”

我将使用一些列表来完成我需要的操作。

首先，让我们创建模式：

pattern = re.compile(r"[^\u0E00-\u0E7Fa-zA-Z' ]|^'|'$|''")

我将使用一个名为test_string，包含您的示例：

test_string="ทรูวิชั่นส์ ประกาศถ่ายทอดสดศึกฟุตบอล พรีเมียร์ ลีก อังกฤษ ครบทุกนัดเป็นเวลา 3 ปี ตั้งแต่ฤดูกาล 2016/2017 - 2018/2019 พร้อมด้วยอีก 5 ลีกดัง อาทิ ลา ลีกา สเปน, กัลโช เซเรีย เอ อิตาลี และลีกเอิง ฝรั่งเศส ภายใต้แพ็กเกจสุดคุ้ม ทั้งผ่านมือถือ และโทรทัศน์ some, English words here! abc123"

首先，让我们在列表中获取要删除的字符：

char_to_remove = re.findall(pattern, test_string)

然后，让我们创建一个由原始字符串中的字符组成的列表，不包含这些字符：

list_with_char_removed = [char for char in test_string if not char in char_to_remove]

我们将此列表转换为字符串，就完成了。

result_string = ''.join(list_with_char_removed)

结果是：

'ทรูวิชั่นส์ ประกาศถ่ายทอดสดศึกฟุตบอล พรีเมียร์ ลีก อังกฤษ ครบทุกนัดเป็นเวลา ปี ตั้งแต่ฤดูกาล พร้อมด้วยอีก ลีกดัง อาทิ ลา ลีกา สเปน กัลโช เซเรีย เอ อิตาลี และลีกเอิง ฝรั่งเศส ภายใต้แพ็กเกจสุดคุ้ม ทั้งผ่านมือถือ และโทรทัศน์ some English words here abc'

如果您有更干净的方法来执行任何步骤/有任何问题，请不要犹豫！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python中接受所有泰文字符和英文字母的正则表达式的相关文章

如何测试使用 XCom 的 Apache Airflow 任务

我正在尝试找出一种测试 DAG 的方法其中有几个任务使用 XCom 进行通信由于控制台命令只允许我从 DAG 运行任务有没有一种方法可以测试通信而无需通过 UI 运行 DAG Thanks 这是一种对我有用的方法尽管 Airflow
重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
Flask 中的 import 和 extends 有什么区别？

我正在阅读 Flask Web 开发在例4 3中 extends base html import bootstrap wtf html as wtf 我想知道 extends 和 import 有什么区别我认为它们在用法上很相似在什
如何仅替换多个文件中记事本++中的第一个文本实例？

我正在努力更新一个网站并进行一些更改并且我已经成功使用标准查找和替换搜索对多个文件进行了大部分更改我的 f r 中只留下一个错误需要修复但它在整个文档中出现了几次我只想替换第一个实例这是唯一一次错误 div class boxb
使用 3d 对象作为 3d 散点图中的标记 - Python

使用下面的代码我尝试模拟一个用罐头制成的碗我希望每个标记都是一个罐头最好的方法是什么我真的很感激任何建议谢谢 import pylab import numpy as np from math import pi sin cos
如何为 Python 中的应用程序设置专用屏幕区域？

MS OneNote 就是一个很好的例子它可以选择固定在屏幕的一侧并将所有其他窗口推到一侧当最大化或调整其他窗口大小时它们只能扩展到 OneNote 的边缘 Python 使用 Tkinter 或其他模块是否具有此功能感谢您的帮助
pandas to_sql sqlalchemy 与 secure_transport 的连接

我正在尝试将数据发送到具有 require secure transport ON 的服务器上的 mysql 数据库当我尝试使用以下代码连接到它时 import pandas as pd import pymysql from sqlal
Python，多线程，获取网页，下载网页

我想在一个站点批量下载网页我的 urls txt 文件中有 5000000 个 url 链接大约有300M 如何让多线程链接这些网址并下载这些网页或者如何批量下载这些网页我的想法 with open urls txt r as f
如何在 Pytorch 中将一维 IntTensor 转换为 int

如何将一维 IntTensor 转换为整数这 IntTensor int 给出错误 KeyError Variable containing 423 torch IntTensor of size 1 我所知道的最简单最干净的方法 In
如何在数据框中绘制包含三列的无向图，形成 3 种不同类型的节点（三方）？

我正在尝试使用三个不同的列表绘制网络的可视化这三个列表形成 3 种类型的节点下面的代码正在运行如图所示需要两个列表用户 ID 评分但是我希望我的图表是三部分的即 user userId review ratings prod
使用 statsmodels.formula.api 中的 ols - 如何删除常数项？

我正在遵循第一个例子statsmodels教程 http statsmodels sourceforge net devel http statsmodels sourceforge net devel 如何指定在 ols 中不使用常数项进
转换MAC地址格式

我刚刚编写了一个小脚本从交换机中提取数百个 MAC 地址进行比较但它们的格式为 0025 9073 3014 而不是标准的 00 25 90 73 30 14 我对如何转换它感到困惑我能想到的最好的办法就是在处将它们分解成碎片然后
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p
使正则表达式以惰性方式匹配，同时跳过一些单词

我想要正则表达式其中包括跳过一些单词以惰性方式匹配例如正则表达式 all s S 0 10 s Damages amount s S 0 10 s in s excess s of 示例文本第 8 1 a 条规定的所有此类损害超出免
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
如何配置 Eclipse 在使用 Pydev 插件选择“运行”或“调试”时启动浏览器

我正在使用 Eclipse Pydev 插件学习 Python 和 Django 当我按运行或调试时我希望内部或外部浏览器使用 URL http 127 0 0 1 启动或刷新我见过用 PHP 插件完成的但没有用 Pydev
Excel VBA 自动过滤子字符串

我的 Excel 中有多行其中 D 列为 TDM 02 Bundle Rehoming 5 NE TDM 02 Bundle Rehoming 23 NE IP 02 Bundle Rehoming 7 NE 等请注意大多数情况下 N
在至少 7 天内连续三天登录该产品的用户

我有一个用于用户参与的数据框 df 如下所示 time stamp user id 2013 01 01 10 05 23 1 2013 01 03 16 35 23 1 2013 01 06 11 06 35 1 2013 01 10 1
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中

随机推荐

迭代大小为 k 的不同子集

我有一个由 n 个整数组成的数组不一定不同我想迭代大小为 k 的所有子集但是我想排除所有重复的子集 e g array 1 2 2 3 3 3 3 n 7 k 2 那么我想要迭代的子集每次是 1 2 1 3 2 2 2 3 3 3
在一个jar中创建多个Lambda函数（Java）是否可行

我是 AWS Lambda 的新手我正在使用 AWS Eclipse 插件来开发 Lambda 函数问题是否可以对所有不同的 Lambda 函数使用单个 jar 在这个 jar 文件中我可以拥有不同 Lambda 函数的类否则我
基于 TLS 的 Java 邮件

我正在尝试通过 TLS 连接从我的程序发送电子邮件这是我的代码 final String username XXXXXX final String password XXXXX Properties props new Propertie
如何在 java swing 应用程序中暂停/睡眠/等待？

我正在使用 JLabel 创建动画 public void updateLabels label setIcon new ImageIcon new Paint getScaledImage paint currentIndexLabel
在 WPF 中显示图像而不保持文件打开

我正在 WPF 中开发一个图像管理应用程序它显示许多图像并允许用户在文件系统中移动它们我遇到的问题是显示带有
为什么 pyspark 中没有数据帧的映射函数，而 Spark 等效项却有它？

目前正在研究 PySpark 没有地图功能DataFrame 并且必须去RDD for map功能在Scala中有一个map on DataFrame 这有什么原因吗 Dataset map不属于DataFrame Dataset Row
QTextEdit 中的可点击超链接

我想用QTextEdit 在只读模式下显示可点击的超链接我曾经这样做过 QTextEdit textEdit new QTextEdit QTextCursor cursor textEdit gt document textEdit
Android AppCompat 修订版 21 强制 Holo 主题

在我的项目中我使用的是 appcompat v7 修订版 20 并且我的项目针对 android API 级别 19 KitKat 因此我可以使用 Holo 主题我不小心将 Android 支持库更新为修订版 21 因此我必须将清单中
如果内部的总工作量相同，则将一个 for 循环拆分为多个 for 循环的开销是多少？ [复制]

这个问题在这里已经有答案了拆分的开销是多少for 像这样循环 int i for i 0 i lt exchanges i some code some more code even more code 分成多个for 像这样循环 int
如何根据多个条件并使用 linq 从通用列表中删除项目

我有两个列表一个包含 url 另一个包含所有 MIME 文件扩展名我想从第一个列表中删除所有指向此类文件的 url 示例代码 List
如何制作自定义分享按钮

我一直想在我的应用程序中添加 Facebook 共享按钮但我遇到的问题是它们看起来都不同我看到类似的网站this具有定制设计的共享按钮有谁知道一个好的教程或者有任何关于如何解决这个问题的指示在 Facebook 上分享内容非常简单
html2canvas可以在页面中渲染svg吗？

我正在使用 html2canvas 创建包含 SVG 的 HTML 页面的屏幕截图除了元素之外一切看起来都不错我知道应该可以在 Canvas 中渲染 SVG PhantomJS fabric js 和 CanVG 可以做到这一点这
如何调整文本（字体）大小以适合 UISegmentedControl 的 UISegment？

有什么方法可以减小可以适合单段的字体大小UISegmentedControl 尝试过很多类似的事情 UILabel appearanceWhenContainedIn UISegmentedControl class nil adjusts
文本上透明删除线

我需要实施一个使用 CSS 在文本上添加透明删除线所以我不必更换 h1 标记为 img 标签我已经设法用 CSS 在文本上实现换行但无法使其透明想要的效果我拥有的 body background url http lorempixe
OpenCV 将 Canny 边缘转换为轮廓

我有一个 OpenCV 应用程序由办公室内部的网络摄像头流很多细节提供我必须在其中找到人工标记标记是白色背景上的黑色方块我使用 Canny 查找边缘使用 cvFindContours 进行轮廓绘制然后使用 approxPol
Swift 3 中的dispatch_once 去哪儿了？

好的所以我发现了新的Swifty 调度 API在 Xcode 8 中我使用起来很有趣DispatchQueue main async 我一直在浏览DispatchXcode 中的模块来查找所有新的 API 但我也用dispatch on
如何以比使用 strip_tags 函数更安全的方式去除标签？

当字符串包含小于和大于符号时我在使用 strip tags PHP 函数时遇到一些问题例如 If I do strip tags span some text lt 5ml and then gt 10ml some text
有没有一种方法可以使用宏来检测是否包含标准标头？

我想做一个相当于boost swap在我的环境中可以或不可以包含标准标头取决于项目许可和其他内容我想让部分代码受到警卫检测器的保护让我们考虑一个编译单元项目特定的前述的潜力包括 include
如何从Python命令行接收正则表达式

我想从命令行接收像 t 制表符这样的分隔符并用它来解析文本文件如果我把 delimiter sys argv 1 在代码中然后从命令行输入 python mycode py t 分隔符是 t 即 Python 会按原样保留输入字符串
python中接受所有泰文字符和英文字母的正则表达式

我需要对泰语文本文档进行矢量化例如 Bag of Words doc2vec 首先我想检查每个文档省略除泰语字符和英语单词之外的所有内容例如没有标点符号没有数字除了撇号之外没有其他特殊字符对于英文文档我使用这个正则表达式

python中接受所有泰文字符和英文字母的正则表达式

python中接受所有泰文字符和英文字母的正则表达式 的相关文章

随机推荐

热门标签

python中接受所有泰文字符和英文字母的正则表达式的相关文章