如何从文本中删除除文字和表情符号之外的所有内容？

2024-03-20

作为文本分类问题的一部分，我正在尝试清理文本数据集。到目前为止，我删除了除文本之外的所有内容。标点符号、数字、表情符号——一切都被删除了。现在我尝试使用表情符号作为特征，因此我想保留单词和表情符号。

首先，我在文本中搜索表情符号，并将它们与其他单词/表情符号分开。这是因为每个表情符号都应该单独处理。因此，我搜索了一个表情符号，并在其两端填充了空格。

但我在弄清楚如何结合已知的单词和表情符号正则表达式时不知所措。这是我当前的代码：

import re

def clean_text(raw_text):

    padded_emoji_text = pad_emojis(raw_text)
    print("Emoji padded text: " + padded_emoji_text)

    reg = re.compile("[^a-zA-Z]") # line a

    # old regex to remove everything except words  
    letters_only_text = reg.sub(' ', raw_text)
    print("Cleaned text: " + letters_only_text)

    # Code to remove everything except text and emojis
    # How?

def pad_emojis(raw_text):

    print("Original Text: " + raw_text)

    reg = re.compile(u'['
      u'\U0001F300-\U0001F64F'
      u'\U0001F680-\U0001F6FF'
      u'\u2600-\u26FF\u2700-\u27BF]', 
      re.UNICODE)

    #padding the emoji with space at both ends
    new_text = reg.sub(r' \g<0> ',raw_text) 

    return new_text

text = "I am very #happy man! but???????? my wife???? is not ????????. 99/33"
clean_text(text)

当前操作数：

Original Text: I am very #happy man! but???????? my wife???? is not ????????. 99/33
Emoji padded text: I am very #happy man! but ????  ????  my wife ????  is not  ????  ???? . 99/33
Cleaned text: I am very  happy man  but   my wife  is not

我想要实现的目标：

I am very happy man but ????  ????  my wife ????  is not  ????  ????

问题：

1）如何将表情符号正则表达式与单词正则表达式一起添加到正则表达式编译中？（a行）

2）我还可以以更好的方式实现我所寻求的目标，即不必编写单独的函数来分隔表情符号并用空格填充它们？我不知何故觉得这是可以避免的。

您可以使用单个正则表达式和 lambda 表达式将这两个步骤合二为一。re.sub像这样：

import re

emoji_pat = '[\U0001F300-\U0001F64F\U0001F680-\U0001F6FF\u2600-\u26FF\u2700-\u27BF]'
shrink_whitespace_reg = re.compile(r'\s{2,}')

def clean_text(raw_text):
    reg = re.compile(r'({})|[^a-zA-Z]'.format(emoji_pat)) # line a
    result = reg.sub(lambda x: ' {} '.format(x.group(1)) if x.group(1) else ' ', raw_text)
    return shrink_whitespace_reg.sub(' ', result)

text = 'I am very #happy man! but???????? my wife???? is not ????????. 99/33'
print('Cleaned text: ' + clean_text(text))
# => Cleaned text: I am very happy man but ???? ???? my wife ???? is not ???? ????

See the Python演示 http://rextester.com/NUXRXK82511

解释:

第一个正则表达式看起来像([\U0001F300-\U0001F64F\U0001F680-\U0001F6FF\u2600-\u26FF\u2700-\u27BF])|[^A-Za-z]并将匹配并捕获将表情符号放入第 1 组中，或者仅匹配 ASCII 字母以外的任何字符。如果表情符号被捕获（请参阅if x.group(1)在 lambda 内），表情符号将被返回，两侧带有空格，否则，空格将用于替换非字母
The \s{2,}模式将匹配 2 个或多个空格并且shrink_whitespace_reg.sub(' ', result)将用一个空格替换所有这些块。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

string

replace

emoji

如何从文本中删除除文字和表情符号之外的所有内容？的相关文章

在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
如何在 R 中将字符串解析为层次结构或树

有没有办法将表示组的字符串解析为 R 中的层次结构假设我的小组结构如下 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 3 1 1 3 1 1 1 3 2 1 1 3 3 1 2 1 2 1 1 2 1 1 1 2 1 2 1
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
Alembic：如何迁移模型中的自定义类型？

My User模型是 class User UserMixin db Model tablename users noinspection PyShadowingBuiltins uuid Column uuid GUID default
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
使用 Conda 更新特定模块会删除大量软件包

我最近开始使用 Anaconda Python 发行版因为它提供了许多开箱即用的数据分析库使用 conda 创建环境和安装软件包也轻而易举但是当我想更新 Python 本身或任何其他模块时我遇到了一些严重的问题我事先被告知我的很多
Werkzeug 中的线程和本地代理。用法

首先我想确保我正确理解了功能的分配分配本地代理功能以通过线程内的模块包共享变量对象我对吗其次用法对我来说仍然不清楚也许是因为我误解了作业我用烧瓶如果我有两个或更多模块 A B 我想将对象C从模块A导入到模块B 但我
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
falcon，AttributeError：“API”对象没有属性“create”

我正在尝试测试我的猎鹰路线但测试总是失败而且看起来我把所有事情都做对了 my app py import falcon from resources static import StaticResource api falcon API
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
如何从字符串中删除所有数字？

我想删除字符串 0 9 中的所有数字我写了这段有效的代码 words preg replace 0 words remove numbers words preg replace 1 words remove numbers words
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
字符串列表，获取n个元素的公共子串，Python

我的问题可能类似于this https stackoverflow com questions 37514193 count the number of occurrences of n length not given string in
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r

随机推荐

等待设备时出错：等待模拟器上线 300 秒后超时

我一直在尝试使用 android studio 2 0 模拟器但我无法在模拟器上运行我的应用程序当我运行我的应用程序时它会显示模拟器其中包含以下详细信息哈克斯已启用 Hax ram size 0x800000000 HAx 正在运
如何设置 UIBarButtonItem 的字体大小？

我找不到自定义标题字体大小的方法UIBarButtonItem 我能想到解决这个问题的唯一方法是将其设置为图像我想避免这种情况还有其他建议吗 Objective C NSUInteger fontSize 20 UIFont font
在 Rails 中的 find 中使用 lambda

我有一个方法可以进行分页查找调用例如 1 coll paginate all lambda conditions gt status AND expires lt a DateTime now select gt Constants PO
在 BeautifulSoup 中替换文本而不转义

我想用 BeautifulSoup 中的锚链接包装一些尚未链接的单词我用这个来实现它 from bs4 import BeautifulSoup import re text replace this string soup Beauti
PHPUnit 在运行第一个测试之前进行设置，并在运行最后一个测试之后进行拆除

我正在尝试使用 PHPUnit 为 php 应用程序实现类似 Django 的测试实用程序类似 Django 我的意思是在运行第一个测试之前从主数据库创建一个单独的测试数据库并在运行最后一个测试后将其删除即使一次运行许多测试用例测试
用dense_rank数填充多维数组的rank列

我的数组结构如下 points gt 10 details gt name gt Team A rank gt points gt 10 details gt name gt Team B rank gt points gt 8 detai
c++ 可以通过引用传递临时 lambda（适用于 msvc/windows，但不适用于 gcc/linux）？

假设我有以下代码片段 global variable std thread worker thread Template function template
ui 中的输入绑定：jsf 中的重复

我正在使用facelets jsf 2 0和primefaces 3 0 M2组件库我正在尝试实现动态行数包括发生数据表选择时填充的输入字段每当进行选择时动态行都会使用输入字段正确生成但在后续选择的第一个选择之后动态行计数会正确
如何将本地MYSQL数据库移动到远程数据库服务器

我有一个在 WAMP 下运行的本地 MYSQL 数据库我需要将其移至生产数据库服务器 MySQL 新手需要了解提升此数据库的最佳方法您可以在当前服务器上运行它 mysqldump u user p database name gt d
R：如何将我的数据格式化为多项式 Logit？

我正在 R 上复制一些 Stata 代码我想使用以下命令执行多项式逻辑回归 mlogit函数来自同名包我知道有一个multinom函数于nnet但我不想用这个我的问题是使用mlogit 我需要使用以下方式格式化我的数据mlogit
如何在 iOS 应用程序中获取某个位置的时区？ [复制]

这个问题在这里已经有答案了我是 iOS 开发新手我正在尝试构建一个主要可以做两件事的应用程序 a 获取用户的系统时间比如说他的手机在伦敦所以他的时间 b 获取给定地点的时间例如旧金山然后我想计算两个地点之间的时间差例如
PHP 中基于开关的 URL 路由

我目前正在做的是这样的我有一个 path变量即后面的所有内容索引 php 我用 htaccess 隐藏直到问号以忽略查询字符串然后我用一个switch with preg match该变量的情况下确定它应该调用什么脚本例如 swi
如何去除 CMake 变量中的尾随空格？

我们正在尝试改进 CMake 生成的 makefile 对于 Clang GCC 和 ICC 我们要添加 march native 这样做的块看起来像 march native for GCC Clang and ICC on i386 i
Slick Grid 中的数据更新

我有一个 slickgrid 大约有 100 行它的数据在 5 秒内刷新但每次更新时滚动都会重置这令人不安我尝试使用 dataview 和 dataview refresh 但这次没有任何变化反映到网格这是我在每次刷新时尝试的内容
使用 pandas 加载大 CSV 文件

我正在尝试使用 pandas 加载 csv 文件大约 250 MB 作为数据框在我的第一次尝试中我使用了典型的 read csv 命令但收到错误内存我已经尝试过中提到的方法pandas 中的大型持久 DataFrame https
Laravel 模型：模型属性在哪里？

我来自 Visual Studio Entity Framework 背景并尝试在 Laravel Eloquent 中找到等效功能在 EF 和 Visual Studio 中我们向应用程序添加一个新模型并只告诉它我们现有的数据库
如何更改使用 Flutter 构建的应用程序显示名称？

我已经使用 Flutter create testapp 创建了该应用程序现在我想将应用程序名称从 testapp 更改为 My Trips Tracker 我怎样才能做到这一点我尝试过从AndroidManifest xml 并且它
基于Enum的Jackson多态反序列化

我正在与Jackson 多态反序列化 https github com FasterXML jackson docs wiki JacksonPolymorphicDeserialization 这是我的代码它反序列化为基于 type 属
使用 JavaScript/onorientationchange 重置 iPhone 上 Safari 的比例/宽度/缩放

我根据用户使用 body 标签中的 onorientationchange 调用握持手机的方式显示不同的内容这非常有效我隐藏一个 div 同时使另一个 div 可见纵向模式下的 div 在首次加载时看起来很棒我用它来获得正确的比例
如何从文本中删除除文字和表情符号之外的所有内容？

作为文本分类问题的一部分我正在尝试清理文本数据集到目前为止我删除了除文本之外的所有内容标点符号数字表情符号一切都被删除了现在我尝试使用表情符号作为特征因此我想保留单词和表情符号首先我在文本中搜索表情符号并将它们与其他

如何从文本中删除除文字和表情符号之外的所有内容？

如何从文本中删除除文字和表情符号之外的所有内容？ 的相关文章

随机推荐

热门标签

如何从文本中删除除文字和表情符号之外的所有内容？的相关文章