如何在Python中从字符串中提取表情符号和标志？

2023-12-30

import emoji

def emoji_lis(string):
_entities = []
for pos,c in enumerate(string):
    if c in emoji.UNICODE_EMOJI:
        print("Matched!!", c ,c.encode('ascii',"backslashreplace"))
        _entities.append({
            "location":pos,
            "emoji": c
            })
return _entities

emoji_lis("???????? مدیحہ????????  así, se ???? ds ????????")

匹配！！ ???? \U0001f467
匹配！！ ???? \U0001f3ff
匹配！！ ???? \U0001f60c
匹配！！ ???? \U0001f495
匹配！！ ???? \U0001f46d

我的代码适用于所有其他表情符号，但我如何检测国旗????????？

我认为没有任何图书馆可以做到这一点。然而，这可以通过一个函数来完成：

\U0001F1E6\U0001F1E8是第一个 unicode 标志并且\U0001F1FF\U0001F1FC是最后一个，所以几乎涵盖了所有这些。有3 more http://unicode.org/emoji/charts/full-emoji-list.html#subdivision-flag这会导致一些问题。

这是一个检查输入是否为标志的函数：

def is_flag_emoji(c):
    return "\U0001F1E6\U0001F1E8" <= c <= "\U0001F1FF\U0001F1FC" or c in ["\U0001F3F4\U000e0067\U000e0062\U000e0065\U000e006e\U000e0067\U000e007f", "\U0001F3F4\U000e0067\U000e0062\U000e0073\U000e0063\U000e0074\U000e007f", "\U0001F3F4\U000e0067\U000e0062\U000e0077\U000e006c\U000e0073\U000e007f"]

测试：

>>> is_flag_emoji('a')
False
>>> is_flag_emoji('????')
False
>>> is_flag_emoji("""????????""")
True

所以你可以相应地将 if 语句更改为if c in emoji.UNICODE_EMOJI or is_flag_emoji(c):.

但这有一个问题；由于很多标志是通过连接多个字符来制作的，因此您可能无法识别表情符号。

>>> s
'???????? here is more text ???????? and more'
>>>emoji_lis(s)
Matched!! ???? b'\\U0001f1fe'
Matched!! ???? b'\\U0001f1ea'
Matched!! ???? b'\\U0001f1e9'
[{'location': 0, 'emoji': '????'}, {'location': 1, 'emoji': '????'}, {'location': 22, 'emoji': '????'}]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

string

emoji

datacleaning

如何在Python中从字符串中提取表情符号和标志？的相关文章

如何使用 opencv.omnidir 模块对鱼眼图像进行去扭曲

我正在尝试使用全向模块 http docs opencv org trunk db dd2 namespacecv 1 1omnidir html用于对鱼眼图像进行扭曲处理Python 我正在尝试适应这一点C 教程 http docs op
字符串池可以包含两个具有相同值的字符串吗？ [复制]

这个问题在这里已经有答案了字符串池可以包含两个具有相同值的字符串吗 String str abc String str1 new String abc Will the second statement with new operator
需要在python中找到print或printf的源代码[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在做一些我不能完全谈论的事情我
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
datetime.datetime.now() 返回旧值

我正在通过匹配日期查找 python 中的数据存储条目我想要的是每天选择今天的条目但由于某种原因当我将代码上传到 gae 服务器时它只能工作一天第二天它仍然返回相同的值例如当我上传代码并在 07 01 2014 执行它时它
如何在不丢失注释和格式的情况下更新 YAML 文件 / Python 中的 YAML 自动重构

我想在 Python 中更新 YAML 文件值而不丢失 Python 中的格式和注释例如我想改造 YAML 文件 value 456 nice value to value 6 nice value 界面类似于 y yaml load
如何使用python在一个文件中写入多行

如果我知道要写多少行我就知道如何将多行写入一个文件但是当我想写多行时问题就出现了但是我不知道它们会是多少我正在开发一个应用程序它从网站上抓取并将结果的链接存储在文本文件中但是我们不知道它会回复多少行我的代码现在如下 r
在FLUTTER/DART中，为什么我们有时在声明变量时要在“String”后面加一个问号？

在演示应用程序中我们找到一个实例最终字符串标题 gt 为什么要加这个在 String 类型之后 class MyHomePage extends StatefulWidget MyHomePage Key key this titl
如何通过 TLS 1.2 运行 django runserver

我正在本地 Mac OS X 机器上测试 Stripe 订单我正在实现这段代码 stripe api key settings STRIPE SECRET order stripe Order create currency usd em
Cython 和类的构造函数

我对 Cython 使用默认构造函数有疑问我的 C 类 Node 如下 Node h class Node public Node std cerr lt lt calling no arg constructor lt lt std e
Python3 在 DirectX 游戏中移动鼠标

我正在尝试构建一个在 DirectX 游戏中执行一些操作的脚本除了移动鼠标之外我一切都正常是否有任何可用的模块可以移动鼠标适用于 Windows python 3 Thanks I used pynput https pypi or
不同编程语言中的浮点数学

我知道浮点数学充其量可能是丑陋的但我想知道是否有人可以解释以下怪癖在大多数编程语言中我测试了 0 4 到 0 2 的加法会产生轻微的错误而 0 4 0 1 0 1 则不会产生错误两者计算不平等的原因是什么在各自的编程语言中可以采
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
import matplotlib.pyplot 给出 AttributeError: 'NoneType' 对象没有属性 'is_interactive'

我尝试在 Pycharm 控制台中导入 matplotlib pyplt import matplotlib pyplot as plt 然后作为回报我得到 Traceback most recent call last File D Pr
如何衡量两个字符串之间的相似度？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案给定两个字符串text1 and text2 public SOMEUSABLERETURNTYPE Compare string t
Django-tables2 列总计

我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页
如何计算Python中字典中最常见的前10个值

我对 python 和一般编程都很陌生所以请友善我正在尝试分析包含音乐信息的 csv 文件并返回最常听的前 n 个乐队从下面的代码中每听一首歌曲都是一个列表中的字典条目格式如下 album Exile on Main Street
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解

随机推荐

在 Powershell 2 中声明第三方程序集类型的通用列表

我正在尝试创建一个新的Collections Generic List类型的对象Amazon Cloudwatch Model Dimensions在 Powershell 2 0 中我可以创建一个Amazon Cloudwatch Mo
我什么时候应该使用 C++ 固定宽度整数类型以及它们如何影响性能？

通常我想大多数人会使用int对于一切他们偶尔会使用unsigned int需要的时候有时你可能会使用short int 也许是为了网络流量什么的但最近我开始使用std size t用于索引到 STL 容器正如我应该的那样然后我开始
载波不渲染，路径存在但图像不显示

我一直在尝试从载波渲染图片我相信它已正确上传因为当我查看页面源代码时我看到 img alt Photo 44 src uploads user image 59 Photo 44 jpg 但是通过单击该 src url 我得到 No
是否可以从主机程序执行单个 lua 语句？

我正在尝试将基于 lua 的脚本系统嵌入到我的游戏引擎中我希望脚本能够同时具有阻塞和非阻塞命令例如 character walkTo 24 359 Blocks until character arrives c 35 Non bloc
GCC：为什么无法在 -std=c11 -Wall 下编译干净的 printf("%f\n", f16) ？

示例代码 include
Eclipse Android 应用程序：使用真实证书签名运行

有没有一种方法可以让运行按钮使用真正的签名证书而不是调试证书我想避免在安装开发副本之前从模拟器中卸载共享用户应用程序我已经知道我可以导出签名副本但我更喜欢自动构建签名副本在模拟器上运行我假设您正在使用 Eclipse 首先通
通过powershell获取IIS日志位置？

我正在编写一个脚本希望能够在 IIS 服务器之间轻松移动以分析日志但这些服务器将日志存储在不同的位置一些在 C 一些在 D 一些在 W3SVC1 中一些在 W3SVC3 中我希望能够让 powershell 自行查找此信息而不必
从整数序列生成表达式文字列表

我想将整数序列映射到表达式文字序列以便将后者用作图中的刻度线标签例如 lbls lt lapply 2 2 function i expression i pi plot axis 1 at seq 2 2 pi labels lbls
Apache Spark 中的驱动程序何时不会运行某个操作？

我刚刚开始使用 Spark 并且在任务的概念上遇到了困难任何人都可以帮助我理解何时某个操作例如减少不在驱动程序中运行从火花教程中使用函数 func 聚合数据集的元素其中接受两个参数并返回一个该函数应该是具有交换性和结合性
使用 SqlCe 和 EntityFramework 进行插入和更新的语法

VS 2008 SqlCe 3 5 我正在尝试学习 EntityFramework 但无法让基本的插入和更新工作当我包含 SqlCe 数据库 sdf 时向导会创建 Test edmx designer vb 文件由此我创建了我的数据上
jquery.tokeninput 必需

我有这个很棒的小插件正在运行但我需要要求至少选择一个名称我通常使用jquery validate 但是验证插件似乎不适用于使用 tokeninput 的字段有人有答案吗一如既往非常感谢您的帮助 NewMessage valida
处理 std::thread::hardware_concurrency()

In my question https stackoverflow com questions 27887654 synchronise push back and stdthread about std thread 我被建议使用std
lucene 4.0 快照中缺少的功能

我正在尝试使用 lucene 4 0 快照版本但是此版本中缺少 StandardAnalyzer 有人知道如何替换它吗在给出的示例代码中Lucene总结 http search lucene com jd lucene org apac
C# 低级鼠标钩子和表单事件处理

我正在使用 VS 2010 生成的简单表单其中包含 2 个按钮开始和停止 Start 使用 SetWindowsHookEx 触发 WH MOUSE LL stop 停止钩子挂钩工作正常我设法用双击替换鼠标中键单击我遇到的唯一
反应悬念/懒惰延迟？

我正在尝试使用新的 React Lazy 和 Suspense 来创建后备加载组件这效果很好但回退只显示几毫秒有没有办法添加额外的延迟或最短时间以便我可以在渲染下一个组件之前显示此组件的动画现在懒惰导入 const Home la
Symfony 1.4：使用 SetAttribute 在会话中存储数组

我想知道是否有人知道如何将数组存储到用户会话中这是存储单个属性的方法 this gt getUser gt setAttribute something something 文档说用户属性可以存储任何类型的数据字符串数组和关联数组
MVC 4 bool 的自定义模板（剃刀）

我正在使用 twitter bootstrap 框架因此为了让 EditorFor 和 DisplayFor 方法输出我需要的内容我为字符串文本密码等每种类型创建了自定义模板对于我的登录页面我想要一个 RememberMe bo
C# - 比较两个 SecureString 是否相等

我有一个带有两个密码框的 WPF 应用程序一个用于密码另一个用于第二次输入密码以进行确认我本来想用PasswordBox SecurePassword得到SecureString的密码但我需要能够比较两个密码框的内容以确保在接受密
CSS如何设置div高度100%减去nPx [重复]

这个问题在这里已经有答案了我有一个包装 div 其中包含 2 个彼此相邻的 div 在这个容器上方我有一个包含我的标题的 div 包装器 div 必须是 100 减去标头的高度标题大约为 60 像素这是固定的所以我的问题是如何将
如何在Python中从字符串中提取表情符号和标志？

import emoji def emoji lis string entities for pos c in enumerate string if c in emoji UNICODE EMOJI print Matched c c e

如何在Python中从字符串中提取表情符号和标志？

如何在Python中从字符串中提取表情符号和标志？ 的相关文章

随机推荐

热门标签

如何在Python中从字符串中提取表情符号和标志？的相关文章