Python 2.7：从文本中检测表情符号

2024-03-29

我希望能够检测文本中的表情符号并查找它们的名字。

我没有使用 unicodedata 模块，我怀疑我不是了解 UTF-8 约定。

我猜想我需要将我的文档加载为 utf-8，然后将 unicode“字符串”分解为 unicode 符号。迭代这些并查找它们。

#new example loaded using pandas and encoding UTF-8                     
'A man tried to get into my car\U0001f648'          

type(test) = unicode

import unicodedata as uni
uni.name(test[0])
Out[89]: 'LATIN CAPITAL LETTER A'

uni.name(test[-3])
Out[90]: 'LATIN SMALL LETTER R'    

uni.name(test[-1])
ValueError                                Traceback (most recent call last)
<ipython-input-105-417c561246c2> in <module>()
----> 1 uni.name(test[-1])
ValueError: no such name

# just to be clear
uni.name(u'\U0001f648')
ValueError: no such name

我通过谷歌查找了 unicode 符号，它是一个合法的符号。也许 unicodedata 模块不是很全面......？

我正在考虑制作我自己的查找表here ftp://ftp.unicode.org/Public/emoji/1.0/emoji-data.txt。对其他想法感兴趣……这个似乎可行。

我的问题是使用 Python2.7 作为 unicodedata 模块。使用 Conda 我创建了一个 python 3.3 环境，现在 unicodedata 可以工作正如预期的那样，我已经放弃了我正在研究的所有奇怪的黑客技术。

# using python 3.3
import unicodedata as uni

In [2]: uni.name('\U0001f648')
Out[2]: 'SEE-NO-EVIL MONKEY'

感谢 Mark Ransom 指出我最初吃的 Mojibake 不是来自正确导入我的数据。再次感谢你的帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Unicode

emoji

Python 2.7：从文本中检测表情符号的相关文章

CA2W 给了我一个“'AtlThrowLastWin32'：找不到标识符”错误

当我遵循以下命令时我遇到了一个奇怪的编译错误MSDN文档 http msdn microsoft com en us library 87zae4a3 VS 80 aspx在 Visual Studio 2005 中使用 CA2W 将 b
正则表达式：使用 re.sub 将连字符替换为破折号

我正在使用一个小函数来循环文件以便任何连字符被破折号取代替代键 0150 我使用的函数为相关问题的解决方案添加了一些正则表达式风格如何自动替换多个文件的文本内容中的字符 https stackoverflow com questio
包 inputenc 错误：Unicode char \u8:β 未设置为与 LaTeX 一起使用

我在 Bibdesk 中的参考文献之一包含一些拉丁希腊字符例如我在 TEXMAKER 中使用参考时收到错误包 inputenc 错误 Unicode char u8 未设置为与 LaTeX 一起使用我该如何设置它才能工作尽管使用
macOS 上 NSPopover 中的表情符号列表（如消息应用程序）

我想展示一个NSPopover在我的 Mac 应用程序中它列出了表情符号就像 Apple 的消息应用程序一样到目前为止我能弄清楚的是我可以使用以下命令在我的应用程序中显示字符调色板 NSApp orderFrontCharacter
从 Aptana Studio PyDev 运行时取消抑制 UnicodeEncodeError 异常

以下是应引起注意的声明UnicodeEncodeError例外 print str format u unicode u2019 在 Python shell 中异常会按预期引发 gt gt gt print str format u u
将 unicode 字符的十六进制序列解码为字符串的最佳方法

解码字符串最免代码的方法是什么 xD0 xAD xD0 xBB xD0 xB5 xD0 xBA xD1 x82 xD1 x80 xD0 xBE xD0 xBD xD0 xBD xD0 xB0 xD1 x8F C 中的人类字符串该十六进制字
makemessages 的 Unicode 问题 --all Django 1.6.2 Python 3.3

升级项目Python 2 7 gt 3 3 1 and 姜戈1 4 gt 1 6 2 更新代码后我们的应用程序再次运行 in py3 翻译正在从 mo files 唯一的问题是我们的旧 po文件不能与 django admin py mak
java中带有日语字符的电子邮件

我正在使用java发送电子邮件发送的消息可以使用不同的语言但是当我用日语发送消息时收到的邮件只有人物代码是这样的 String content u30d5 u30a1 u30a4 u30eb u540d SMTPMessage m
强制 iOS 将 Unicode 符号渲染为平面/文本

iPhone 现在可以自动将 2D unicode 符号转换为 3D 表情符号例如我需要 unicode 以传统的黑白字形格式呈现而且我无法轻松地将 Unicode 符号替换为图像因为这是在 UITableView 行的 edit
JTextArea 组件中的 Unicode 支持 [重复]

这个问题在这里已经有答案了我制作了这个简单的程序我想在 JTextArea 中显示 unicode 符文字符 u16e6 该符号显示在 JFrame 的顶部但不在 JTextArea 中我已将 JTextArea 的字体设置为与 J
Java中一个字符是1字节还是2字节？

我认为 java 中的字符是 16 位如建议的那样java doc http download oracle com javase tutorial java nutsandbolts datatypes html 字符串不也是这样吗我
检测unicode字符串中的非ascii字符[重复]

这个问题在这里已经有答案了给定一个文本文件或 unicode 字符串检测 ASCII 编码之外的字符的好方法是什么我可以轻松地将每个字符迭代传递给ord 但我想知道是否有更有效更优雅或更惯用的方法来做到这一点这里的最终目标是编译
UnicodeEncodeError：“ascii”编解码器无法编码字符[...]

我已阅读如何非 Unicode http docs python org howto unicode html来自官方文档和完整非常详细的article http boodebr org main python all about pyt
如何从查询窗口向 SQL Server 插入 unicode 文本

我正在使用以下代码 INSERT INTO tForeignLanguage Name VALUES 这个值像这样插入如何从 sql Management Studio 查询窗口插入 unicode 文本以下应该有效 N表示 MSSQL
使用 Unicode 字符打印 Pandas 列

我有一个 pandas 数据框其中有一列包含 unicode 编码名称 import pandas as pd no unicode pd Series Steve Jason Jake yes unicode pd Series tea
换行符 unicode 字符

我想要一个可用于表示新行的 Unicode 字符我以前见过它但通过我尝试过的任何谷歌搜索都找不到它它看起来像这样 lt 有几种可能性选择也可能取决于字体因为并非所有字体都适用于所有字体并且其中一些具有相当不同的形状并且有些在小
连接从左到右 (LTR) 和从右到左 (RTL) 文本

似乎使用组合从左到右 LTR 和从右到左 RTL 文本paste可能会产生意想不到的结果 x paste c green collapse arabic for blue and red gt 1 green paste x yellow
将字母与空格字符异或

为什么将任何字母与空格字符进行异或会改变字母的大小写是否有历史原因即 a 异或 A F 异或 f 等或者这只是巧合假设字符是 ASCII 或 unicode 编码的我确信通过改变一个位就可以改变这种情况是故意的这将使早期的软件更
如何在 Ruby 中将…（省略号）更改为…（三个句点）？

我正在解析这个文件 http msdn microsoft com en us library ms189782 aspx using nokogiri 我发现有一些省略号该页面中的字符且无法删除我想知道如何用Ruby来替换所有省略
将数字字符引用符号转换为 unicode 字符串

是否有一个标准的最好是 Pythonic 的方法来转换 xxxx 正确的 unicode 字符串的表示法例如 1502 1508 1490 1513 1497 应转换为使用字符串操作可以很容易地完成它但我想知道是否有一个标准库可以实

随机推荐

Cocoapod错误，尝试在M1上安装所有可能的方式

我收到这个错误 Downloading template Copying template Processing template Installing CocoaPods dependencies this may take a few
UITextView 在第一次单击时不显示 InputAccessoryView

我用UITextViewDelegate并添加一个InputAccessoryView in textViewDidBeginEditing textView setInputAccessoryView doneBar doneBar 不为
导出产品的 csv 文件时出现“无效实体模型”错误

while 导出产品 csv 文件从后端 magento 管理面板当我单击继续生成 csv 文件时它会提示我以下错误无效的实体模型我正在使用 magento 1 6 2 CE 已编辑我使用magento默认导出导入服务意味着从管
将 ThreadLocal 传播到从 ExecutorService 获取的新线程

我正在一个单独的线程中运行一个带有超时的进程使用 ExecutorService 和 Future 示例代码here https stackoverflow com questions 1164301 how do i call some
如何将事件处理程序与 Link Clicked 事件连接

我正在使用 winforms 我试图在富文本框中创建一个可点击的链接并能够在浏览器中启动我想知道如何将事件处理程序与 LinkClicked 事件连接起来 private void Link Clicked object sender
如何在 Ubuntu 中安装 libwebsocket 库？

我正在尝试在我的 ubuntu 中安装 libwebsocket 所以我下载了该项目https github com warmcat libwebsockets https github com warmcat libwebsockets解
更新时出现 helm 错误：UPGRADE FAILED: The order in patch list

我在 helm 部署方面遇到问题这是在我向部署添加新的环境变量后发生的当我执行时 helm upgrade RELEASE CHART 我收到以下错误 Error The order in patch list map name APP
用于匹配文件中的十六进制数字的 Java 正则表达式

所以我正在读取一个文件例如java程序 58 68 58 68 40 c 40 48 FA 如果我幸运的话但更常见的是它在每行之前和之后都有几个空白字符这些是我正在解析的十六进制地址我基本上需要确保我可以使用扫描仪缓冲阅读器等来
如何在 Intellij IDEA 中使用本机库制作 jar？

如何在 Intellij IDEA 中使用本机库制作 jar 在 JVM 中它看起来像 Djava library path C Users User workspace lib native win None
如何安装 ionic 2 的 Leaflet 插件

任何人都可以帮忙吗我正在尝试导入传单插件 https github com Leaflet Leaflet markercluster https github com Leaflet Leaflet markercluster 对于离子
为什么GO中slice的内容没有改变？

我认为在GO语言中切片是通过引用传递的但为什么下面的代码没有改变切片c的内容呢我错过了什么吗谢谢 package main import fmt func call c int c append c 1 fmt Println c
.net 计时器有多可靠？

我正在考虑在 Windows 服务中使用 System Timers Timer 我想知道它们的可靠性和准确性如何尤其对于它们的运行频率有任何保证吗当处理器或内存过载时会发生什么在这种情况下 ElapsedEventArgs Sig
Ninject 当 T 型祖先时绑定

我有一个大致如下所示的依赖链 public class CarSalesBatchJob public CarSalesBatchJob IFileProvider fileProvider public class MotorcycleS
Scala 中 Await.result 和 futures.onComplete 之间的区别

我使用以下两个代码片段在多个线程中执行代码但我的行为有所不同片段 1 val futures Future sequence Seq f1 f2 f3 f4 f5 futures onComplete case Success valu
Silverlight 中使用安全关键构造函数子类化透明类型的安全规则

在Silverlight v4 0 安全模型中肖恩法卡斯说 http blogs msdn com b shawnfa archive 2007 05 11 silverlight security iii inheritance a
在 Moto 中使用 Boto3（版本 1.8 或更高版本）时如何模拟 AWS 调用

我有一个用 python 编写的 API 可以调用 AWS 服务特别是 sqs s3 和 dynamodb 我正在尝试为 API 编写单元测试并且想模拟对 AWS 的所有调用我对 moto 作为模拟这些服务的一种方式进行了大量研究但
跳转滚动并重定向到博客上同一博客的另一个页面

我有一个博客如果有人点击特定链接我想做他应该在同一页面上的特定点跳转滚动然后几秒钟后他应该自动重定向到同一博客的其他页面重定向到其他博客请也给出示例网站地址我有这个代码脚本就像 function jumpScroll win
Spark Dataframe Write to CSV 在独立集群模式下创建 _temporary 目录文件

我在跑步spark job在有 2 个工作节点的集群中我使用下面的代码 spark java 将计算的数据帧作为 csv 保存到工作节点 dataframe write option header false mode SaveMode
如何克隆案例类实例并仅更改 Scala 中的一个字段？

假设我有一个案例类代表不同社交网络上的人物角色该类的实例是完全不可变的并保存在不可变的集合中最终由 Akka actor 进行修改现在我有一个包含许多字段的案例类我收到一条消息说我必须更新其中一个字段如下所示 case c
Python 2.7：从文本中检测表情符号

我希望能够检测文本中的表情符号并查找它们的名字我没有使用 unicodedata 模块我怀疑我不是了解 UTF 8 约定我猜想我需要将我的文档加载为 utf 8 然后将 unicode 字符串分解为 unicode 符号迭代这些

Python 2.7：从文本中检测表情符号

Python 2.7：从文本中检测表情符号 的相关文章

随机推荐

热门标签

Python 2.7：从文本中检测表情符号的相关文章