来自 csv 文件的 Unicode 表情符号在 python 中

2024-01-02

我有一些用户推文的 csv 数据。

在excel中显示如下：

‰ÛÏIt felt like they were my friends and I was living the story with them‰Û  #retired #IAN1

我已将此 csv 文件导入到 python 中，在 python 中，相同的推文显示如下（我正在使用 putty 连接到服务器，并从 putty 的屏幕复制了此内容）

▒▒▒It felt like they were my friends and I was living the story with them▒۝ #retired #IAN1

我想知道如何正确显示这些表情符号字符。我正在尝试分隔此推文中的所有单词，但我不确定如何分隔这些表情符号 unicode 字符。

事实上，你肯定会丢失数据......

我不知道你如何从用户推文中获取 CSV 文件（你可以解释一下）。但一般来说，CSV 文件是encoded https://www.rfc-editor.org/rfc/rfc2046#section-4.1.2在“cp1252”（或“windows-1252”）中，有时在“iso-8859-1”编码中。如今，我们可以找到以“utf-8”编码的CSV文件。

如果您的推文使用“cp1252”或任何 8 位单字节编码字符集进行编码，则表情符号会丢失（被“？”替换）或转换错误。

然后，如果您在 Excel 中打开 CSV 文件，它将使用默认编码（“cp1252”）并加载包含损坏字符的文件。您可以尝试使用 Libre Office，它有一个对话框，可以让您更轻松地选择编码。

Putty 的复制/粘贴还会根据您的控制台编码转换您的字符……这是最糟糕的！

如果您的 CSV 文件使用“utf-8”编码（或“utf-16”、“utf-32”），您可能有更多机会保留表情符号。但仍然存在一个问题：大多数表情符号的代码点都大于 U+FFFF（十进制 65535）。例如，笑脸 http://unicode-table.com/en/1F600/“????”的代码点为 U+1F600）。

这种字符在Python中处理得很糟糕，试试这个：

# coding: utf8
from __future__ import unicode_literals

emoji = u"????"

print(u"emoji: " + emoji)
print(u"repr: " + repr(emoji))
print(u"len: {}".format(len(emoji)))

你会得到（如果你的控制台允许的话）：

emoji: ????
repr: u'\U0001f600'
len: 2

如果您的控制台不允许 unicode，则不会打印第一行，
The \U转义序列类似于\u，但需要 8 个十六进制数字，而不是 4 个。
是的，这个字符的长度是2！

EDIT:使用 Python 3，您可以获得：

emoji: ????
repr: '????'
len: 1

没有转义序列repr(),
长度为1！

您可以做的就是将您的 CSV 文件（片段）作为附件发布，然后人们就可以对其进行分析......

也可以看看Python 源代码中的 Unicode 文字 https://docs.python.org/2/howto/unicode.html#unicode-literals-in-python-source-code在 Python 2.7 文档中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

来自 csv 文件的 Unicode 表情符号在 python 中的相关文章

Python包不安装子模块

我在 dev 分支中创建了一个具有以下结构的包在验证包安装正确之前不会合并到 main mypackage init py setup py requirements txt module py subpackage one init p
Pyenv 无法在 Cygwin 上安装 python: ModuleNotFoundError: No module named '_ctypes'

我正在尝试设置 Cygwin 环境以使用 pyenv 来管理 python 版本我没有管理员权限所以我使用以下命令运行设置 no admin flag 我使用 Cygwin 包管理器应用程序解决了一些依赖关系但我被困在了这一点上 Mo
Python 小数.InvalidOperation 错误

当我运行这样的东西时我总是收到此错误 from decimal import getcontext prec 30 b 2 3 Decimal b Error Traceback most recent call last File Te
如何在 Django 管理中以表格格式显示添加模型？

我刚刚开始使用 Django 编写我的第一个应用程序为我的家庭设计的家务图表管理器在本教程中它向您展示了如何添加相关对象 http docs djangoproject com en dev intro tutorial02 cust
有条件填写 pandas 数据框

我有一个数据框df列中包含浮点值A 我想添加另一列B这样 B 0 A 0 for i gt 0 B i if np isnan A i then A i else Step3 B i if abs B i 1 A i B i 1 lt 0
Django 如何从 ManyToManyField 序列化并列出全部

我正在使用 Django 1 9 1 开发移动应用程序后端我实现了关注者模型现在我想列出用户的所有关注者但目前我不得不这样做我还使用 Django Rest 框架这是我的 UserProfile 模型 class UserProf
使用opencv计算深度视差图

我无法使用 opencv 从视差图计算深度我知道两个立体图像中的距离是用以下公式计算的z baseline focal disparity p 但我不知道如何使用地图计算视差我使用的代码如下为我提供了两个图像的视差图 import n
绘制“plot”而不是“scatter”时，图例选择会中断

再会这个问题是后续问题为什么图例选取仅适用于 ax twinx 而不适用于 ax https stackoverflow com q 60167378 9282844 下面提供的最小代码分别绘制了两条曲线ax1 and ax2 ax1 t
在加载“cv2”二进制扩展期间检测到递归

我有一个小程序在 pyinstaller 编译后返回 opencv 错误但无需编译即可工作我在 Windows 10 上使用 Python 3 8 10 Program 导入 pyautogui将 numpy 导入为 np导入CV2
在 keras 中使用自定义张量流操作

我在张量流中有一个脚本其中包含自定义张量流操作我想将代码移植到 keras 但我不确定如何在 keras 代码中调用自定义操作我想在 keras 中使用tensorflow 所以到目前为止我发现的教程描述了与我想要的相反的内容 htt
Selenium Webdriver - Python - leboncoin - pb 选择带重音的按钮

我正在尝试在以下网站上自动填写表格 https www leboncoin fr https www leboncoin fr 我用 Selenium IDE 录制了一个脚本我有一个通过单击 Se 连接器按钮并填写我的密码和用户名来自动
如何使用 python 操作系统更改驱动器？

我正在尝试更改当前目录C to Y 我试过 import os os chdir Y 但我不断收到错误消息提示无法找到驱动器本质上我正在寻找相当于 cd d cmd 中的命令你确定吗Y 确实是有效的驱动器号吗 Try os chdir
如何使用 jira-python 设置 fixVersions 字段

我正在尝试使用 jira python 模块 http jira python readthedocs org en latest 更新现有的 JIRA 具体来说我正在尝试设置问题的fixesVersion 列表我已经尝试了一段时间但没
如何使用 msgpack 进行读写？

如何序列化反序列化字典data with msgpack http msgpack org The Python 文档 http msgpack python readthedocs io en latest badge latest似乎
Python 垃圾收集有时在 Jupyter Notebook 中不起作用

我的一些 Jupyter 笔记本经常出现 RAM 不足的情况而且我似乎无法释放不再需要的内存这是一个例子 import gc thing Thing result thing do something thing None gc col
如何将 pytest 装置与 django TestCase 一起使用

我如何在TestCase方法类似问题的几个答案似乎暗示我的例子应该有效 import pytest from django test import TestCase from myapp models import Category py
使用 Flask-SQLAlchemy 进行多对多多数据库连接

我正在尝试使这个多对多联接与 Flask SQLAlchemy 和两个 MySQL 数据库一起工作并且它非常接近只是它为联接表使用了错误的数据库这是基础知识我有main db and vendor db 表格设置为main db u
psutil：测量特定进程的CPU使用率

我正在尝试测量进程树的 cpu 使用率目前获取进程没有子进程的 cpu usage 就可以了但我得到了奇怪的结果 import psutil p psutil Process PID p cpu percent 还给我float g
从 Python 中编译的正则表达式中提取命名组正则表达式模式

我有一个 Python 正则表达式其中包含多个命名组但是如果先前的组已匹配则可能会错过与一组匹配的模式因为似乎不允许重叠举个例子 import re myText sgasgAAAaoasgosaegnsBBBausgisego
在读/写二进制数据结构时访问位域

我正在为二进制格式编写一个解析器这种二进制格式涉及不同的表这些表同样采用二进制格式通常包含不同的字段大小其中 50 100 个之间大多数这些结构都有位域并且在 C 语言中表示时看起来像这样 struct myHeader uns

随机推荐

如何获取所有正在运行的活动android？

我想知道有没有办法获得所有跑步活动的列表据我了解一次只会运行一个活动该活动将是屏幕上的活动活动其他活动将处于暂停或停止状态如果有
Rails Mailer：将电子邮件发送到本地文件

有什么方法可以将 Rails 3 中的电子邮件发送到本地文件等而不是使用 SMTP 服务器吗我想在不使用任何类型的 SMTP 的情况下测试电子邮件的内容最好仅在 DEV 环境中测试最好的是本地 SMTP 或允许我检查电子邮件检查电
如何使用 Passport.js 访问 OAuth 的状态参数？

我正在使用 Passport js 进行身份验证并且每个Google 的 OAuth2 文档 https developers google com accounts docs OAuth2Login formingtheurl 我传递一
Python：使用 pyOpenSSL.crypto 读取 pkcs12 证书

我有西班牙权威机构 FNMT 颁发的有效证书我想用它来了解更多信息该文件的扩展名是 p12 我想阅读其中的信息名字和姓氏并检查证书是否有效可以用 pyOpenSSL 做到这一点吗我想我必须使用 OpenSSL 中的加密模块有任
如何在 StringBuilder 上检查 null？

我想在我的代码中专门检查 null 或空空和空是否相同StringBuilder在Java中例如 StringBuilder state new StringBuilder StringBuilder err new StringBui
如何使用反射获得泛型类型的正确文本定义？

我正在研究代码生成并遇到了泛型的障碍这是导致我出现问题的简化版本 Dictionary
在网络浏览器中打开 R Shiny 应用程序时，传单多边形会失去颜色

我正在使用 R 中的传单构建地图将其部署为 Shiny 应用程序 Shiny 应用程序在 RStudio 中运行良好但是当我在网络浏览器中打开它时多边形失去了颜色其他一切都很好底图在那里多边形都在那里您可以将鼠标悬停在多边形上
Ipython笔记本缓存问题

在 ipython 笔记本中我调用从我自己的模块导入的函数并运行一些代码我注意到如果我更改函数中的代码在笔记本之外并执行笔记本则旧版本的函数将运行当我记得时 ipython笔记本或firefox似乎正在缓存我可以用ctrl F
Python Byte 不打印二进制

当我在 Python 中打印这样的程序时 x b francis 输出是b francis 如果字节在0 s and 1为什么它不打印出来你似乎从根本上感到困惑以一种非常常见的方式数据本身是一个不同的概念表示即当您尝试时所看到的pr
页面滚动结束时的 jQuery 回调

我有一个 div 标签在 css 中设置为 overflow scroll 我有一个回调应该在使用它找到的元素的滚动末尾调用 details scroll function if this height this get 0 scrol
未找到 Android 方面，使用 Android Studio 0.2 进行编译时出现问题

因此遵循这篇 SO 帖子的建议抱歉我会在那里发表评论希望我没有足够的声誉 Gradle 失败无法确定要执行哪些任务 https stackoverflow com questions 17614477 gradle failure
vc++编译错误RC：致命错误RC1107：无效用法；使用RC /？为了

我在构建 vc 项目时遇到以下错误使用 Visual Studio 2010 RC 致命错误 RC1107 无效使用使用RC 为了我知道构建资源时存在一些问题但如何获得确切的问题区域 Thanks 解决方案在最后一个包含路径中添加
简单的旋转悬停效果不起作用

我正在尝试创建一个简单的效果以便当我将鼠标悬停在最内圈时两个外环旋转以创建很酷的效果我认为这将是一项简单的任务但我似乎无法弄清楚我做错了什么当我将鼠标悬停在内圈上时所有变化都是两个内圈向屏幕右下角移动根本不旋转我在这里缺少什
yii2 作曲家更新错误：版本字符串“2.*”无效

我正在使用作曲家更新Yii2项目但它正在退出但有异常我已经将composer更新到最新版本 c6cc6dd6070871f4b198ed39f76dd8047c116b02 但它仍然不起作用 Importing tag v2 0 2 2
何时在 C++ 中使用指针

我刚刚开始学习C 中的指针我不太确定何时使用指针何时使用实际对象例如在我的一项作业中我们必须构造一个 gPolyline 类其中每个点都由一个 gVector 定义现在我的 gPolyline 类变量如下所示 private
如何在索引列的查询中使用限制而不扫描所有行？

这是我的桌子在我的桌子上 Clustering key 主键和自增量 ID 索引栏 Data 文本数据类型列 Position 索引栏维持顺序Data 我的表有 90 000 行内容相同ID等于 5 我想要前 3 行ID等于 5 我的
如何使用 Twitter Bootstrap 2 获得 16 列响应式布局？

我从各种论坛帖子中收到混合信号它是否通过更改而本地存在 Default 940px grid gridColumns 12 gridColumnWidth 60px gridGutterWidth 20px gridRowWidth gr
如何向 cats-effect 的资源添加正确的错误处理

我正在尝试使用纯功能性方式获取一些基本文件 IO 写读猫效应 https typelevel org cats effect 关注后this https typelevel org cats effect tutorial tutori
SNS 到 Lambda 与 SNS 到 SQS 到 Lambda

如果有人可以帮助解释我想了解我的工作流程中是否需要 SQS 在我的应用程序中当采取操作时它会将信息提交到 SNS 主题该主题调用 Lambda 进行一些处理这效果很好当我在线研究时似乎人们也在这个堆栈中使用 SQS 其中 SN
来自 csv 文件的 Unicode 表情符号在 python 中

我有一些用户推文的 csv 数据在excel中显示如下 It felt like they were my friends and I was living the story with them retired IAN1 我已将此 cs

来自 csv 文件的 Unicode 表情符号在 python 中

来自 csv 文件的 Unicode 表情符号在 python 中 的相关文章

随机推荐

热门标签

来自 csv 文件的 Unicode 表情符号在 python 中的相关文章