R 中的表情符号 [UTF-8 编码]

2023-12-05

我正在尝试对 R 进行表情符号分析。我存储了一些带有表情符号的推文。

这是我要分析的推文之一：

> tweetn2
[1] "Programme du week-end: \xed\xa0\xbd\xed\xb2\x83\xed\xa0\xbc \xed\xbe\xb6\xed\xa0\xbc 
    \xed\xbd\xbb\xed\xa0\xbc\xed\xbd\xbb\xed\xa0\xbc \xed\xbd\xbb\xed\xa0\xbc\xed\xbd\xbb"

确保我有“UTF-8”：

> Encoding(tweetn2)
[1] "UTF-8

” 现在，当我尝试识别一些字符时，效果不佳

> grepl("\\xed",tweetn2)
[1] FALSE

> grepl("xed",tweetn2)
[1] FALSE

但表情符号“\xed\xa0\xbd”似乎不是“UTF-8”编码，因为我在写入时收到错误消息：

> str(tweetn2)
Error in str.default(tweetn2) : invalid multibyte string, element 1

我通过使用 iconv() 函数和“ASCII”编码找到了一种解决方案：
http://www.r-bloggers.com/emoticons-decoder-for-social-media-sentiment-analysis-in-r/

但我想继续使用“UTF-8”进行分析，因为它可以很好地处理法语特殊字母（à、é、è、ê、ë、û 等）

那么你知道我怎样才能超越它吗？

Thanks

如所示，该字符串是无效的 UTF-8。你所拥有的是用 UTF-8 编码的 UTF-16。所以\xED\xA0\xBD是高替代品U+D83D， - 和\xED\xB2\x83是低替代品U+DC83

如果你应用魔法高、低 -> 代码点公式，你最终会得到实际的代码点：

(0xD83D - 0xD800) * 0x400 + 0xDC83 - 0xDC00 + 0x10000 = 0x1F483

你会看到这是舞者表情符号。不幸的是，我没有给你的建议，因为我对 R 不太熟悉。但我可以说你肯定希望自己处于这个数据被双重编码的位置！希望这有助于您沿着正确的方向前进。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

twitter

encoding

UTF8

emoji

R 中的表情符号 [UTF-8 编码] 的相关文章

如何在 Caret 中绘制随机森林（护林员）树

我生成了如下所示的随机森林树并尝试绘制它但出现错误我在哪里犯了错误我怎样才能以正确的方式绘制它 Actmodel lt train Activity Section Author data CB1 method ranger trC
如何在 R 中合并同名列表中的数据框？

我有一个包含很多数据框的列表如果它们具有相同的名称我想合并它们即合并所有具有相同名称 a 和 b 的数据框像这样 a lt aaaaa b lt bbbbb c lt ccccc g lt list df1 lt data fram
如何对数字进行四舍五入并使其显示零？

R 中将数字四舍五入到小数点后 2 位的常用代码是 gt a 14 1234 gt round a digits 2 gt a gt 14 12 但是如果该数字的前两位小数位为零则 R 会在显示中抑制零 gt a 14 0034 gt
R中的字典数据结构

在 R 中我有例如 gt foo lt list a 1 b 2 c 3 如果我输入foo I get a 1 1 b 1 2 c 1 3 我怎样才能看透foo仅获取键列表在这种情况下 a b c R 列表可以具有命名元素因此可
将 ftransform 与折叠 R 包中的 fgroup_by 一起使用

我正在尝试重现以下输出dplyr代码与R包裹collapse dplyr Code library tidyverse starwars gt select name mass species gt group by species gt
使用 R 下载压缩数据文件、提取和导入数据

EZGraphs 在 Twitter 上写道很多在线 csv 都被压缩了有没有办法下载解压缩存档并使用 R 将数据加载到 data frame Rstats 我今天也尝试这样做但最终只是手动下载 zip 文件我尝试过类似的东西 f
R 可以创建带有可单击条形图的条形图图像以插入网页吗？

我知道如何创建条形图以及如何将其粘贴在网页上例如使用hwriteImage in the 作家包 http www embl de gpau hwriter 我想要的是每个栏都是一个在鼠标悬停时突出显示的区域并且每个栏在单击时都有不
R 闪亮仪表板中的动态重复条件面板

我正在尝试创建一个动态条件面板所以我的条件如下在用户界面中输入 selectInput inpt Input Number seq 1 50 1 selectize FALSE 我的条件面板 UI 输入是 conditionalPane
如何在 data.table 中分组后使用条件计算行数

我有以下数据框 dat lt read csv s1 s2 v1 v2 a b 10 20 a b 22 NA a b 13 33 c d 3 NA c d 4 5 NA c d 10 20 dat gt A tibble 6 x 4 gt
如何按时间间隔匹配数据帧？

这是我从数据记录器导入原始数据时经常出现的问题温度记录仪设置为每十分钟记录一次温度单独的气体记录仪设置为记录最后十分钟间隔内使用的气体我想将这两个记录器的数据合并到一个数据框中进行绘图和分析但时间并不完全一致我希望每十分钟的时间段
如何纠正 data.frame 上的字符编码

我有一个像这样的数据框 data names lt data frame DATA c 1 5 rownames data names lt c IV xc1N JOS xc9 LUC xcdA RAM xd3N TO xd1O data
`as.matrix` 和 `as.data.frame` S3 方法与 S4 方法

我注意到定义as matrix or as data frame作为 S4 类的 S3 方法使例如lm formula objS4 and prcomp object 开箱即用如果它们被定义为 S4 方法则这不起作用为什么将方法定义
R，使用具有两种以上可能性的二项式分布

我知道这可能是基本的但我似乎有一个心理障碍假设您想要计算在一个骰子上掷出 4 5 或 6 的概率在 R 中这很简单 sum 1 6 1 6 1 6 这给出了 1 2 这是正确答案然而我内心深处可能应该保留的地方认为我应该能够
在 R 中提取 data.frames 列表的名称以及 data.frame 中的值

在下面的代码中 j是 data frames 的命名列表我想知道是否有办法 a 提取变量的数值即one short and one long 在 data frames 内并附加它们的相关名称即 AAA or BBB or CCC 到
在 RMarkdown 输出到 PDF 时缩进而不添加项目符号点或编号

之前有人问过如何在没有项目符号的情况下缩进文本 RMarkdown 中的点但这是针对 HTML 输出的在 RMarkdown 中缩进而不添加项目符号点或数字 https stackoverflow com questions 47087
在ggplot中设置y轴中断

我在代码中设置中断时遇到困难我尝试添加breaks seq 0 100 by 20 但似乎无法让它正常工作本质上我希望 Y 轴从 0 到 100 每 20 个刻度一次 YearlyCI lt read table header T te
dplyr：连接中的 NSE (by)

我很难弄清楚如何使用 dplyr left join 和 NSE 连接两个表问题是我无法为 by 提供正确的值我想我现在已经找到了解决方案但感觉我正在以一种额外复杂的方式来做因此如果您知道更简单更优雅的解决方案请告诉我这就是
Twitter 搜索 API 速率限制如何运作？

我不清楚 Twitter 速率限制每个访问令牌用户每小时 350 个请求的含义他们如何限制请求在 1 个请求中我可以获得多少数据速率限制基于请求而不是您收到的数据量例如字节考虑到这一点您可以通过使用您正在调用的特定端点的
如何根据 ggplot2 中的汇总数据创建堆积条形图

我正在尝试使用 ggplot 2 创建堆积条形图我的宽格式数据如下所示每个单元格中的数字是响应的频率 activity yes no dontknow Social events 27 3 3 Academic skills works
如何为自定义 S3 类实现提取/取子集 ([ [<-, [[ [[<-)] 函数？

我有一个自定义的 S3 类foo 它在正常的基础上添加了一些自定义行为data frame foo object lt data frame class foo object lt c foo data frame 对于这个类还应该有一个

随机推荐

剪切工具滞后荧光笔

我尝试在 C Winforms 中创建荧光笔我使用的大部分代码都在这里像截图工具一样突出显示效果但当我尝试画得太快时它就会滞后不确定我做错了什么这是我尝试过的 private void pictureBox1 Paint objec
Flutter - 从数据库中获取记录并显示在 ListView Builder 中

我正在开发一个 Flutter 项目并使用 Sqflite 数据库我已经设法将数据保存在数据库中现在我试图根据表名从数据库中获取所有记录的列表并将它们显示在 ListView builder 中数据库助手 dart Future
安装cordova时卡住了

我正在按照cordova主页上的步骤操作但第一步我很困惑我输入了sudo npm install g cordova在终端但它卡住了 loadDep Xtend 网络这需要几个小时但没有进一步的进展实际上我在中国我想这可能是
Java Web 应用程序。春季启动。定位图像

我最近解决了在这个社区中定位图像的问题你可以看here 然而有一个答案说您的应用程序是 Spring Boot 应用程序我认为您还可以尝试使用 Spring Boot 提供的设施来提供静态内容不管怎样你现在正在这样做因为你正在
HTML5 canvas 类上的 jQuery getContext

这段代码的工作原理
Numpy 数组的长整数形状

如果我构造一个像这样的 numpy 矩阵 A array 1 2 3 4 5 6 然后输入A shape我得到结果 2L 3L 为什么我得到的形状格式很长我可以重新启动一切但仍然遇到同样的问题据我所知只有当我构造数组时才会遇到这个问
Rails Paperclip 只能用于图像吗？

是否有任何 Rails 库用于管理与 ActiveRecord 连接的文件附件 I know 回形针但它似乎主要适合图像他们确实提到了音频和 pdf 文件github项目页面但没有进一步解释不同文件类型的用法属性如 style如果您
ARM直接内存操作

ARM中有支持直接内存操作的指令吗所以而不是 cc cc 100 mov r3 0 ldr r1 r3 0 add r1 r1 100 str r1 r3 0 它是否有类似或接近的东西 add r3 0 100 I know this i
MongoEngine 指定查询的读取首选项

我正在使用 Mongo 2 6 Pymongo 2 7 2 和 Mongoengine 0 8 7 对于特定的读取查询我想使用副本集的辅助副本因此正如 mongoengine 文档中所指定的here我的查询如下 from pymong
JVM 如何执行 Try catch finally 块

根据 Java 语言规范第 14 20 2 节带有finally 块的try 语句首先执行try 块然后就有一个选择 If execution of the try block completes normally then the
根据国家/地区获取货币符号

我有一个显示货币的 TextView 默认情况下我的文本视图的文本是 0 00我怎样才能做到这样根据用户选择而变化我有以下代码 Locale locale new Locale en US Currency currency Curr
类是结构体还是结构体指针

如果我没记错的话结构意味着对象结构指针意味着指向对象的指针对吗在一篇文章中它说类是结构这意味着它们是对象 Filter the list of all classes The traditional definition of
从 Facebook 获取电子邮件 - FB android SDK

我使用以下代码从 Facebook 获取用户的电子邮件和姓名 protected void onCreate Bundle savedInstanceState Display page setContentView R layout ac
致命错误：sys/socket.h：32位上没有这样的文件或目录

当使用 32 位编译我的程序时 gcc m32 program c o program 我收到以下错误致命错误 sys socket h 没有这样的文件或目录但与 gcc program c o program 效果很好有什么解决方法吗
KSoap2 和 KvmSerialized - 如何发送复杂的对象，如 Stringarrays

我想将一个复杂的对象从我的 Ksoap 客户端发送到我的 Web 服务它是我的类别类别的一个对象该代码基于本教程的示例 http seesharpgears blogspot de 2010 10 ksoap android web s
如何在Hive中获取数组中的前n个元素

我使用 split 函数在 Hive 中创建一个数组如何从数组中获取前 n 个元素并且我想遍历子数组代码示例 select col1 from table where split col2 0 5 0 5 看起来像 python 风格
如何找到符号的完全限定名称空间？

如果我有一个符号其名称空间是别名例如 q w 我如何找到它的实际名称空间例如actual namespace w 我知道resolve会给我完全限定的 var 但我不知道如何获取 var 的命名空间我能做的最好的事情就是 defn
MATLAB 中的矩阵运算

我正在尝试简化我的代码但遇到了一个小问题让 v 1 2 3 a1 4 5 6 a2 7 8 9 A a1 a2 我的目标是计算 u v a1 v a2 仅使用v一度这可能吗是的你可以使用bsxfun 例如 u bsxfun tim
`use std::io::Result as IOResult;` 比 `use std::io;` 仅仅引用 Rust 中的 `io::Result` 更高效吗？

在学习 Rust 的过程中我看到了人们导入库的多种方式例如std io Result 例如 use std io Result as IOResult and pub type IOResult
R 中的表情符号 [UTF-8 编码]

我正在尝试对 R 进行表情符号分析我存储了一些带有表情符号的推文这是我要分析的推文之一 gt tweetn2 1 Programme du week end xed xa0 xbd xed xb2 x83 xed xa0 xbc xed

R 中的表情符号 [UTF-8 编码]

R 中的表情符号 [UTF-8 编码] 的相关文章

随机推荐

热门标签