R 中的表情符号 [UTF-8 编码]

2023-12-05

我正在尝试对 R 进行表情符号分析。 我存储了一些带有表情符号的推文。

这是我要分析的推文之一:

> tweetn2
[1] "Programme du week-end: \xed\xa0\xbd\xed\xb2\x83\xed\xa0\xbc \xed\xbe\xb6\xed\xa0\xbc 
    \xed\xbd\xbb\xed\xa0\xbc\xed\xbd\xbb\xed\xa0\xbc \xed\xbd\xbb\xed\xa0\xbc\xed\xbd\xbb"

确保我有“UTF-8”:

> Encoding(tweetn2)
[1] "UTF-8

” 现在,当我尝试识别一些字符时,效果不佳

> grepl("\\xed",tweetn2)
[1] FALSE

or

> grepl("xed",tweetn2)
[1] FALSE

但表情符号“\xed\xa0\xbd”似乎不是“UTF-8”编码,因为我在写入时收到错误消息:

> str(tweetn2)
Error in str.default(tweetn2) : invalid multibyte string, element 1

我通过使用 iconv() 函数和“ASCII”编码找到了一种解决方案:
http://www.r-bloggers.com/emoticons-decoder-for-social-media-sentiment-analysis-in-r/

但我想继续使用“UTF-8”进行分析,因为它可以很好地处理法语特殊字母(à、é、è、ê、ë、û 等)

那么你知道我怎样才能超越它吗?

Thanks


如所示,该字符串是无效的 UTF-8。你所拥有的是用 UTF-8 编码的 UTF-16。所以\xED\xA0\xBD是高替代品U+D83D, - 和\xED\xB2\x83是低替代品U+DC83

如果你应用魔法高、低 -> 代码点公式,你最终会得到实际的代码点:

(0xD83D - 0xD800) * 0x400 + 0xDC83 - 0xDC00 + 0x10000 = 0x1F483

你会看到这是舞者表情符号。不幸的是,我没有给你的建议,因为我对 R 不太熟悉。但我可以说你肯定希望自己处于这个数据被双重编码的位置!希望这有助于您沿着正确的方向前进。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

R 中的表情符号 [UTF-8 编码] 的相关文章

  • 如何在 Caret 中绘制随机森林(护林员)树

    我生成了如下所示的随机森林树 并尝试绘制它 但出现错误 我在哪里犯了错误 我怎样才能以正确的方式绘制它 Actmodel lt train Activity Section Author data CB1 method ranger trC
  • 如何在 R 中合并同名列表中的数据框?

    我有一个包含很多数据框的列表 如果它们具有相同的名称 我想合并它们 即合并所有具有相同名称 a 和 b 的数据框 像这样 a lt aaaaa b lt bbbbb c lt ccccc g lt list df1 lt data fram
  • 如何对数字进行四舍五入并使其显示零?

    R 中将数字四舍五入到小数点后 2 位的常用代码是 gt a 14 1234 gt round a digits 2 gt a gt 14 12 但是 如果该数字的前两位小数位为零 则 R 会在显示中抑制零 gt a 14 0034 gt
  • R中的字典数据结构

    在 R 中 我有 例如 gt foo lt list a 1 b 2 c 3 如果我输入foo I get a 1 1 b 1 2 c 1 3 我怎样才能看透foo仅获取 键 列表 在这种情况下 a b c R 列表可以具有命名元素 因此可
  • 将 ftransform 与折叠 R 包中的 fgroup_by 一起使用

    我正在尝试重现以下输出dplyr代码与R包裹collapse dplyr Code library tidyverse starwars gt select name mass species gt group by species gt
  • 使用 R 下载压缩数据文件、提取和导入数据

    EZGraphs 在 Twitter 上写道 很多在线 csv 都被压缩了 有没有办法下载 解压缩存档并使用 R 将数据加载到 data frame Rstats 我今天也尝试这样做 但最终只是手动下载 zip 文件 我尝试过类似的东西 f
  • R 可以创建带有可单击条形图的条形图图像以插入网页吗?

    我知道如何创建条形图 以及如何将其粘贴在网页上 例如 使用hwriteImage in the 作家包 http www embl de gpau hwriter 我想要的是每个栏都是一个在鼠标悬停时突出显示的区域 并且每个栏在单击时都有不
  • R 闪亮仪表板中的动态重复条件面板

    我正在尝试创建一个动态条件面板 所以我的条件如下 在用户界面中输入 selectInput inpt Input Number seq 1 50 1 selectize FALSE 我的条件面板 UI 输入是 conditionalPane
  • 如何在 data.table 中分组后使用条件计算行数

    我有以下数据框 dat lt read csv s1 s2 v1 v2 a b 10 20 a b 22 NA a b 13 33 c d 3 NA c d 4 5 NA c d 10 20 dat gt A tibble 6 x 4 gt
  • 如何按时间间隔匹配数据帧?

    这是我从数据记录器导入原始数据时经常出现的问题 温度记录仪设置为每十分钟记录一次温度 单独的气体记录仪设置为记录最后十分钟间隔内使用的气体 我想将这两个记录器的数据合并到一个数据框中进行绘图和分析 但时间并不完全一致 我希望每十分钟的时间段
  • 如何纠正 data.frame 上的字符编码

    我有一个像这样的数据框 data names lt data frame DATA c 1 5 rownames data names lt c IV xc1N JOS xc9 LUC xcdA RAM xd3N TO xd1O data
  • `as.matrix` 和 `as.data.frame` S3 方法与 S4 方法

    我注意到定义as matrix or as data frame作为 S4 类的 S3 方法 使例如lm formula objS4 and prcomp object 开箱即用 如果它们被定义为 S4 方法 则这不起作用 为什么将方法定义
  • R,使用具有两种以上可能性的二项式分布

    我知道这可能是基本的 但我似乎有一个心理障碍 假设您想要计算在一个骰子上掷出 4 5 或 6 的概率 在 R 中 这很简单 sum 1 6 1 6 1 6 这给出了 1 2 这是正确答案 然而 我内心深处 可能应该保留的地方 认为我应该能够
  • 在 R 中提取 data.frames 列表的名称以及 data.frame 中的值

    在下面的代码中 j是 data frames 的命名列表 我想知道是否有办法 a 提取变量的数值 即one short and one long 在 data frames 内并附加它们的相关名称 即 AAA or BBB or CCC 到
  • 在 RMarkdown 输出到 PDF 时缩进而不添加项目符号点或编号

    之前有人问过如何在没有项目符号的情况下缩进文本 RMarkdown 中的点 但这是针对 HTML 输出的 在 RMarkdown 中缩进而不添加项目符号点或数字 https stackoverflow com questions 47087
  • 在ggplot中设置y轴中断

    我在代码中设置中断时遇到困难 我尝试添加breaks seq 0 100 by 20 但似乎无法让它正常工作 本质上我希望 Y 轴从 0 到 100 每 20 个刻度一次 YearlyCI lt read table header T te
  • dplyr:连接中的 NSE (by)

    我很难弄清楚如何使用 dplyr left join 和 NSE 连接两个表 问题是我无法为 by 提供正确的值 我想我现在已经找到了解决方案 但感觉我正在以一种额外复杂的方式来做 因此 如果您知道更简单 更优雅的解决方案 请告诉我 这就是
  • Twitter 搜索 API 速率限制如何运作?

    我不清楚 Twitter 速率限制 每个访问令牌 用户每小时 350 个请求 的含义 他们如何限制请求 在 1 个请求中我可以获得多少数据 速率限制基于请求 而不是您收到的数据量 例如字节 考虑到这一点 您可以通过使用您正在调用的特定端点的
  • 如何根据 ggplot2 中的汇总数据创建堆积条形图

    我正在尝试使用 ggplot 2 创建堆积条形图 我的宽格式数据如下所示 每个单元格中的数字是响应的频率 activity yes no dontknow Social events 27 3 3 Academic skills works
  • 如何为自定义 S3 类实现提取/取子集 ([ [<-, [[ [[<-)] 函数?

    我有一个自定义的 S3 类foo 它在正常的基础上添加了一些自定义行为data frame foo object lt data frame class foo object lt c foo data frame 对于这个类 还应该有一个

随机推荐

  • 剪切工具滞后荧光笔

    我尝试在 C Winforms 中创建荧光笔 我使用的大部分代码都在这里像截图工具一样突出显示效果但当我尝试画得太快时 它就会滞后 不确定我做错了什么 这是我尝试过的 private void pictureBox1 Paint objec
  • Flutter - 从数据库中获取记录并显示在 ListView Builder 中

    我正在开发一个 Flutter 项目并使用 Sqflite 数据库 我已经设法将数据保存在数据库中 现在我试图根据表名从数据库中获取所有记录的列表 并将它们显示在 ListView builder 中 数据库助手 dart Future
  • 安装cordova时卡住了

    我正在按照cordova主页上的步骤操作 但第一步我很困惑 我输入了sudo npm install g cordova在终端 但它卡住了 loadDep Xtend 网络 这需要几个小时 但没有进一步的进展 实际上 我在中国 我想这可能是
  • Java Web 应用程序。春季启动。定位图像

    我最近解决了在这个社区中定位图像的问题 你可以看here 然而 有一个答案说 您的应用程序是 Spring Boot 应用程序 我认为您还可以尝试使用 Spring Boot 提供的设施来提供静态内容 不管怎样 你现在正在这样做 因为你正在
  • HTML5 canvas 类上的 jQuery getContext

    这段代码的工作原理
  • Numpy 数组的长整数形状

    如果我构造一个像这样的 numpy 矩阵 A array 1 2 3 4 5 6 然后输入A shape我得到结果 2L 3L 为什么我得到的形状格式很长 我可以重新启动一切 但仍然遇到同样的问题 据我所知 只有当我构造数组时才会遇到这个问
  • Rails Paperclip 只能用于图像吗?

    是否有任何 Rails 库用于管理与 ActiveRecord 连接的文件附件 I know 回形针 但它似乎主要适合图像 他们确实提到了音频和 pdf 文件github项目页面 但没有进一步解释不同文件类型的用法 属性如 style如果您
  • ARM直接内存操作

    ARM中有支持直接内存操作的指令吗 所以而不是 cc cc 100 mov r3 0 ldr r1 r3 0 add r1 r1 100 str r1 r3 0 它是否有类似或接近的东西 add r3 0 100 I know this i
  • MongoEngine 指定查询的读取首选项

    我正在使用 Mongo 2 6 Pymongo 2 7 2 和 Mongoengine 0 8 7 对于特定的读取查询 我想使用副本集的辅助副本 因此 正如 mongoengine 文档中所指定的here我的查询如下 from pymong
  • JVM 如何执行 Try catch finally 块

    根据 Java 语言规范 第 14 20 2 节 带有finally 块的try 语句首先执行try 块 然后就有一个选择 If execution of the try block completes normally then the
  • 根据国家/地区获取货币符号

    我有一个显示货币的 TextView 默认情况下 我的文本视图的文本是 0 00我怎样才能做到这样 根据用户选择而变化 我有以下代码 Locale locale new Locale en US Currency currency Curr
  • 类是结构体还是结构体指针

    如果我没记错的话 结构意味着对象 结构指针意味着指向对象的指针 对吗 在一篇文章中 它说类是结构 这意味着它们是对象 Filter the list of all classes The traditional definition of
  • 从 Facebook 获取电子邮件 - FB android SDK

    我使用以下代码从 Facebook 获取用户的电子邮件和姓名 protected void onCreate Bundle savedInstanceState Display page setContentView R layout ac
  • 致命错误:sys/socket.h:32位上没有这样的文件或目录

    当使用 32 位编译我的程序时 gcc m32 program c o program 我收到以下错误致命错误 sys socket h 没有这样的文件或目录 但与 gcc program c o program 效果很好 有什么解决方法吗
  • KSoap2 和 KvmSerialized - 如何发送复杂的对象,如 Stringarrays

    我想将一个复杂的对象从我的 Ksoap 客户端发送到我的 Web 服务 它是我的类别类别的一个对象 该代码基于本教程的示例 http seesharpgears blogspot de 2010 10 ksoap android web s
  • 如何在Hive中获取数组中的前n个元素

    我使用 split 函数在 Hive 中创建一个数组 如何从数组中获取前 n 个元素 并且我想遍历子数组 代码示例 select col1 from table where split col2 0 5 0 5 看起来像 python 风格
  • 如何找到符号的完全限定名称空间?

    如果我有一个符号 其名称空间是别名 例如 q w 我如何找到它的实际名称空间 例如actual namespace w 我知道resolve会给我完全限定的 var 但我不知道如何获取 var 的命名空间 我能做的最好的事情就是 defn
  • MATLAB 中的矩阵运算

    我正在尝试简化我的代码 但遇到了一个小问题 让 v 1 2 3 a1 4 5 6 a2 7 8 9 A a1 a2 我的目标是计算 u v a1 v a2 仅使用v一度 这可能吗 是的 你可以使用bsxfun 例如 u bsxfun tim
  • `use std::io::Result as IOResult;` 比 `use std::io;` 仅仅引用 Rust 中的 `io::Result` 更高效吗?

    在学习 Rust 的过程中 我看到了人们导入库的多种方式 例如std io Result 例如 use std io Result as IOResult and pub type IOResult
  • R 中的表情符号 [UTF-8 编码]

    我正在尝试对 R 进行表情符号分析 我存储了一些带有表情符号的推文 这是我要分析的推文之一 gt tweetn2 1 Programme du week end xed xa0 xbd xed xb2 x83 xed xa0 xbc xed