如何在 R 中识别/删除非 UTF-8 字符

2023-11-29

当我在 R 中导入 Stata 数据集时(使用foreign包),导入有时包含无效字符UTF-8。这本身就已经够令人不快的了,但是当我尝试将对象转换为JSON(使用rjson包裹)。

如何识别字符串中无效的 UTF-8 字符并在之后将其删除?


另一种解决方案使用iconv和它的论点sub: 字符串。如果不是 NA(这里我将其设置为 ''),则用于替换输入中的任何不可转换字节。

x <- "fa\xE7ile"
Encoding(x) <- "UTF-8"
iconv(x, "UTF-8", "UTF-8",sub='') ## replace any non UTF-8 by ''
"faile"

这里注意,如果我们选择正确的编码:

x <- "fa\xE7ile"
Encoding(x) <- "latin1"
xx <- iconv(x, "latin1", "UTF-8",sub='')
facile
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 R 中识别/删除非 UTF-8 字符 的相关文章

  • R 提交到 CRAN:构建包的 R 版本?

    我想向 CRAN 提交一个包裹 在里面CRAN 存储库政策 http cran r project org web packages policies html它指出 当发布新的 R x y 0 版本时 R CMD 检查给出 错误 的包将被
  • 使用:text/plain; 有什么缺点吗?字符集=“UTF-8”

    我的网络服务器提供的内容在 95 的情况下只是简单的 ascii 但在极少数情况下 内容包含一些德语非 ASCII 字符 现在我可以设置content type通过检测内容是否包含任何非 ASCII 字符来响应标头 或者我可以始终设置响应标
  • 如何调整ggplot2中的标题位置

    这是代码 require ggplot2 require grid pdf a pdf png a png a lt qplot date unemploy data economics geom line opts title A b l
  • sapply 函数从命名向量中的值填充数据帧的列,需要很长时间。有更快的方法吗?

    这是我正在做的一个例子 x lt c a 2 b 4 c 2 d 9 df lt data frame names c d c a b x是一个命名向量 其值的顺序与它们在中出现的顺序不同df names 我需要在数据框中形成一个新列 该列
  • 使用 RSQLite 在 R 中加载 SQLite 表

    我有这个函数用来加载 SQLite 表 sqLiteConnect lt function database table library DBI library RSQLite con lt dbConnect SQLite dbname
  • dplyr 标准评估:summarise_ 以及求和变量的变量名称

    我遇到了很多与我的问题类似的问题 但只解决了我问题的一部分 我使用带有标准评估的 dplyr 来容纳变量名称 这对于管道中的 filter 和 group by 效果很好 但是 为了总结 我无法为我正在求和的指标提供变量名称 一个例子就可以
  • 在 R 中使用 randomforest() 进行分类?

    我最初有一个由 N 行 12 列组成的数据框 最后一列是我的班级 0 或 1 我必须将整个数据框转换为数字 training lt sapply training temp as numeric 但后来我认为我需要将类列作为因子列来使用 r
  • 在 ggplot2 中,如何将堆叠直方图中的小值条形组合在一起?

    示例数据 tmp df lt data frame a rnorm 100 0 1 b rnorm 100 0 5 1 c rnorm 100 0 5 1 d rnorm 100 1 1 e rnorm 100 1 1 gt tidyr g
  • rmarkdown 中的内部链接不起作用

    我使用 rmarkdown 来渲染 pdf 文档 现在我想在文本中添加内部链接 在帮助页面中降价 http rmarkdown rstudio com authoring pandoc markdown html links 它说内部链接定
  • 将 data.frame 的列中的值替换为另一个 data.frame 中的值

    我的情况是 我有一个数据框 其中有一列填充了整数 1 到 6 我想用更具描述性的标签替换这些整数 这些标签在另一个充当 键 的数据框中提供 V1 V2 1 1 LABEL1 2 2 LABEL2 3 3 LABEL3 4 4 LABEL4
  • 计算级别内的值

    我在 R 中生成了一组级别cut 例如假设 0 到 1 之间的小数值 分为 0 1 个区间 gt frac lt cut c 0 1 breaks 10 gt levels frac 1 0 001 0 1 0 1 0 2 0 2 0 3
  • 返回带有参数的函数的函数

    创建一个应返回包含原始函数参数的函数时 我应该如何处理 例如考虑这个函数 a lt function value function x x value 我希望它返回我在结果函数的参数中指定的值 如下所示 b lt a 3 gt b gt f
  • R 中大型稀疏矩阵的聚类分析

    我有一个包含 250000 笔交易 行 和 2183 项 列 的交易数据集 我想将其转换为稀疏矩阵 然后对其进行分层聚类 我尝试了包 sparcl 但它似乎不适用于稀疏矩阵 关于如何解决这个问题有什么建议吗 或者我可以使用任何其他包对稀疏矩
  • R比例置信区间因子

    我正在尝试总结家庭调查的数据 因此我的大部分数据都是分类 因子 数据 我想用对某些问题的回答频率图来总结它 例如 回答某些问题的家庭百分比的条形图 误差线显示置信区间 我发现了这个很棒的教程 我认为它是我祈祷的答案 http www coo
  • 有效地将环境从内部功能转移到全局环境

    我有一个在其中创建环境的函数 我希望将该环境分配给全局环境 目前我通过将环境分配给来做到这一点globalenv 作为最后一步 如下 funfun lt function inc 1 dataEnv lt new env dataEnv d
  • 正则表达式挑选括号之间的一些文本[重复]

    这个问题在这里已经有答案了 可能的重复 提取 R 中所有括号内的信息 正则表达式 https stackoverflow com questions 8613237 extract info inside all parenthesis i
  • udunits2 R 安装:找不到 udunits2.h

    我正在尝试在 R 中安装 udunits2 以满足对ggforce包裹 但是 安装程序在检查 udunits2 时始终失败 我已经尝试过中的说明this https stackoverflow com questions 47059517
  • 仅在具有重复块名称的另一个 Rmarkdown 文档中运行一个 Rmarkdown 文档中的代码

    我正在 Rmarkdown 中编写一系列相互补充的报告 我想将上一份报告的结果纳入我目前正在编写的报告中 我看到其他建议使用的问题purl从 Rmarkdown 文档中提取 R 代码然后运行它 所以我尝试了以下操作 r read previ
  • 按绝对值排序

    有谁知道如何按绝对值对 R 中的向量进行排序 所以 2 3 1 gt 1 2 3 etc 如果我在 python 中这样做 我会创建一对每个值及其符号 按绝对值对对列表进行排序 然后重新应用符号 但我对 R 很陌生 所以不知道如何执行此操作
  • 如何在 R 地图库中绘制正确的颜色

    我正在尝试使用 R 地图库为特定国家绘制特定颜色 我可以填写颜色 但它们与各自的国家 地区没有正确关联 我想知道是否有人能知道为什么 我的数据框是 filld 有 3 列 第一列是国家名称 第二列只是一些数字数据 第三列是颜色 countr

随机推荐

  • 使用 AspNet.Security.OpenIdConnect.Server 注销 (ASP.NET vNext)

    我正在使用 Visual Studio 2015 Enterprise 和 ASP NET vNext Beta8 来发行和使用 JWT 令牌 如下所述here 在我们的实现中 我们在令牌发布时将一些客户端详细信息存储在 Redis 中 并
  • 转换为 .NET 4 后,在 VS2010 中将字段附加到记录集时出现奇怪的错误

    我有这个网站的一些代码代码项目链接将数据表转换为记录集 这段代码一直工作正常 直到我更改为 NET 4 以前是 2 现在当我调用以下行时 Dim result As New ADODB Recordset result CursorLoca
  • 如何使用 Indy TIdTCPServer 跟踪客户端数量

    我想知道当前到 Indy 9 TIdTCPServer 的客户端连接数 在 Delphi 2007 上 我似乎找不到提供此功能的属性 我尝试在服务器 OnConnect OnDisconnect 事件上增加 减少计数器 但当客户端断开连接时
  • 我该如何处理代码以避免被杀?

    I got Killed运行一段代码后 代码的第一部分是 def load data distance file distance min dis max dis sys float info max 0 0 num 0 with open
  • MongoDB批量插入忽略重复

    我用谷歌搜索了一下 找不到任何关于如何在使用批量插入时忽略重复错误的可靠信息 这是我当前使用的代码 MongoClient connect mongoURL function err db if err console err err le
  • PHP 将月份数字转换为短月份名称[重复]

    这个问题在这里已经有答案了 我需要将月份编号转换为短月份名称 即 1 表示一月 2 表示二月 我知道我可以通过数组来实现这一点 但是还有其他方法吗 帮助表示赞赏 Thanks 就在这里 使用date stftime结合mktime创建所需月
  • yang 中默认值的条件赋值

    我的模型有两个属性 叶协议 叶端口 我想具体说明的是 如果协议 ssh 那么默认端口值为 22 如果协议 http 那么默认端口值为 80 etc 我该如何用 yang 来表达这个意思 没有条件的defaultYANG 值 你需要两个def
  • OpenQA.Selenium.WebDriverException:“无法在 http://localhost:60623/ 上启动驱动程序服务”

    以下代码在过去效果很好 几天后 我尝试再次运行它 但它抛出了这样的错误 using OpenQA Selenium using OpenQA Selenium Chrome using OpenQA Selenium Support UI
  • 如何移动自定义对话框?

    我是安卓初学者 我正在创建一个自定义对话框 它工作正常 但这个对话框没有动 如何移动这个自定义对话框 例如在Windows中包含记事本 画图等 当您单击此 记事本 画图等 标题栏时可以移动位置 如果可能 请发送如何移动对话框的信息 否则 如
  • window.print 不适用于 Opera 浏览器

    我正在尝试使用 javascript 代码在 Opera 浏览器中打开打印对话框 就好像我使用以下代码 Opera 浏览器可以理解并能够打开打印对话框
  • 如果元素存在等待它消失

    所以我正在尝试编写一些 cypress 代码 但我认为文档并不是很清楚 我有两种情况 页面加载时没有加载微调器 页面通过加载微调器加载 我想编写能够满足这两种情况的代码 并让测试继续进行 如果页面没有加载微调器元素 照常继续测试 如果页面确
  • 为什么每个观察委托都在新线程上运行

    在 Rx 中 当使用 Scheduler NewThread 作为 ObserveOn 方法时 当 Rx 已经保证 OnNext 永远不会重叠时 让每个观察委托 OnNext 在新线程上运行有什么好处 如果每个 OnNext 都会被一个接一
  • Flutter Table Calendar:显示从 API 到表日历的事件

    我想显示日历并包括事件 该事件已从 API 中存在 我搜索适合我的情况的插件 我发现表格日历插件 我阅读了手动显示事件的示例并发现了它 override void initState super initState final select
  • 如何读取使用 R 加密的 .xls 文件?

    通常我使用readxl用于读取 excel 文件的包 非常好 read excel path ihateexcel xls sheet 1 但是 如果我尝试读取加密的 xls 文件 会话基本上会冻结 显然不想将文件保存为 csv 因为我会丢
  • Jquery 文件树 - 如何在文件夹单击时返回文件夹名称

    我已经安装并尝试自定义 Jquery 文件树 以便单击文件夹名称时 文件夹名称和路径将返回到调用函数 目前它仅展开和折叠文件夹 并在单击文件时返回文件名 所以我也需要返回该文件夹 但看不到它是在哪里触发的 我正在使用 php 连接器 下面的
  • 如何使 JFileChooser 在断开网络驱动器时正常运行?

    当我在网络驱动器断开连接的系统上创建 JFileChooser 时 需要很长时间才能显示 JFileChooser 它会通过单个断开连接的网络驱动器阻止 EDT 大约 20 秒 这似乎是一个常见问题 但我找不到解决方法 我见过的可能的选择是
  • Azure 服务总线不断抛出 MessageLockLostException

    我不断得到MessageLockLostExceptions处理消息时 我将 Microsoft Azure ServiceBus 3 2 0 与 NET Core 2 1 一起使用 我有一个队列LockDuration设置为 30 秒 已
  • 在Python中绘制实际设置的项目,而不是项目的数量

    我写了这个小函数 def sets set1 random sample range 1 50 10 set2 random sample range 1 50 10 return set1 set2 sets 该函数的输出如下所示 24
  • 将输出数据写入文本文件在文本文件中给出不完整的结果

    我有 14 个列表 每个列表都有数字或字符串数 据 每个列表的大小为 32561 我必须输出格式如下的文件 list1 element1 list2 element1 list14 element1 list1 element2 list2
  • 如何在 R 中识别/删除非 UTF-8 字符

    当我在 R 中导入 Stata 数据集时 使用foreign包 导入有时包含无效字符UTF 8 这本身就已经够令人不快的了 但是当我尝试将对象转换为JSON 使用rjson包裹 如何识别字符串中无效的 UTF 8 字符并在之后将其删除 另一