如何在 R 中识别/删除非 UTF-8 字符

2023-11-29

当我在 R 中导入 Stata 数据集时（使用foreign包），导入有时包含无效字符UTF-8。这本身就已经够令人不快的了，但是当我尝试将对象转换为JSON（使用rjson包裹）。

如何识别字符串中无效的 UTF-8 字符并在之后将其删除？

另一种解决方案使用iconv和它的论点sub: 字符串。如果不是 NA（这里我将其设置为 ''），则用于替换输入中的任何不可转换字节。

x <- "fa\xE7ile"
Encoding(x) <- "UTF-8"
iconv(x, "UTF-8", "UTF-8",sub='') ## replace any non UTF-8 by ''
"faile"

这里注意，如果我们选择正确的编码：

x <- "fa\xE7ile"
Encoding(x) <- "latin1"
xx <- iconv(x, "latin1", "UTF-8",sub='')
facile

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

UTF8

stata

如何在 R 中识别/删除非 UTF-8 字符的相关文章

R 提交到 CRAN：构建包的 R 版本？

我想向 CRAN 提交一个包裹在里面CRAN 存储库政策 http cran r project org web packages policies html它指出当发布新的 R x y 0 版本时 R CMD 检查给出错误的包将被
使用：text/plain; 有什么缺点吗？字符集=“UTF-8”

我的网络服务器提供的内容在 95 的情况下只是简单的 ascii 但在极少数情况下内容包含一些德语非 ASCII 字符现在我可以设置content type通过检测内容是否包含任何非 ASCII 字符来响应标头或者我可以始终设置响应标
如何调整ggplot2中的标题位置

这是代码 require ggplot2 require grid pdf a pdf png a png a lt qplot date unemploy data economics geom line opts title A b l
sapply 函数从命名向量中的值填充数据帧的列，需要很长时间。有更快的方法吗？

这是我正在做的一个例子 x lt c a 2 b 4 c 2 d 9 df lt data frame names c d c a b x是一个命名向量其值的顺序与它们在中出现的顺序不同df names 我需要在数据框中形成一个新列该列
使用 RSQLite 在 R 中加载 SQLite 表

我有这个函数用来加载 SQLite 表 sqLiteConnect lt function database table library DBI library RSQLite con lt dbConnect SQLite dbname
dplyr 标准评估：summarise_ 以及求和变量的变量名称

我遇到了很多与我的问题类似的问题但只解决了我问题的一部分我使用带有标准评估的 dplyr 来容纳变量名称这对于管道中的 filter 和 group by 效果很好但是为了总结我无法为我正在求和的指标提供变量名称一个例子就可以
在 R 中使用 randomforest() 进行分类？

我最初有一个由 N 行 12 列组成的数据框最后一列是我的班级 0 或 1 我必须将整个数据框转换为数字 training lt sapply training temp as numeric 但后来我认为我需要将类列作为因子列来使用 r
在 ggplot2 中，如何将堆叠直方图中的小值条形组合在一起？

示例数据 tmp df lt data frame a rnorm 100 0 1 b rnorm 100 0 5 1 c rnorm 100 0 5 1 d rnorm 100 1 1 e rnorm 100 1 1 gt tidyr g
rmarkdown 中的内部链接不起作用

我使用 rmarkdown 来渲染 pdf 文档现在我想在文本中添加内部链接在帮助页面中降价 http rmarkdown rstudio com authoring pandoc markdown html links 它说内部链接定
将 data.frame 的列中的值替换为另一个 data.frame 中的值

我的情况是我有一个数据框其中有一列填充了整数 1 到 6 我想用更具描述性的标签替换这些整数这些标签在另一个充当键的数据框中提供 V1 V2 1 1 LABEL1 2 2 LABEL2 3 3 LABEL3 4 4 LABEL4
计算级别内的值

我在 R 中生成了一组级别cut 例如假设 0 到 1 之间的小数值分为 0 1 个区间 gt frac lt cut c 0 1 breaks 10 gt levels frac 1 0 001 0 1 0 1 0 2 0 2 0 3
返回带有参数的函数的函数

创建一个应返回包含原始函数参数的函数时我应该如何处理例如考虑这个函数 a lt function value function x x value 我希望它返回我在结果函数的参数中指定的值如下所示 b lt a 3 gt b gt f
R 中大型稀疏矩阵的聚类分析

我有一个包含 250000 笔交易行和 2183 项列的交易数据集我想将其转换为稀疏矩阵然后对其进行分层聚类我尝试了包 sparcl 但它似乎不适用于稀疏矩阵关于如何解决这个问题有什么建议吗或者我可以使用任何其他包对稀疏矩
R比例置信区间因子

我正在尝试总结家庭调查的数据因此我的大部分数据都是分类因子数据我想用对某些问题的回答频率图来总结它例如回答某些问题的家庭百分比的条形图误差线显示置信区间我发现了这个很棒的教程我认为它是我祈祷的答案 http www coo
有效地将环境从内部功能转移到全局环境

我有一个在其中创建环境的函数我希望将该环境分配给全局环境目前我通过将环境分配给来做到这一点globalenv 作为最后一步如下 funfun lt function inc 1 dataEnv lt new env dataEnv d
正则表达式挑选括号之间的一些文本[重复]

这个问题在这里已经有答案了可能的重复提取 R 中所有括号内的信息正则表达式 https stackoverflow com questions 8613237 extract info inside all parenthesis i
udunits2 R 安装：找不到 udunits2.h

我正在尝试在 R 中安装 udunits2 以满足对ggforce包裹但是安装程序在检查 udunits2 时始终失败我已经尝试过中的说明this https stackoverflow com questions 47059517
仅在具有重复块名称的另一个 Rmarkdown 文档中运行一个 Rmarkdown 文档中的代码

我正在 Rmarkdown 中编写一系列相互补充的报告我想将上一份报告的结果纳入我目前正在编写的报告中我看到其他建议使用的问题purl从 Rmarkdown 文档中提取 R 代码然后运行它所以我尝试了以下操作 r read previ
按绝对值排序

有谁知道如何按绝对值对 R 中的向量进行排序所以 2 3 1 gt 1 2 3 etc 如果我在 python 中这样做我会创建一对每个值及其符号按绝对值对对列表进行排序然后重新应用符号但我对 R 很陌生所以不知道如何执行此操作
如何在 R 地图库中绘制正确的颜色

我正在尝试使用 R 地图库为特定国家绘制特定颜色我可以填写颜色但它们与各自的国家地区没有正确关联我想知道是否有人能知道为什么我的数据框是 filld 有 3 列第一列是国家名称第二列只是一些数字数据第三列是颜色 countr

随机推荐

使用 AspNet.Security.OpenIdConnect.Server 注销 (ASP.NET vNext)

我正在使用 Visual Studio 2015 Enterprise 和 ASP NET vNext Beta8 来发行和使用 JWT 令牌如下所述here 在我们的实现中我们在令牌发布时将一些客户端详细信息存储在 Redis 中并
转换为 .NET 4 后，在 VS2010 中将字段附加到记录集时出现奇怪的错误

我有这个网站的一些代码代码项目链接将数据表转换为记录集这段代码一直工作正常直到我更改为 NET 4 以前是 2 现在当我调用以下行时 Dim result As New ADODB Recordset result CursorLoca
如何使用 Indy TIdTCPServer 跟踪客户端数量

我想知道当前到 Indy 9 TIdTCPServer 的客户端连接数在 Delphi 2007 上我似乎找不到提供此功能的属性我尝试在服务器 OnConnect OnDisconnect 事件上增加减少计数器但当客户端断开连接时
我该如何处理代码以避免被杀？

I got Killed运行一段代码后代码的第一部分是 def load data distance file distance min dis max dis sys float info max 0 0 num 0 with open
MongoDB批量插入忽略重复

我用谷歌搜索了一下找不到任何关于如何在使用批量插入时忽略重复错误的可靠信息这是我当前使用的代码 MongoClient connect mongoURL function err db if err console err err le
PHP 将月份数字转换为短月份名称[重复]

这个问题在这里已经有答案了我需要将月份编号转换为短月份名称即 1 表示一月 2 表示二月我知道我可以通过数组来实现这一点但是还有其他方法吗帮助表示赞赏 Thanks 就在这里使用date stftime结合mktime创建所需月
yang 中默认值的条件赋值

我的模型有两个属性叶协议叶端口我想具体说明的是如果协议 ssh 那么默认端口值为 22 如果协议 http 那么默认端口值为 80 etc 我该如何用 yang 来表达这个意思没有条件的defaultYANG 值你需要两个def
OpenQA.Selenium.WebDriverException：“无法在 http://localhost:60623/ 上启动驱动程序服务”

以下代码在过去效果很好几天后我尝试再次运行它但它抛出了这样的错误 using OpenQA Selenium using OpenQA Selenium Chrome using OpenQA Selenium Support UI
如何移动自定义对话框？

我是安卓初学者我正在创建一个自定义对话框它工作正常但这个对话框没有动如何移动这个自定义对话框例如在Windows中包含记事本画图等当您单击此记事本画图等标题栏时可以移动位置如果可能请发送如何移动对话框的信息否则如
window.print 不适用于 Opera 浏览器

我正在尝试使用 javascript 代码在 Opera 浏览器中打开打印对话框就好像我使用以下代码 Opera 浏览器可以理解并能够打开打印对话框
如果元素存在等待它消失

所以我正在尝试编写一些 cypress 代码但我认为文档并不是很清楚我有两种情况页面加载时没有加载微调器页面通过加载微调器加载我想编写能够满足这两种情况的代码并让测试继续进行如果页面没有加载微调器元素照常继续测试如果页面确
为什么每个观察委托都在新线程上运行

在 Rx 中当使用 Scheduler NewThread 作为 ObserveOn 方法时当 Rx 已经保证 OnNext 永远不会重叠时让每个观察委托 OnNext 在新线程上运行有什么好处如果每个 OnNext 都会被一个接一
Flutter Table Calendar：显示从 API 到表日历的事件

我想显示日历并包括事件该事件已从 API 中存在我搜索适合我的情况的插件我发现表格日历插件我阅读了手动显示事件的示例并发现了它 override void initState super initState final select
如何读取使用 R 加密的 .xls 文件？

通常我使用readxl用于读取 excel 文件的包非常好 read excel path ihateexcel xls sheet 1 但是如果我尝试读取加密的 xls 文件会话基本上会冻结显然不想将文件保存为 csv 因为我会丢
Jquery 文件树 - 如何在文件夹单击时返回文件夹名称

我已经安装并尝试自定义 Jquery 文件树以便单击文件夹名称时文件夹名称和路径将返回到调用函数目前它仅展开和折叠文件夹并在单击文件时返回文件名所以我也需要返回该文件夹但看不到它是在哪里触发的我正在使用 php 连接器下面的
如何使 JFileChooser 在断开网络驱动器时正常运行？

当我在网络驱动器断开连接的系统上创建 JFileChooser 时需要很长时间才能显示 JFileChooser 它会通过单个断开连接的网络驱动器阻止 EDT 大约 20 秒这似乎是一个常见问题但我找不到解决方法我见过的可能的选择是
Azure 服务总线不断抛出 MessageLockLostException

我不断得到MessageLockLostExceptions处理消息时我将 Microsoft Azure ServiceBus 3 2 0 与 NET Core 2 1 一起使用我有一个队列LockDuration设置为 30 秒已
在Python中绘制实际设置的项目，而不是项目的数量

我写了这个小函数 def sets set1 random sample range 1 50 10 set2 random sample range 1 50 10 return set1 set2 sets 该函数的输出如下所示 24
将输出数据写入文本文件在文本文件中给出不完整的结果

我有 14 个列表每个列表都有数字或字符串数据每个列表的大小为 32561 我必须输出格式如下的文件 list1 element1 list2 element1 list14 element1 list1 element2 list2
如何在 R 中识别/删除非 UTF-8 字符

当我在 R 中导入 Stata 数据集时使用foreign包导入有时包含无效字符UTF 8 这本身就已经够令人不快的了但是当我尝试将对象转换为JSON 使用rjson包裹如何识别字符串中无效的 UTF 8 字符并在之后将其删除另一

如何在 R 中识别/删除非 UTF-8 字符

如何在 R 中识别/删除非 UTF-8 字符 的相关文章

随机推荐

热门标签

如何在 R 中识别/删除非 UTF-8 字符的相关文章