在 R 中从列表转换为 data.frame 时，utf-8 字符会丢失

2023-12-21

我在 Windows 7 64 位上使用 R 3.2.0 和 RStudio 0.98.1103。我的电脑的Windows“区域和语言设置”是英语（美国）。

由于某种原因，以下代码将文本“Koryčany nad přehradou”中的捷克语字符“č”和“ř”替换为“c”和“r”，当我从网络读取 utf-8 编码的 XML 文件时，解析将 XML 文件转换为列表，并将列表转换为 data.frame。

library(XML)
url <- "http://hydrodata.info/chmi-h/cuahsi_1_1.asmx/GetSiteInfoObject?site=CHMI-H:1263&authToken="
doc <- xmlRoot(xmlTreeParse(url, getDTD=FALSE, useInternalNodes = TRUE))
infoList <- xmlToList(doc[[2]][[1]])
siteName <- infoList$siteName

#this still displays correctly "Koryčany nad přehradou"
print(siteName) 

#make a data.frame from the list item. I suspect here is the problem.
df <- data.frame(name=siteName, id=1)

#now the Czech characters are lost. I see only "Korycany nad prehradou"
View(df) 

write.csv(df,"test.csv")
#the test.csv file also contains "Korycany nad prehradou" 
#instead of "Koryčany nad přehradou"

问题是什么？如何使 R 使用所有 utf-8 特殊字符正确显示我的 data.frame 并保存 .csv 文件而不丢失“č”和“ř”捷克语字符？

这不是一个完美的答案，但以下解决方法为我解决了问题。我试图理解 R 的行为，并制作示例，以便我的 R 脚本在 Windows 和 Linux 平台上产生相同的结果：

(1) 从网上获取UTF-8格式的XML数据

library(XML)
url <- "http://hydrodata.info/chmi-h/cuahsi_1_1.asmx/GetSiteInfoObject?site=CHMI-H:1263&authToken="
doc <- xmlRoot(xmlTreeParse(url, getDTD=FALSE, useInternalNodes = TRUE))
infoList <- xmlToList(doc[[2]][[1]])
siteName <- infoList$siteName

(2) 从网上打印出文本：编码为UTF-8，在Windows上使用捷克语和英语语言环境在R控制台中显示也是正确的：

> Sys.getlocale(category="LC_CTYPE")
[1] "English_United States.1252"
> print(siteName)
[1] "Koryčany nad přehradou"
> Encoding(siteName)
[1] "UTF-8"
>

(3) 尝试创建并查看data.frame。这有一个问题。 data.frame 在 RStudio 视图和控制台中显示不正确：

df <- data.frame(name=siteName, id=1)
df
                    name id
1 Korycany nad prehradou  1

(4)尝试用矩阵代替。令人惊讶的是，矩阵在 R 控制台中正确显示。

m <- as.matrix(df)
View(m)  #this shows incorrectly in RStudio
m        #however, this shows correctly in the R console.
     name                     id 
[1,] "Koryčany nad přehradou" "1"

(5) 更改区域设置。如果我使用的是 Windows，请将区域设置设置为捷克语。如果我使用的是 Unix 或 Mac，请将区域设置设置为 UTF-8。注意：当我在 RStudio 中运行脚本时，这会出现一些问题，显然 RStudio 并不总是立即对 Sys.setlocale 命令做出反应。

#remember the original locale.
original.locale <- Sys.getlocale(category="LC_CTYPE")

#for Windows set locale to Czech. Otherwise set locale to UTF-8
new.locale <- ifelse(.Platform$OS.type=="windows", "Czech_Czech Republic.1250", "en_US.UTF-8")
Sys.setlocale("LC_CTYPE", new.locale)

(7) 将数据写入文本文件。重要提示：不要使用write.csv但改为使用write.table。当我的语言环境是Czech在我的英语 Windows 上，我必须使用fileEncoding="UTF-8" in the write.table。现在，文本文件可以在 notepad++ 和 Excel 中正确显示。

write.table(m, "test-czech-utf8.txt", sep="\t", fileEncoding="UTF-8")

(8) 将语言环境设置回原来的语言环境

Sys.setlocale("LC_CTYPE", original.locale)

(9) 尝试将文本文件读回 R。注意：如果我读该文件，我必须设置encoding参数（不是文件编码！）。从文件读取的 data.frame 的显示仍然不正确，但是当我转换我的data.frame to a matrix保留捷克语 UTF-8 字符：

data.from.file <- read.table("test-czech-utf8.txt", sep="\t", encoding="UTF-8")
#the data.frame still has the display problem, "č" and "ř" get "lost"
> data.from.file
                     name id
1 Korycany nad prehradou  1

#see if a matrix displays correctly: YES it does!
matrix.from.file <- as.matrix(data.from.file)
> matrix.from.file
  name                     id 
1 "Koryčany nad přehradou" "1"

所以吸取的教训是我需要改变我的data.frame to a matrix，将我的区域设置设置为Czech（在 Windows 上）或UTF-8（在 Mac 和 Linux 上）在我将包含捷克语字符的数据写入文件之前。然后当我写入文件时，我必须确保fileEncoding必须设置为 UTF-8。另一方面，当我稍后阅读该文件时，我可以继续在英语语言环境中工作，但在read.table我必须设置encoding="UTF-8".

如果有人有更好的解决方案，我会欢迎您的建议。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 R 中从列表转换为 data.frame 时，utf-8 字符会丢失的相关文章

使用 tidymodel 运行多个回归模型

我最近一直在使用 tidymodels 来运行模型并选择最能满足某些目标函数的参数例如对 mtcars 数据使用假设回归使用此问题底部答案中的回归示例作为示例 https stackoverflow com questions 241
merge.zoo 删除时区

的结果merge zoo与其输入的时区不同考虑下面的例子 library zoo zoo a zoo data frame a 1 5 seq as POSIXct 2014 01 01 00 00 01 tz UTC as POSIXc
UTF-8 解码如何知道字节边界？

我一直在阅读大量有关 unicode 编码的文章尤其是有关 Python 的文章我想我现在对此已经有了相当深入的了解但仍有一个小细节我有点不确定解码如何知道字节边界例如假设我有一个带有两个 unicode 字符的 unicode
R data.table 按组创建列表列

我有一个data table下面我想将一个函数应用于列v2通过分组v1 and order 结果列v3应该是下面的向量列表如何编写这个函数以便它为每个组的第一行返回一个 0 向量 order 1 v1 in c 1 2 对于组中的每
检查远程错误时出错 (val)：5 个节点产生错误：未找到对象

我尝试使用并行处理 parLapply 进行 10 倍交叉验证并估计联合模型的模型性能我试图找出为什么我收到错误消息 checkForRemoteErrors val 中的错误五个节点产生错误未找到对象 Week 代码如下 Valid
使用条件函数在 data.table() 中分配多列

在上一个问题中在 dplyr mutate 中返回一个列表 https stackoverflow com questions 21630406 return a list in dplyr mutate noredirect 1 comm
ggplot2极坐标图轴标签位置

This is just a extension for a old question ggplot2 polar plot arrows https stackoverflow com questions 10515703 ggplot2
R 使用 dplyr 将列移动到最后

对于 data frame 来说n列我希望能够从任何列移动列1 n 1 位置成为第 n 列即非最后一列成为最后一列我也想使用dplyr 我想这样做而不是简单地键入所有列的名称例如 data lt data frame a 1 5
mutate rowSums 排除一列

我有一个像这样的数据框 gt df Source local data frame 4 x 4 a x y z 1 name1 1 1 1 2 name2 1 1 1 3 name3 1 1 1 4 name4 1 1 1 想要通过添加 x
条件格式 DT 中的样式

我想根据 B 列中的值对 A 列中的行进行着色下面的代码基于小插图中的示例Link https rstudio github io DT 010 style html 但仅显示两列的条件 mobile number by mobile f
问号字符显示在文本中。为什么是这样？

我有一个备份服务器可以自动备份我的实时站点包括文件和数据库在实时站点上文本看起来不错但是当您查看它的镜像版本时它会显示在某些文本中该文本存储在新闻数据库表中这是实时服务器和镜像服务器上的屏幕截图将其备份到镜像服务器的过程
使用plot(...,add=T) 叠加栅格图会导致最终图任意错位

我发现当我尝试使用plot add T 叠加多个栅格时如果我尝试将超过3 个栅格叠加在一起则后续图不会正确对齐栅格我的初衷是创建一个模拟土地覆盖的分类地图其中代表覆盖类别的颜色深浅随着我们模型投影的确定性而变化为此我创建了一个
如何使用 python apply/lambda/shift 函数根据 2 列的值获取该特定列的前一行值？

我有 2 列 FN1 和 FN2 基于这些我必须再创建一列最终 FN1 FN2 Final False False 1 True True 1 False False 1 True False 2 True True 2 False Fa
传说在北卡罗来纳州地理地图上消失？

我正在使用 R 编程语言使用北卡罗来纳州的内置地图我生成了 3 个随机变量收入孩子数量体重然后为此数据创建了地图使用传单库通过循环 library sf library mapview library leaflet l
R 中的“CSS 中的非平稳季节性 AR 部分”错误

我正在尝试拟合季节性分解系列的 ARIMA 模型但是当我尝试执行以下操作时 fit arima diff series order c 1 0 0 seasonal list order c 1 0 0 period NA 它给我以下错误
如何在 R 中创建没有情节的图例？

这是一个艺术项目我创建了一个包含 5 种不同颜色的许多点的散点图我想创建一个与绘图完全分开的图例因为它不在绘图上也不在绘图旁边而是在它自己的窗口中因此我可以将图例保存为它自己的 pdf 文件这样我就可以将我的情节和图例分开打印
Pandas 将 NULL 读取为 NaN 浮点数而不是 str [重复]

这个问题在这里已经有答案了给定文件 cat test csv a b c NULL d e f g h i j k l m n 其中第三列被视为str 当我对列执行字符串函数时 pandas已阅读NULLstr 作为一个NaN float
如何在Shiny中动态生成的条件面板中格式化条件？

我正在尝试使用 for 循环在 Shiny 中创建小部件每个块包含 label 复选框选择选择器两个数字输入我想根据复选框的值和选择选择器的值来设置显示或隐藏两个数字输入的条件在我创建的 for 循环中我为每个小部件变量添加了一
如何识别数据集中其他列之和的列

我想编写一个函数最好用 R 语言但也欢迎其他语言它可以识别数据集中列之间的关系仅限于加法减法其实际应用是在大型多列财务数据集上运行它其中某些列是其他列的小计并识别此类小计理想情况下我希望允许一些小的差异例如允许舍入问题
R 是解释型编程语言还是编译型编程语言？

R 是解释型编程语言还是编译型编程语言 The R FAQ https cran r project org doc FAQ R FAQ html What is R 003f说 R 的核心是一种解释型计算机语言

随机推荐

类型错误：“未定义”不是函数（评估“mockBackend.expectPost（

我正在尝试使用 Karma 和 jasmine 对 angularjs 控制器进行单元测试这是我的测试套件 describe Controllers function var scope ctrl beforeEach module cu
可拖动视图不移动，调用 ACTION_DOWN 然后直接调用 ACTION_CANCEL

我有一个可以通过触摸拖动的自定义视图这是完整的代码 package com neibrapp neibr import android app ActionBar import android content ClipData impor
如何编辑 odbcinst -j 中的路径

当我看到这个时odbcinst j表明 unixODBC 2 2 14 DRIVERS etc unixODBC odbcinst ini SYSTEM DATA SOURCES etc unixODBC odbc ini FILE DAT
编译为本机代码并包含电池的编程语言

有哪些编程语言可以编译为本机代码并提供了全面的库包含网络文件 IO 正则表达式数据库图形多媒体 Win32 API 绑定文件压缩等功能的库我假设每个人都想到过 C 和 C Haskell http haskell org是这里
Pandas 合并列，但不合并“键”列

这似乎是一个愚蠢的问题但这已经困扰我一段时间了 df1 imp type value 1 abc 2 def 3 ghi df2 id value2 1 123 2 345 3 567 合并 2 个 df df1 merge df2 le
编写黑莓应用程序[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何编写黑莓应用程序我使用的是带有 VMWare 的 OS X Leopard 我开发 BlackBerry 应用程序已经很多年了
java.lang.IllegalStateException：ViewPager尚未绑定（使用JakeWharton ViewPager指示器）

我在一个屏幕上有两个视图寻呼机一个 ViewPager 使用 JakeWharton 的圆形指示器第二个使用 TabPage Indicator 我需要使用异步调用从后端下载数据下载数据后我应该在视图页面中显示数据这是我的活动的代
WinForms 本地化。如何更改菜单的语言

编辑虽然有用但重复问题并没有给出这个问题的答案首先这里的主题是Menus 因此请不要将此问题标记为与其他问题重复我一直在尝试正确理解如何本地化应用程序现在我有一个带有标签菜单和列表框的表单我已经本地化了表格现在我有三个
有没有自动方法来标准化谷歌工作表数据

我有一个超过 3000 行的数据集并且有一些采用这种格式的列 A B C 表 1 我想用特定的 ID 表 2 规范化每一行 X1 Y1 ID RF Z1 ARRAYFORMULA QUERY QUERY TRIM SPLIT TRANSP
如何通过代码获取python模块的版本号？ [复制]

这个问题在这里已经有答案了我正在尝试获取我使用的特定几个模块的版本号我可以将一些东西存储在变量中 Use pkg 资源 http setuptools readthedocs io en latest pkg resources htm
何时使用基于 ES6 类的 React 组件与函数式 ES6 React 组件？

在花了一些时间学习 React 之后我了解了创建组件的两种主要范例之间的区别我的问题是我什么时候应该使用哪一个以及为什么一种相对于另一种的优点权衡是什么 ES6 类 import React Component from react
在Kafka集群中添加新的ZooKeeper节点？

我正在运行一个包含五个节点的 Apache Kafka 集群并且正在使用一个包含三个节点的 Apache ZooKeeper 集群在zookeeper properties文件中 server 1 zNode01 2888 3888 s
在实体框架中保存断开连接的对象4

在 EF1 中我不能只更新在 ObjectContext 范围之外构造的对象使用正确的 id EF4有新方法吗我可以将其添加到上下文中吗 context AddOrder order 其中 context 是我的 ObjectCont
单击时显示微调器

我构建了一个微调器并使用 CSS 对其进行了动画处理现在我尝试隐藏微调器并在单击按钮时显示它到目前为止我已经编写了这段代码当我单击提交时它没有显示
应如何使用基于类的视图动态设置模板名称？

我已经搜索了基于类的视图 Django 文档 Django 1 4 的参考和主题但我没有找到任何提及这一点的内容如何使用基于类的视图动态设置模板名称我正在寻找以下设置的基于类的等效项 urls py from django conf
滚动选项卡时工具栏淡入淡出（代号一）

Codename One 手册中的如何在滚动时淡出工具栏部分描述了如何在滚动时淡出工具栏标题动画 https www codenameone com manual components html title animations sec
Django REST 框架：动态序列化器关系字段 - POST pk 但 GET 超链接

在我的模型中我有州和国家一个国家可以有多个州 PK 1 的 HTTP GET 状态 id 1 url http test com states 1 name Ohio country http test com countries
不含状态栏、操作栏和选项卡的屏幕高度

我有一个 ListView 我希望每一行填充可用屏幕的三分之一我有可见的状态栏然后有一个带有滑动选项卡的操作栏我正在做这样的当前计算 height context getResources getDisplayMetrics heig
Bash 真实的数字顺序

如何按真实的数字顺序对目录中的文件进行排序 file1 txt file2 txt file11 txt 我认为它的名字是自然秩序 Use the v option ls v file file1 file2 file11 file12
在 R 中从列表转换为 data.frame 时，utf-8 字符会丢失

我在 Windows 7 64 位上使用 R 3 2 0 和 RStudio 0 98 1103 我的电脑的Windows 区域和语言设置是英语美国由于某种原因以下代码将文本 Kory any nad p ehradou 中的捷克语

在 R 中从列表转换为 data.frame 时，utf-8 字符会丢失

在 R 中从列表转换为 data.frame 时，utf-8 字符会丢失 的相关文章

随机推荐

热门标签

在 R 中从列表转换为 data.frame 时，utf-8 字符会丢失的相关文章