如何检测 read.csv 的正确编码？

2023-11-24

我有这个文件（http://b7hq6v.alterupload.com/en/），我想用 R 来读取它read.csv。但我无法检测到正确的编码。好像是UTF-8的一种。我在 WindowsXP 计算机上使用 R 2.12.1。有帮助吗？

首先基于 StackOverflow 上更一般的问题不可能 100% 确定地检测文件的编码。

我已经挣扎了很多次并得出非自动解决方案：

Use iconvlist获取所有可能的编码：

codepages <- setNames(iconvlist(), iconvlist())

然后使用它们中的每一个读取数据

x <- lapply(codepages, function(enc) try(read.table("encoding.asc",
                   fileEncoding=enc,
                   nrows=3, header=TRUE, sep="\t"))) # you get lots of errors/warning here

这里重要的是了解文件的结构（分隔符、标题）。使用设置编码fileEncoding争论。只读取几行。
现在您可以查找结果：

unique(do.call(rbind, sapply(x, dim)))
#        [,1] [,2]
# 437       14    2
# CP1200     3   29
# CP12000    0    1

看起来正确的是 3 行 29 列，所以让我们看看它们：

maybe_ok <- sapply(x, function(x) isTRUE(all.equal(dim(x), c(3,29))))
codepages[maybe_ok]
#    CP1200    UCS-2LE     UTF-16   UTF-16LE      UTF16    UTF16LE 
#  "CP1200"  "UCS-2LE"   "UTF-16" "UTF-16LE"    "UTF16"  "UTF16LE"

你也可以看一下数据

x[maybe_ok]

对于您的文件，所有这些编码都会返回相同的数据（部分原因是如您所见存在一些冗余）。

如果您不知道需要使用的文件的具体信息readLines工作流程发生一些变化（例如，您不能使用fileEncoding，必须使用length代替dim，做更多的魔法来找到正确的）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

characterencoding

readcsv

如何检测 read.csv 的正确编码？的相关文章

如何纠正 data.frame 上的字符编码

我有一个像这样的数据框 data names lt data frame DATA c 1 5 rownames data names lt c IV xc1N JOS xc9 LUC xcdA RAM xd3N TO xd1O data
将列表中的每个元素转换为数据框中的一列

假设我有以下列表 d library combinat d permn c a b c 这看起来如下 1 1 a b c 2 1 a c b 3 1 c a b 4 1 c b a 5 1 b c a 6 1 b a c 是否可以将此列表的
我可以使用哪个 R 函数来查找两条线的交点？

我刚刚研究了 stackoverflow 上所有的在 R 中寻找交集问题它们要么是关于曲线要么是关于分布像这个 https stackoverflow com questions 20519431 finding point of
R Shiny：如何将无功值从闪亮模块返回到主服务器功能？

我有一个简单的玩具示例它使用 add removeBtn 模块在第一个模块中添加和删除 UI 我需要跟踪单击添加删除的次数如果我不使用模块这很容易但我试图在嵌套模块的上下文中执行此操作代码如下但基本上我似乎无法访问主
在 R 中提取 data.frames 列表的名称以及 data.frame 中的值

在下面的代码中 j是 data frames 的命名列表我想知道是否有办法 a 提取变量的数值即one short and one long 在 data frames 内并附加它们的相关名称即 AAA or BBB or CCC 到
在 RMarkdown 输出到 PDF 时缩进而不添加项目符号点或编号

之前有人问过如何在没有项目符号的情况下缩进文本 RMarkdown 中的点但这是针对 HTML 输出的在 RMarkdown 中缩进而不添加项目符号点或数字 https stackoverflow com questions 47087
为什么这个 R ggplot2 代码会显示一个空白的显示设备？

虽然 SO 通常不用于帮助解决错误但这个显示了特别简单且特别烦人的行为如果你是一个ggplot2用户您可以在 10 秒或更短的时间内重现它正如这个 GitHub 问题 ggplot gtable 创建空白显示 https githu
增加雷达图中长轴标签的空间

我想创建一个雷达图ggirahExtra ggRadar 问题是我的标签很长并且被剪掉了我想我可以通过添加在标签和绘图之间创建更多空间margin margin 0 0 2 0 cm to element text in axis tex
当将遗传算法与 lme4 一起使用时，glmulti 无限期运行

我在 R 中使用 glmulti 进行模型平均我的模型中有大约 10 个变量使得详尽的筛选不切实际因此我需要使用遗传算法 GA 调用 method g 我需要包含随机效应因此我使用 glmulti 作为 lme4 的包装器此处提供
将维基百科中的表格加载到 R 中

我正在尝试从以下 URL 将最高法院法官表加载到 R 中 https en wikipedia org wiki List of Justices of the Supreme Court of the United States http
如何动态地将 sliderInput 添加到闪亮的应用程序中？

使用闪亮我上传一个 csv 文件并根据列名称我需要向 ui 添加滑块 sidebarPanel fileInput file1 Upload CSV File to Create a Model accept c text csv t
R：单纯形错误：在下标赋值中不允许使用 NA

对于以下具有目标函数和约束的最小化 boot simplex返回错误 Error in tab pr lt tab pr tab pr pc pv o tab pr NAs are not allowed in subscripted as
StatET调试工具

我想我只是很密集但我似乎无法弄清楚如何在 Eclipse 中的 R 中使用调试工具 StatET 插件有人有关于这个主题的任何提示或教程吗 StatET 2 00 现在对高级可视化调试提供实验性支持需要 Eclipse 3 6 或
是否有weighted.median()函数？

我正在寻找类似形式的东西weighted mean 我通过搜索找到了一些解决方案这些解决方案写出了整个函数但希望有一些更用户友好的解决方案以下软件包都有计算加权中位数的函数 aroma light isotone limma cwhm
ggplot2：带有 geom_line 的 x 轴因子不起作用

我想要一个线图其中value绘制为函数expt每级一行var 这是我的数据 lines lt expt var value 1 none p 0 183065327746799 2 none p 0 254234138384241 3 n
R 中的数据框操作 - 将单元格向左移动并删除 NA

我有一个数据框其列由随机分布的值和 NA 组成如下所示 a lt c S E NA S NA b lt c A NA M G K c lt c I NA NA NA L meh lt dataframe a b c 1 2 3 4 5
使用“assign()”为列表项分配值

首先了解一些背景我写了一个中缀函数本质上取代了这个习惯用法 x length x 1 lt y 或者简单地说x lt append x y 对于向量这里是 lt function x y xcall lt substitute x x
使用data.table进行聚合

经过 SO 用户的多次建议后我终于尝试将我的代码转换为使用data table library data table DT lt data table plate paste0 plate rep 1 2 each 5 id rep c
将 Excel 文件读入 R 并锁定单元格

我有一个 Excel 电子表格要读入 R 它受密码保护并锁定了单元格我可以使用 excel link 导入受密码保护的文件但我不知道如何解锁取消保护单元格 excel link 给了我这个错误 gt
更改ggplot2中的字体

曾几何时我改变了我的ggplot2字体使用windowsFonts Times windowsFont TT Times New Roman 现在我无法摆脱这一切在尝试设置family in ggplot2 theme 当我用不同的字

随机推荐

SQL 更新会在更新运行期间影响其子查询吗？

我只是编写一个复杂的更新查询它看起来或多或少像这样 update table join select y min x as MinX from table group by y as t1 using y set x x MinX 这意味
关于 ID 和 Class 的 CSS 最佳实践？

我一直在阅读有关 CSS 的 SitePoint 书籍这些示例让我印象深刻的是使用 ID 作为 CSS 选择器我做过一些 CSS 设计我总是发现使用 Class 作为选择器更容易更通用也许它是一个 Net 的东西因为我们并不总是
asp.net 邮件添加 ReplyTo

我如何添加与发件人不同的电子邮件ReplayTo场地似乎MailMessage ReplyTo已被弃用所以我正在尝试使用ReplyToList反而但它告诉我 Property or indexer System Net Mail Ma
java.security.InvalidAlgorithmParameterException：Linux 上的 trustAnchors 参数必须非空，或者为什么默认信任库为空 [重复]

这个问题在这里已经有答案了当你用谷歌搜索这个异常时 java security InvalidAlgorithmParameterException the trustAnchors parameter must be non empty
在 Chrome 中将 iframe 与本地文件结合使用

我很难弄清楚如何从外部页面访问 iframe 中加载的页面两个页面都是本地文件我使用的是 Chrome 我有一个外页和许多内页外部页面应始终显示内部页面的页面标题这在我的应用程序中有意义但在这个精简示例中可能不那么有意义这在 A
JavaScript 中的 Object.prototype

我有一些定义函数的 JavaScript 代码getElementsByAttribute如下 Object prototype getElementsByAttribute function attr var children this
PayPal IPN 示例：已完成、已撤消、Canceled_Reversed 和退款

我在正在开发的网络应用程序上处理 PayPal IPN 消息时遇到了麻烦我向 PayPal 商家技术支持询问了有关处理的信息Reversed Canceled Reversed and RefundedIPN 消息下面的代码是我从他们的
如何将一行扩展到多行结果集？

我有一个表我试图根据第二列值将每一行分解为一行或多行像这样 table id pcs ABC 3 DEF 1 GHJ 4 query result id pcs num ABC 1 ABC 2 ABC 3 DEF 1 GHJ 1 GHJ
在 UNIX /usr/bin/script 中继承别名

UNIX usr bin script 命令将创建 shell 会话的运行脚本有关详细信息请参阅 man script 然而当inside一个脚本实例它似乎忘记了父 shell 的环境变量别名等以下示例演示了如何在 script
如何使用 groovy 创建和配置新的 Jenkins 作业？

有很多 Groovy 脚本的示例 http scriptlerweb appspot com catalog list 但是我没有发现创造新就业机会的例子网上有一个很好的例子来说明如何做到这一点吗 Create 来自 SCM 的管道脚本
带有模拟的 Angular 2 TestBed

我正在尝试测试使用其他服务的组件我想通过为服务提供模拟来隔离组件在 RC5 之前我可以简单地使用addproviders现在已弃用并将在下一个 RC 中删除相反我必须使用TestBed 当我出于某种原因提供模拟角度时请继续寻找模
如何以编程方式测试路径/文件是否是快捷方式？

我需要测试文件是否是快捷方式我仍在尝试弄清楚如何设置内容但我可能只有它的路径我可能只有文件的实际内容作为字节或者我可能两者都有一些复杂的情况包括它可能位于 zip 文件中在这种情况下路径将是内部路径可以使用 SHELL32
在 OS X 上设置区域设置会导致崩溃

以下代码在 Linux 上运行良好但在 OS X 10 7 上引发异常 include
如何启动所有安卓厂商的电源管理器以启用后台和推送通知？

由于制造商进行了自定义 Android 调整某些 Android 设备在电源管理方面存在一些政治因素从而破坏了推送通知等某些功能华为仅限 EMUI 5 0 Android 7 之前版本前往设置 gt 受保护的应用程序检查您的应
bash/Makefile 中的双美元符号是什么意思？

当在 Makefile 中插入 shell 脚本时我们使用双美元符号来引用变量为什么会这样 for number in 1 2 3 4 do echo number done As per gnu make 官方文档配方中的变量和
错误消息“错误：程序中存在杂散‘\302’”

我在用着代码块 on Ubuntu 10 10 特立独行的猫鼬我已连接 Mac 键盘并将键盘设置设置为瑞士德语 Mac 现在每当我写一个等号后跟一个空格例如宽度 100 时我都会收到错误消息程序中出现杂散 302 我知道这个
MessageDlg 显示信息图标而不是确认

在 Win 7 上 MessageDlg 显示信息图标而不是确认图标问号这是代码 MessageDlg Are you sure you want to delete this file CRLF FileName mtConfirma
同时使用 JSR-303 和传统 Bean 验证？

是否可以同时使用JSR 303 bean 验证 and 传统验证该类型的单个验证器类在 Spring 中如果是这样需要什么配置来设置它我已经尝试过上面的说明参考 InitBinder protected void initBind
jsSHA、CryptoJS 和 OpenSSL 库给出不同的结果

作为 JS 新手我也在学习使用加密库我不明白为什么使用相同的秘密对相同的消息进行签名编码会产生不同的结果我在用着jsSHA 1 3 1 在这里找到 and 这里描述了 CryptoJS 3 0 2尝试创建 Base64 sha 1
如何检测 read.csv 的正确编码？

我有这个文件 http b7hq6v alterupload com en 我想用 R 来读取它read csv 但我无法检测到正确的编码好像是UTF 8的一种我在 WindowsXP 计算机上使用 R 2 12 1 有帮助吗首先基于

如何检测 read.csv 的正确编码？

如何检测 read.csv 的正确编码？ 的相关文章

随机推荐

热门标签

如何检测 read.csv 的正确编码？的相关文章