读外国文字

2024-04-23

我有一个包含英超足球运动员姓名的数据库，我正在将其读入 R (3.02)，但当涉及到姓名中含有外来字符（元音变音、重音符号等）的球员时，我遇到了困难。下面的代码说明了这一点：

PlayerData<-read.table("C:\\Users\\Documents\\Players.csv",quote=NULL, dec = ".",,sep=",", stringsAsFactors=F,header=T,fill=T,blank.lines.skip = TRUE)
Test<-PlayerData[c(33655:33656),] #names of the players here are "Cazorla" "Özil"

Test[Test$Player=="Cazorla",] #Outputs correct details
Test[Test$Player=="Ozil",] # Can not find data '0 rows> (or 0-length row.names)'
<

#Example of how the foreign character is treated:
substr("Özil",1,1)
[1] "Ã"
substr("Özil",1,2)
[1] "Ö"
substr("Özil",2,2)
[1] "
substr("Özil",2,3)
[1] "z

我尝试替换字符，如下所述：R：替换字符串中的外来字符 https://stackoverflow.com/questions/17517319/r-replacing-foreign-characters-in-a-string，但由于我的示例中的重音字符似乎被解读为两个单独的字符，我认为它不起作用。

如果有任何建议或解决方法，我将不胜感激。

该文件可供下载here http://www.filedropper.com/players.

EDIT：您提供的文件似乎使用了与系统本机不同的编码。

由以下人员完成的（实验性）编码检测stri_enc_detect函数从stringi http://stringi.rexamine.com包给出：

library('stringi')
PlayerDataRaw <- stri_read_raw('~/Desktop/PLAYERS.csv')
stri_enc_detect(PlayerDataRaw)
## [[1]]
## [[1]]$Encoding
## [1] "ISO-8859-1" "ISO-8859-2" "ISO-8859-9" "IBM424_rtl"
## 
## [[1]]$Language
## [1] "en" "ro" "tr" "he"
## 
## [[1]]$Confidence
## [1] 0.25 0.14 0.09 0.02

所以该文件很可能位于ISO-8859-1 a.k.a. latin1。幸运的是，R 在读取此文件时不必重新编码输入 - 它可能只是设置与默认（==本机）编码标记不同的编码标记。您可以使用以下命令加载文件：

PlayerData<-read.table('~/Desktop/PLAYERS.csv',
    quote=NULL, dec = ".", sep=",", 
    stringsAsFactors=FALSE, header=TRUE, fill=TRUE,
    blank.lines.skip=TRUE, encoding='latin1')

现在您可以正确访问单个字符，例如与stri_sub功能：

Test<-PlayerData[c(33655:33656),]
Test
##           T          Away H.A    Home  Player Year
## 33655 33654 CrystalPalace   1 Arsenal Cazorla 2013
## 33656 33655 CrystalPalace   1 Arsenal    Özil 2013

stri_sub(Test$Player, 1, length=1)
## [1] "C" "Ö"
stri_sub(Test$Player, 2, length=1)
## [1] "a" "z"

根据比较字符串，以下是字符串相等性测试的结果，其中重音字符“扁平化”：

stri_cmp_eq("Özil", "Ozil", stri_opts_collator(strength=1))
## [1] TRUE

您还可以通过使用摆脱重音字符iconv的音译器（不过我不确定它是否在 Windows 上可用）。

iconv(Test$Player, 'latin1', 'ASCII//TRANSLIT')
## [1] "Cazorla" "Ozil"

或者使用非常强大的音译器stringi http://stringi.rexamine.com包（字符串版本 >= 0.2-2）：

stri_trans_general(Test$Player, 'Latin-ASCII')
## [1] "Cazorla" "Ozil"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

读外国文字的相关文章

Java 支持多行字符串吗？

来自 Perl 我肯定缺少在源代码中创建多行字符串的 here document 方法 string lt lt EOF create a three line string text text text EOF 在 Java 中当我从头
错误：在 C++ 中从“const char [5]”转换为非标量类型

public string str Test string str this gt str str cout lt lt constructor lt
jsoup 的奇怪编码行为

我用jsoup从不同页面的html源代码中提取一些信息大多数都是UTF 8编码的其中一个是用 ISO 8859 1 编码的这会导致一个奇怪的错误在我看来包含错误的页面是 http www gudi ch armbanduhr me
python执行列表和函数列表[重复]

这个问题在这里已经有答案了我正在将 Python 2 7 与 Autodesk Maya 结合使用这是我的问题的一个例子 import maya cmds as m def a passedString print this passe
在批处理模式下运行 R - 打印到屏幕？

跑步时 R CMD BATCH options filename r 我想控制输出的打印位置我可以使用以下命令抑制 Rout 文件的创建 R CMD BATCH options filename r dev null 但是否可以将输出直接
相当于 Rcpp 中的 'which' 函数

我是 C 和 Rcpp 的新手假设我有一个向量 t1 lt c 1 2 NA NA 3 4 1 NA 5 我想获得 t1 的元素索引NA 我可以写 NumericVector retIdxNA NumericVector x Step 1
闪亮的如何阻止用户访问选项卡？

我需要阻止用户访问其他选项卡直到完成某些操作在这个可重现的示例中我想阻止用户访问Tab 2直到他按下按钮该应用程序如下所示这是该应用程序的代码 library shiny ui lt shinyUI navbarPage tabP
无法使用include_graphics在Rmarkdown中插入png（错误：文件不是PNG格式）

这个错误很奇怪当我编织文档时出现以下错误 Quitting from lines 42 43 sigminer doc Rmd Error in png readPNG path native TRUE info TRUE file i
通过非 sf 列内连接两个 sf 对象

我尝试使用内连接或左连接连接两个 sf 数据帧这些数据框内部都有几何列我不断收到错误 check join x y 中的错误 y 应该是一个数据框对于空间连接请使用 st joinFALSE 下面的可重现示例 df1 lt data
R 中第三维的平均值

R中是否有任何快速方法或内置函数来计算基于第三维的平均值例如我的数组是 1 1 2 1 1 3 2 2 4 2 1 2 1 11 13 2 12 14 3 1 2 1 21 23 2 22 24 我的输出是 1 2 1 mean 1 11
Leaflet Map - 第二个多边形使第一层不可点击

我正在制作美国社区调查数据地图目前我有一个主要层如下所示plotMerge incomePerCapita 它运作良好有一个完全充实的弹出窗口图像等等当我添加第二层以提供县和地区边界时区域边界变得不可单击似乎被新层掩盖了如果
如何使用 R / igraph 设置边缘颜色和顶点间距

我是 R 新手试图弄清楚如何为我有数据的系统制作社交网络地图我已经设法从常见问题解答和教程中弄清楚我想做的大部分事情但我被困在两件事上如何使画布更大图表间隔更大现在已经太挤了目前边缘厚度是根据重量设置的权重代表不同的状态
在绘图中的所有坐标之间绘制线条

我有以下数据框 data lt data frame x c 5 1 3 2 5 7 12 y c 5 7 6 1 3 5 6 我可以使用 ggplot 函数绘制这些坐标并在这些坐标之间画一条线 ggplot data aes x y g
如何在 dplyr 中使用切片来保留 R 中具有 NA 值的行

我有以下数据集我想知道每个组的最小单词如果没有最小单词它是 NA 我仍然想显示它 df data frame key c A A B B C word c 1 2 3 5 NA df gt group by key gt slice
在r包中重新导出数据集

In R包有可能重新导出函数这使得很容易回收相同的函数而不必在不同的包之间重复代码例如 devtools session info函数是重新导出sessioninfo session info export importFrom s
自动化 RStudio 处理 RMarkdown？

我有一个 RMarkdown 文件用于生成漂亮的 HTML 报告问题是我希望能够自动化它以便它可以在无头服务器上运行因此不会有人启动 Rstudio 并按下 knithtml 按钮而且 Rstudio 似乎正在做很多额外的魔法
计算分组序列中两个值之间的差异

这是这篇文章的后续问题循环遍历 R 中的数据帧并测量两个值之间的时间差 https stackoverflow com questions 44885856 loop through dataframe in r and measure
通过 JavaScript 获取页面/iframe 的编码

我想通过 JavaScript 或浏览器中的其他一些 API 以编程方式确定页面的编码我想要这些信息的原因是因为我试图对主要浏览器支持的字符编码进行模糊测试显然仅仅因为我发送了适当的内容类型并不意味着浏览器会使用编码做正确的事情欢
使用 Hibernate 映射 Map

似乎在我看来到处都有过时的版本不再起作用我的问题看起来很简单我有一个 Java 类它映射到 derby 数据库我正在使用注释并成功地在数据库中创建了所有其他表但在这个特定的示例中我只需要一个 Map 它不使用任何其他类只
更改列的顺序

我正在处理一个包含 gt 40 列的大型数据框我希望能够移动列而不必指定所有列名称例如 a lt c 1 5 b lt c 4 3 2 1 1 Percent lt c 40 30 20 10 10 Labels lt c Cat D

随机推荐

WPF：无法让我控制焦点

我似乎无法真正控制焦点 XAML
在Playframework2中，如何服务多个资源目录？

asset目录有两个一个是 ui dist另一个是 public 我尝试这样写路线 GET assets file controllers Assets at path public file GET ui file controller
如何将自定义标签库与 Thymeleaf 和 Spring Boot 结合使用？

我用 Spring MVC JSP 和 Tyles 创建了一个自定义标签库所以我有几个 tagx文件在新项目中我决定尝试 Spring Boot 和 Thymeleaf 但我想保留我的自定义库那么您是否可以使用 thymeleaf
mysql复合索引是否会使其他一些索引完全冗余？

如果我在 a b 上有一个复合索引我知道仅与 a 相关的查询仍将使用复合索引但与 b 相关的查询不会我的问题是如果我有 a b 索引是否有任何正当理由在 a 上建立单列索引我读到的内容对于 a b 索引是否完全替代 a 或者仅仅
将重叠间隔与 lubridate 结合起来

我希望组合润滑间隔以便如果它们重叠则从内部第一个时间中取出最小值并从内部最后一个时间中取出最大值并汇总以创建一个跨越整个周期的新间隔这是一个代表 library lubridate warn conflicts FALSE lib
Docker“共享依赖关系”

在阅读 Docker 的同时我多次停下来因为 Docker 容器不仅共享主机内核而且如果可能的话它们还共享通用的二进制文件和库我从中了解到的是如果我在同一台主机上运行相同的 docker 映像两次并且该映像使用一些文件 x y
如何生成具有指定增量步骤的列表？

如何生成具有指定增量步长例如 2 的向量例如我如何生成以下内容 0 2 4 6 8 10 执行中seq 1 10 1 做什么1 10做您可以更改最后一个参数seq i e by 任意大小的台阶 gt a vector of even
R中有“暂停”功能吗？ [复制]

这个问题在这里已经有答案了我正在编写一个用户定义的函数其中包含一个 for 循环并且希望在每次迭代后暂停执行是否有一些函数可以执行此操作例如 MATLAB 中的暂停是的您可以使用以下命令暂停执行Sys sleep 因此等待
优雅的模式来记录用户的操作

我有一个数据库架构来记录用户在我的网络应用程序中执行的操作 Log Id Log Type Id Performed by Person Id Performed to Person Id Comment Id Story Id Photo
SQL Server：索引重建和索引重组有什么区别？

指数重建和指数重组有什么区别思考一下索引是如何实现的它通常是某种树例如 B 树或 B 树索引本身是通过查看数据中的键并构建树来创建的以便可以有效地搜索表当你改组索引您遍历现有索引清理已删除记录的块等这could当您进行删除
如何在 Android 上直接从麦克风向扬声器播放声音？

在我的应用程序中我需要将声音从麦克风直接引导到扬声器没有其他动作我找到了一种通过播放文件并关闭扬声器将声音从麦克风引导到耳机的方法所以我想扬声器可以类似地工作但是我不知道如何摆脱播放文件的事情谢谢 speaker m audio
unix系统上C++中的简单glob？

我想检索遵循此模式的所有匹配路径vector
如何防止gitlab ci每次都下载sbt？

我们有一个play2 scala我们正在使用 gitlab ci 构建的应用程序 Our gitlab ci yml 至少重要部分如下所示 image hseeberger scala sbt variables SBT GLOBAL B
导入“google/api/annotations.proto”未找到或有错误。如何将其添加为依赖项？

按照文档如何设置 gRPC 网关 https github com grpc ecosystem grpc gateway 我发现自己陷入了生成 grpc 网关的第四步也就是说当添加以下行时事情就会崩溃 import google a
如何让 Mechanize 自动将正文转换为 UTF8？

我找到了一些解决方案post connect hook and pre connect hook 但似乎它们不起作用我正在使用最新的 Mechanize 版本 2 1 没有 response 新版本中的字段我不知道在新版本中从哪里获取它
如何创建页面链接并在该页面的 iframe 中加载特定内容

在我们的网站上我们有一个页面可以将内容从另一个位置提取到 iFrame 中我想知道如何创建指向父页面的链接并在 iFrame 中加载特定页面所以我想创建一个链接http xxx xxx com page http xxx xxx c
如何在客户端 JavaScript 中读取本地 csv 文件？

我有客户端 javascript 我想从本地读取它csv文件在html代码中我使用脚本标签导入本地javascript文件并且该js文件位于另一个文件夹中 js文件的内容 ajax type GET url data English
简单聚类算法 2D。检测点簇

任何人都知道用 C 实现的简单算法来检测 2D 游戏中的怪物组前任 char周围100范围内有怪物我想检测哪些怪物在彼此范围 2 内如果至少有 5 个在一起则在该位置使用效果区域技能否则使用单目标技能最好有一个实现的链接最好是
在 matplotlib 中，有没有办法在条形/线条/补丁下方设置网格线，同时保留上面的刻度标签？

相关Matplotlib 在其他图形元素后面绘制网格线 https stackoverflow com questions 1726391 matplotlib draw grid lines behind other graph elem
读外国文字

我有一个包含英超足球运动员姓名的数据库我正在将其读入 R 3 02 但当涉及到姓名中含有外来字符元音变音重音符号等的球员时我遇到了困难下面的代码说明了这一点 PlayerData lt read table C Users Do

读外国文字

读外国文字 的相关文章

随机推荐

热门标签

读外国文字的相关文章