从R中的城市名称中提取国家/地区名称

2024-01-09

这个问题可能看起来像重复的，但我在从字符串中提取国家/地区名称时遇到一些问题。我已经浏览过这个链接[链接]从作者隶属关系中提取国家/地区名称 https://stackoverflow.com/questions/5318076/extracting-country-name-from-author-affiliations但我无法解决我的问题。我尝试过 grepl 和 for 循环进行文本匹配和替换，我的数据列由超过 300k 行组成，因此使用 grepl 和 for 循环进行模式匹配非常非常慢。

我有一个这样的专栏。

org_loc

Zug
Zug  Canton of Zug
Zimbabwe
Zigong
Zhuhai
Zaragoza 
York  United Kingdom
Delhi
Yalleroi  Queensland
Waterloo  Ontario
Waterloo  ON 
Washington  D.C.
Washington D.C. Metro 
New York


df$org_loc <- c("zug", "zug  canton of zug", "zimbabwe", 
"zigong", "zhuhai", "zaragoza","York  United Kingdom", "Delhi","Yalleroi  Queensland","Waterloo  Ontario","Waterloo  ON","Washington  D.C.","Washington D.C. Metro","New York")

该字符串可能包含州、城市或国家的名称。我只想要国家作为输出。像这样

org_loc

Switzerland
Switzerland
Zimbabwe
China
China
Spain
United Kingdom
India
Australia
Canada
Canada
United State
United state
United state

我正在尝试使用国家代码库将州（如果找到匹配）转换为其国家/地区，但无法这样做。任何帮助将不胜感激。

您可以使用您的City_and_province_list.csv https://github.com/girijesh18/dataset/blob/master/City_and_province_list.csv作为自定义词典countrycode。自定义字典在原始向量中不能有重复项（City列在你的City_and_province_list.csv），因此您必须首先删除它们或以某种方式处理它们（如下面的示例所示）。目前，您的查找 CSV 中并没有示例中所有可能的字符串，因此它们不会全部转换，但如果您将所有可能的字符串添加到 CSV 中，它将完全正常工作。

library(countrycode)

org_loc <- c("Zug", "Zug  Canton of Zug", "Zimbabwe", "Zigong", "Zhuhai",
             "Zaragoza", "York  United Kingdom", "Delhi",
             "Yalleroi  Queensland", "Waterloo  Ontario", "Waterloo  ON",
             "Washington  D.C.", "Washington D.C. Metro", "New York")
df <- data.frame(org_loc)

city_country <- read.csv("https://raw.githubusercontent.com/girijesh18/dataset/master/City_and_province_list.csv")

# custom_dict for countrycode cannot have duplicate origin codes
city_country <- city_country[!duplicated(city_country$City), ]

df$country <- countrycode(df$org_loc, "City", "Country", 
                          custom_dict = city_country)

df
# org_loc                  country
# 1                    Zug              Switzerland
# 2     Zug  Canton of Zug                     <NA>
# 3               Zimbabwe                     <NA>
# 4                 Zigong                    China
# 5                 Zhuhai                    China
# 6               Zaragoza                    Spain
# 7   York  United Kingdom                     <NA>
# 8                  Delhi                    India
# 9   Yalleroi  Queensland                     <NA>
# 10     Waterloo  Ontario                     <NA>
# 11          Waterloo  ON                     <NA>
# 12      Washington  D.C.                     <NA>
# 13 Washington D.C. Metro                     <NA>
# 14              New York United States of America

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从R中的城市名称中提取国家/地区名称的相关文章

plot xts if (on == "years") { 中的错误：缺少 TRUE/FALSE 需要的值

我正在尝试绘制 xts 对象但出现有关年份的错误 xts 对象只有一个数值和一个 POSIXct 索引下面的代码显示了 xts 和尝试绘图时的错误关于需要对 xts 对象做什么才能正确绘制的任何想法 xTest lt as xts 3
访问动态创建的 Shiny 模块的返回值

我正在寻找构建一个闪亮的应用程序它动态创建返回简单表单的模块通过 callmodule 我有两个未解决的问题希望得到一些指导首先当向用户提供多个表单通过单击按钮时先前呈现的表单上的值将恢复为默认值如何停止这种行为以便值保
如何使用 grid.arrange 移动图例位置

我试图在一页中排列 4 个图将图例放在底部中心我用它来获取其中一个图的图例因为它们对于四个图来说是相同的 get legend lt function myggplot tmp lt ggplot gtable ggplot buil
当我用一个观察值运行回归时，为什么“fastLm()”会返回结果？

为什么fastLm 当我用一项观察进行回归时返回结果吗下面为什么不lm and fastLm 结果相等吗 library Rcpp library RcppArmadillo library data table set seed 1 D
如何缩放（标准化）每列内的 ggplot2 stat_bin2d 值（按 X 轴）

我有一个 ggplot stat bin2d 热图 library ggplot2 value lt rep 1 5 1000 df lt as data frame value df group lt rep 1 7 len 5000 d
R Leaflet：添加多边形时传递 popupOptions。

Within addPolygons 有一个popup参数就像addPopups 功能区别我认为是当弹出窗口创建时addPolygons 可以单击多边形内的任意位置来触发弹出窗口但是如果addPopups 被使用单个lng and
linux下无法安装Cairo包

我在本地下载该软件包并尝试安装它但出现此错误 R CMD INSTALL l usr local lib64 R library Cairo 1 5 1 tar gz 我得到他的错误 checking for PNG support in
使用 lpSolve 优化 R 团队名单

我是 R 新手有一个想要解决的特定幻想运动队优化问题我见过其他帖子使用 lpSolve 来解决类似的问题但我似乎无法理解代码下面的示例数据表每个球员都在一个球队中扮演着特定的角色有薪水并且每场比赛都有平均得分我需要的限制是
通过 :: 调用包中的函数是一个好习惯吗

我正在编写一些 R 函数这些函数在其他包中使用一些有用的函数例如stringr and base64enc 不打电话好不好library or require 首先加载这些包但要使用直接引用我需要的功能比如stringr str m
使用 SP 包中的 SpatialPoints() 转换坐标参考系 (CRS) 以创建空间数据框

Issue 我有一个形状文件我已将其导入到 R 中并为正在进行的分析选择了感兴趣的变量我的最终目标是插值点数据海豚 ID 获取海面温度 SST 堆栈中每个单独的光栅文件的值70 栅格来自名为 ncin SST 的对象该对象是使用函数
R tm 包创建 N 个最常见术语的矩阵

我有一个termDocumentMatrix使用创建的tmR 中的包我正在尝试创建一个包含 50 个最常出现的术语的矩阵数据框当我尝试转换为矩阵时出现此错误 gt ap m lt as matrix mydata dtm Error
在 R 中捕获段错误

我得到了caught segfault每次我尝试从以下位置运行任何绘图函数时都会出错ggplot2包 1 0 0 我已经尝试过这个qplot geom dotplot geom histogram等来自包的数据例如diamonds or
R：构建二阶转移矩阵和得分序列

其他问题有另一个问题 https stackoverflow com questions 29728436 fit and evaluate a second order transition matrix markov process
如何在 R 中创建循环来生成随机样本列表？

我正在尝试创建一个循环来创建一系列包含随机样本的对象如下所示 sample lt ceiling runif 9 min 0 max 20 这是圆形制服的示例但它可以替换为普通泊松或任何您想要的因此我构建了一个循环来自动生成各种生
获取所有参数作为列表

R 是否提供对象函数方法关键字来获取所有函数参数使用一个例子 function a b default 会提供a and b也在函数环境内有没有类似的说法list 这还包括a and b在结果中或者换一种方式简写list a
使用 sapply 的列表和矩阵

我有一个也许是基本的问题我在网上搜索过我在读取文件时遇到问题尽管如此我还是按照 Konrad的建议设法读取了我的文件我很欣赏这一点 How to get R to read in files from multiple subdi
R testthat 单元测试数据和辅助函数约定

我正在编写一个 R 包并使用 testthat 进行单元测试我的许多单元测试都是为了测试适用于我的包特定对象的功能对于这些测试我创建了一个辅助函数来设置模拟对象我还有一些其他辅助函数来减少单元测试中的代码量目前这些辅助函数在我的
用于不规则时间序列的滚动窗口函数，可以处理重复项

我有以下数据框 grp nr yr 1 A 1 0 2009 2 A 2 0 2009 3 A 1 5 2009 4 A 1 0 2010 5 B 3 0 2009 6 B 2 0 2010 7 B NA 2011 8 C 3 0 2014
如何在 rmarkdown 中显示带有 results='asis' 的格式化 R 输出

当使用 results asis 时有没有办法在 rmarkdown knitr 中显示格式化程序 R 输出一个例子是以下函数 myfun lt function cat hello n cat c one 1 two 2 然后该块将
如何在 R 树形图中省略标签？

我一直在使用R 树形图包 http cran r project org web packages treemap treemap pdf我有一个 2 层深的树形图我希望打印第二级标签但不打印第一级标签使用手册页中的示例 tmPlot

随机推荐

使用 linq2xml 订购 xml 文件

以下问题使用 LINQ2XML 过滤 xml https stackoverflow com questions 11006160 filter xml with linq2xml 从 xml 文件成功过滤删除节点后我想按节点中的某些
ASP.net 很好地渲染 HTML（美化）

当我在 ASP net 中生成控件时它们的结果如下 div class discussWrapper span class cbox highlighted span div
java.lang.IllegalArgumentException：解密图像时错误的base-64

我正在使用 Jsoup 解析器选择图像 Elements images document select img String src images attr src 然后使用这段代码来摆脱data image jpg base64 pure
温斯顿记录器名称

Flatiron 的日志记录库 Winston 非常有用但我不知道如何为记录器分配名称我期待与其他日志库类似的输出例如
Twitter Bootstrap TreeView 插件 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有谁知道 twitter bootstrap 中树视图的成熟插件吗到目前为止我发现的大多数东西是 a
如何在编译时计算类成员的偏移量？

给定 C 中的类定义 class A public methods definition private int i char str 是否可以使用 C 模板元编程在编译时计算类成员的偏移量该类不是 POD 并且可以具有虚拟方法基元和对
R：如何根据另一个变量中的值选择 dplyr::distinct() 保留哪一行？

现实生活中的问题我的受试者有 MRI 扫描数据其中一些已被扫描多次单独的行其中一些每次都是根据不同的协议进行扫描的我想按主题 ID 保留所有唯一行如果主题是在两种不同的协议下扫描的我希望它更喜欢其中一种玩具示例 librar
C++继承使用派生类调用基类成员函数

也许我的问题是错误的我是 C 新手如果该函数在派生类中被重写是否有任何方法使用派生类对象调用基类成员函数例如 class A public void add cout lt lt A class B public A public
如何将所有参数从 __init__ 传递给超类

我可以在Python中使用什么魔法来通过添加一些额外的参数来有效地使用超级构造函数吗理想情况下我想使用类似的东西 class ZipArchive zipfile ZipFile def init self verbose True kw
引用其他样式的 UWP MergedDictionary 样式会引发错误

创建需要使用其他值的样式合并字典时遇到实际问题MergedDictionary Brushes xaml 当我尝试从另一个文件引用它时出现以下错误 Failed to assign to property Windows UI Xaml
在 Firebase 中查看完整的设备细分

在 Firebase Analytics 仪表板上它们显示设备和操作系统细分的摘要数据但不会显示完整的细分就我而言这意味着我无法查看 44 7 的用户群的细分 Firebase 中是否有任何地方可以查看此信息或将其导出以在其他地方查
如何在 Subprocess.run 命令中使用 for 循环[重复]

这个问题在这里已经有答案了我在用着subprocess run运行其中包含 for 循环的命令但未返回预期结果这是一个显示问题的简化案例在 bash shell 中 for i in 1 3 do echo i done 结果是 1
SimpleForm maxlength 扩展如何工作

我想在 SimpleForm gem 的帮助下创建的表单上设置输入的 maxlength html 属性我知道我可以通过在创建表单时手动传入 maxlength 属性来做到这一点例如但这不是我想要的因为根据 SimpleForm 配
GHCi 中的模式匹配

在学校的练习中我有这个功能 bar Float gt Float gt Float bar x 0 0 bar 0 y 0 bar x y x y 我在 GHC 中将其输入为 let bar x 0 0 bar 0 y 0 bar x y
对包含前缀和后缀运算符的 printf() 感到困惑[重复]

这个问题在这里已经有答案了如果 int var 20 那么如何 printf d d d var var var 执行发生在 C 编程语言中这是未定义的行为因为var被修改多次中间没有序列点例如序列点可以是然而参数列表中的逗
在 Azure 上哪里可以找到记录 FunctionsStartup.Configure 中引发的异常？

在以下代码中 Azure 中记录的错误在哪里有时此类错误的原因很难确定并导致功能主机未运行我无法找到记录的异常我之前已经通过自己编写自己的 try catch 日志记录到 BlobStorage 来解决这个问题但是我希望有一
JanusGraph-PropertyKey 不是用户定义的密钥

Problem 当我试图创建索引时为什么 JanusGraph 会抛出用户定义键问题 Logs 2023 05 08 12 40 25 640 INFO c d o d i c ContactPoints main Contact poi
在 SSRS 中执行 Oracle 存储过程时出错：PLS-00306：调用中的参数数量或类型错误

我正在尝试在 Visual Studio 2012 中从 SSRS 执行简单的 Oracle 存储过程我收到此错误执行查询时出错 ORA 06550 第 1 行第 7 列 PLS 00306 调用 SPARAMETERTEST 时参数
如何实现异步操作委托方法？

一些背景信息我正在学习 Web API 堆栈并且尝试以的形式封装所有数据 Result 带有参数的对象例如Success and ErrorCodes 然而不同的方法会产生不同的结果和错误代码但结果对象通常会以相同的方式实例化
从R中的城市名称中提取国家/地区名称

这个问题可能看起来像重复的但我在从字符串中提取国家地区名称时遇到一些问题我已经浏览过这个链接链接从作者隶属关系中提取国家地区名称 https stackoverflow com questions 5318076 extract

从R中的城市名称中提取国家/地区名称

从R中的城市名称中提取国家/地区名称 的相关文章

随机推荐

热门标签

从R中的城市名称中提取国家/地区名称的相关文章