这个问题可能看起来像重复的,但我在从字符串中提取国家/地区名称时遇到一些问题。我已经浏览过这个链接[链接]从作者隶属关系中提取国家/地区名称 https://stackoverflow.com/questions/5318076/extracting-country-name-from-author-affiliations但我无法解决我的问题。我尝试过 grepl 和 for 循环进行文本匹配和替换,我的数据列由超过 300k 行组成,因此使用 grepl 和 for 循环进行模式匹配非常非常慢。
我有一个这样的专栏。
org_loc
Zug
Zug Canton of Zug
Zimbabwe
Zigong
Zhuhai
Zaragoza
York United Kingdom
Delhi
Yalleroi Queensland
Waterloo Ontario
Waterloo ON
Washington D.C.
Washington D.C. Metro
New York
df$org_loc <- c("zug", "zug canton of zug", "zimbabwe",
"zigong", "zhuhai", "zaragoza","York United Kingdom", "Delhi","Yalleroi Queensland","Waterloo Ontario","Waterloo ON","Washington D.C.","Washington D.C. Metro","New York")
该字符串可能包含州、城市或国家的名称。我只想要国家作为输出。像这样
org_loc
Switzerland
Switzerland
Zimbabwe
China
China
Spain
United Kingdom
India
Australia
Canada
Canada
United State
United state
United state
我正在尝试使用国家代码库将州(如果找到匹配)转换为其国家/地区,但无法这样做。任何帮助将不胜感激。