从州-县字符变量中提取州和县

2024-01-13

我在单个字符串变量中有州和县名称州_县，我想将它们分开以创建两个不同的变量 -states and county.
有些州有两个（甚至三个）单词，县也是如此。

> states_county_names_df$states_county
  [1] "California San Francisco"                 
  [2] "New York Bronx"                           
  [3] "New York Kings"                           
  [4] "New York New York"                        
  [5] "New York Queens"                          
  [6] "New York Richmond"                        
  [7] "Washington King"                          
  [8] "Illinois Cook"                            
  [9] "Massachusetts Suffolk"                    
 [10] "District of Columbia District of Columbia"

因此，我想提取美国所有州的名称来创建一个因子变量，并使用子字符串命令来删除州（并获取县），同时也只保留州（以删除县）。我不确定如何循环我的每个字符串条目的每个因子变量级别州_县虽然有变数。

state_name<-state.name 

for(i in levels(state_name)){
  print("levels(state_name)")
  test<-str_remove_all(states_county_names_df$states_county, "levels(state_name)")
   }

如果有人能提出不同的方法来获得结果，我将不胜感激。

我目前使用暴力破解并编写了 50 行代码来生成state列，但仍然无法到达国家，因为我不知道如何“减去”state专栏来自州_县 column.

states_county_names_df$states[grepl("California",states_county_names_df$states_county)] <- "California"
states_county_names_df$states[grepl("New York", states_county_names_df$states_county)] <- "New York"
.
.
.

R 有一个名为“state”的内置数据集，其中包含美国各州的列表。该列表中没有“哥伦比亚特区”，但您可以将其添加到列表中，然后使用该列表将“states_county”拆分为州和县，例如

library(tidyverse)

states_county_names_df <- data.frame(states_county = c(
  "California San Francisco",                
  "New York Bronx",                           
  "New York Kings",                           
  "New York New York",                        
  "New York Queens",                          
  "New York Richmond",                        
  "Washington King",                          
  "Illinois Cook",                            
  "Massachusetts Suffolk",                    
  "District of Columbia District of Columbia"
  )
)

data(state)

state.name
#>  [1] "Alabama"        "Alaska"         "Arizona"        "Arkansas"      
#>  [5] "California"     "Colorado"       "Connecticut"    "Delaware"      
#>  [9] "Florida"        "Georgia"        "Hawaii"         "Idaho"         
#> [13] "Illinois"       "Indiana"        "Iowa"           "Kansas"        
#> [17] "Kentucky"       "Louisiana"      "Maine"          "Maryland"      
#> [21] "Massachusetts"  "Michigan"       "Minnesota"      "Mississippi"   
#> [25] "Missouri"       "Montana"        "Nebraska"       "Nevada"        
#> [29] "New Hampshire"  "New Jersey"     "New Mexico"     "New York"      
#> [33] "North Carolina" "North Dakota"   "Ohio"           "Oklahoma"      
#> [37] "Oregon"         "Pennsylvania"   "Rhode Island"   "South Carolina"
#> [41] "South Dakota"   "Tennessee"      "Texas"          "Utah"          
#> [45] "Vermont"        "Virginia"       "Washington"     "West Virginia" 
#> [49] "Wisconsin"      "Wyoming"
states_inc_Columbia <- c(state.name, "District of Columbia")

states_county_names_df %>%
  mutate(state = str_extract(states_county, paste(states_inc_Columbia, collapse = "|")),
         county = str_remove(states_county, paste(states_inc_Columbia, collapse = "|")))
#>                                states_county                state
#> 1                   California San Francisco           California
#> 2                             New York Bronx             New York
#> 3                             New York Kings             New York
#> 4                          New York New York             New York
#> 5                            New York Queens             New York
#> 6                          New York Richmond             New York
#> 7                            Washington King           Washington
#> 8                              Illinois Cook             Illinois
#> 9                      Massachusetts Suffolk        Massachusetts
#> 10 District of Columbia District of Columbia District of Columbia
#>                   county
#> 1          San Francisco
#> 2                  Bronx
#> 3                  Kings
#> 4               New York
#> 5                 Queens
#> 6               Richmond
#> 7                   King
#> 8                   Cook
#> 9                Suffolk
#> 10  District of Columbia

^{Created on 2022-03-16 by the reprex package https://reprex.tidyverse.org (v2.0.1)}

还有一个基本的 R 选项：

states_county_names_df <- data.frame(states_county = c(
  "California San Francisco",                
  "New York Bronx",                           
  "New York Kings",                           
  "New York New York",                        
  "New York Queens",                          
  "New York Richmond",                        
  "Washington King",                          
  "Illinois Cook",                            
  "Massachusetts Suffolk",                    
  "District of Columbia District of Columbia"
  )
)

data(state)

state.name
#>  [1] "Alabama"        "Alaska"         "Arizona"        "Arkansas"      
#>  [5] "California"     "Colorado"       "Connecticut"    "Delaware"      
#>  [9] "Florida"        "Georgia"        "Hawaii"         "Idaho"         
#> [13] "Illinois"       "Indiana"        "Iowa"           "Kansas"        
#> [17] "Kentucky"       "Louisiana"      "Maine"          "Maryland"      
#> [21] "Massachusetts"  "Michigan"       "Minnesota"      "Mississippi"   
#> [25] "Missouri"       "Montana"        "Nebraska"       "Nevada"        
#> [29] "New Hampshire"  "New Jersey"     "New Mexico"     "New York"      
#> [33] "North Carolina" "North Dakota"   "Ohio"           "Oklahoma"      
#> [37] "Oregon"         "Pennsylvania"   "Rhode Island"   "South Carolina"
#> [41] "South Dakota"   "Tennessee"      "Texas"          "Utah"          
#> [45] "Vermont"        "Virginia"       "Washington"     "West Virginia" 
#> [49] "Wisconsin"      "Wyoming"
states_inc_Columbia <- c(state.name, "District of Columbia")

states_county_names_df$state <- sapply(regmatches(x = states_county_names_df$states_county,
                                                  regexec(paste(states_inc_Columbia, collapse = "|"),
                                                          states_county_names_df$states_county)),
                                       "[", 1)

states_county_names_df$county <- sub(x = states_county_names_df$states_county,
                                     pattern = paste(states_inc_Columbia, collapse = "|"),
                                     replacement = "", ignore.case = TRUE)


states_county_names_df
#>                                states_county                state
#> 1                   California San Francisco           California
#> 2                             New York Bronx             New York
#> 3                             New York Kings             New York
#> 4                          New York New York             New York
#> 5                            New York Queens             New York
#> 6                          New York Richmond             New York
#> 7                            Washington King           Washington
#> 8                              Illinois Cook             Illinois
#> 9                      Massachusetts Suffolk        Massachusetts
#> 10 District of Columbia District of Columbia District of Columbia
#>                   county
#> 1          San Francisco
#> 2                  Bronx
#> 3                  Kings
#> 4               New York
#> 5                 Queens
#> 6               Richmond
#> 7                   King
#> 8                   Cook
#> 9                Suffolk
#> 10  District of Columbia

^{Created on 2022-03-16 by the reprex package https://reprex.tidyverse.org (v2.0.1)}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

string

loops

从州-县字符变量中提取州和县的相关文章

使用 RSQLite 在 R 中加载 SQLite 表

我有这个函数用来加载 SQLite 表 sqLiteConnect lt function database table library DBI library RSQLite con lt dbConnect SQLite dbname
Foreach循环无法找到对象

我正在尝试将 foreach 与并行后端结合使用来加速计算用于特征选择的 AUCRF 随机森林的交叉验证如果这确实重要的话在这样做的过程中我需要获取向量的子集向量的名称可以更改但可以作为字符向量进行访问我使用 eval par
rpy2 在从 R 到 Python 的数据帧中处理 NA/缺失值时出现问题

我在使用rpy2包进行转换时遇到问题dataframe将 R 中的内容保存到 Python 中 import os os environ R HOME Library Frameworks R framework Resources imp
编译错误：尝试在函数调用中指定参数类型时出现“预期在 ' ' 之前出现主表达式”

当我编译我的程序时我收到以下错误消息 stringPerm cpp In function int main stringPerm cpp 12 error expected primary expression before word
将 data.frame 的列中的值替换为另一个 data.frame 中的值

我的情况是我有一个数据框其中有一列填充了整数 1 到 6 我想用更具描述性的标签替换这些整数这些标签在另一个充当键的数据框中提供 V1 V2 1 1 LABEL1 2 2 LABEL2 3 3 LABEL3 4 4 LABEL4
找出段落中出现的单词

sentence Alice was not a bit hurt and she jumped up on to her feet in a moment words Alice jumped played 我可以使用filterpyth
r : 直方图上的 ECDF

在 R 中与ecdf我可以绘制经验累积分布函数 plot ecdf mydata 与hist我可以绘制数据的直方图 hist mydata 如何在同一图中绘制直方图和 ecdf EDIT 我尝试做类似的东西 https mathemati
Grep 模式匹配用双引号括起来的小写字符串

我在 grep 方面遇到了一些问题我似乎无法弄清楚我试图在一组源文件中搜索用双引号 C 字符串括起来的小写单词的所有实例使用 bash 和 gnu grep grep e a z cpp 没有给我任何匹配项而 grep e a z
R：错误消息---包错误：“functionName”未从当前命名空间解析

我正在使用一个一直运行到 R3 0 的软件包问题如上所述当我们调用在 R 2 15 2 中工作的函数时从 R 3 0 开始我们得到一个错误 Error in C solarspectrum3 as double lon as doub
根据值的运行总计创建组

我的数据在一个变量 Y 上是唯一的另一个变量 Z 告诉我每个 Y 中有多少人我的问题是我想从这些 Y 和 Z 创建 45 人的组我的意思是每当运行总计Z 达到 45 创建一组然后代码继续创建下一组我的数据看起来像这样 ID X
在 R 中读取 Stata 13 文件

有没有办法在 R 中读取 Stata 版本 13 数据集文件我尝试执行以下操作 gt library foreign gt data read dta TEAdataSTATA dta 但是我收到一个错误 read dta TEAdat
Bash 字符串之间的比较 - 相等但不相等

我只想在 Bash 中的两个字符串之间进行非常简单的比较 stat curl Is url head n 1 echo stat if stat HTTP 1 1 200 OK then echo symbol is OK echo sta
如何使用break语句停止内部和外部循环[重复]

这个问题在这里已经有答案了我使用的代码非常简单break内部循环 for int it 0 it lt 5 it for int it2 0 it2 lt 5 it2 if it2 2 break break here not it2 b
R比例置信区间因子

我正在尝试总结家庭调查的数据因此我的大部分数据都是分类因子数据我想用对某些问题的回答频率图来总结它例如回答某些问题的家庭百分比的条形图误差线显示置信区间我发现了这个很棒的教程我认为它是我祈祷的答案 http www coo
Dplyr 多重滞后整齐评估？

我试图在 dplyr 中使用尽可能少的代码来实现多个滞后同时坚持整洁的评估以下标准评估 SE 代码有效 if require dplyr install packages dplyr library dplyr a as tibble
使用 ggplotly（ggplot2 withplotly）时可以去掉注释中的跟踪标签吗？

使用ggplotly时是否可以删除注释中的跟踪标签例如 library ggplot2 library plotly g lt ggplot iris aes Sepal Width Sepal Length geom point ann
仅在具有重复块名称的另一个 Rmarkdown 文档中运行一个 Rmarkdown 文档中的代码

我正在 Rmarkdown 中编写一系列相互补充的报告我想将上一份报告的结果纳入我目前正在编写的报告中我看到其他建议使用的问题purl从 Rmarkdown 文档中提取 R 代码然后运行它所以我尝试了以下操作 r read previ
按绝对值排序

有谁知道如何按绝对值对 R 中的向量进行排序所以 2 3 1 gt 1 2 3 etc 如果我在 python 中这样做我会创建一对每个值及其符号按绝对值对对列表进行排序然后重新应用符号但我对 R 很陌生所以不知道如何执行此操作
R 条形图中的 X 轴

我想问一个关于 barplot 轴的问题首先请看我的数据 SerNo DOY Rain 1 350 0 2 351 0 3 352 0 4 353 0 5 354 0 6 355 0 7 356 0 8 357 0 9 358 0 10
使用 SparkR 1.5 从 RStudio 中的 hdfs 读取大文件（纯文本、xml、json、csv）的选项

我是 Spark 新手想知道除了下面的选项之外是否还有其他选项可以使用 SparkR 从 RStudio 读取存储在 hdfs 中的数据或者我是否正确使用它们数据可以是任何类型纯文本 csv json xml 或任何包含关系表的数据

随机推荐

如何删除Jenkins下的View而不影响现有作业

我想删除Jenkins下的Views而不影响视图下的Jobs 我之所以问这个问题是因为即使以管理员身份删除它后我也无法输入相同的视图名称我检查了 Jenkins 文件夹下的配置文件并尝试编辑视图名称但这不起作用我需要确认以下脚本是
图钉调整绑定缩放级别大小

我将 WinRT 与 bing 地图结合使用并尝试在缩放地图时设置以编程方式图钉的 RenderTransform 值我试过这个Solution http social msdn microsoft com Forums en US
Django - 如何在不修改的情况下扩展第 3 方模型

我想向数据库表添加一列但我不想修改第 3 方模块以防我将来需要决定升级模块有没有办法可以在我的代码中添加此字段以便在新版本中我不必手动添加该字段您可以使用 ModelName add to class 或 contribute
pip3 ImportError：无法导入名称“IncompleteRead”

通过安装模块时遇到问题pip3 尝试了 2014 年 12 月以来投票最高的帖子中的一些建议但仍然得到以下结果 sudo pip3 install send2trash Traceback most recent call last Fi
使用 GAE 限制对静态文件的访问

我有一个静态文件我不想公开该文件有没有办法限制 app yaml 的访问使其只能由自己的域加载基于 web2py 的解决方案也很受欢迎因为我在 GAE 之上使用它 Thanks 您可以使用登录必需来限制对其的访问以要求使用
RuntimeError: 维度超出范围（预期在 [-1, 0] 范围内，但得到 1）

我使用 Pytorch Unet 模型将图像作为输入同时将标签作为输入图像掩码并在其上训练数据集我从其他地方获得的 Unet 模型我使用交叉熵损失作为损失函数但我得到了这个维度超出范围的错误 RuntimeError Trace
为什么无法从 Excel 互操作中设置强制转换对象？

尝试获取对工作表的引用使用 Excel 互操作 Excel Application xl new Excel ApplicationClass Excel Workbooks xlWorkBooks xl Workbooks Excel
Cytoscape.js - 将核心背景设置为深色？

我正在尝试将边缘渲染为白色因此希望在 cytoscape js 视口中使用黑色背景我尝试修改 div 上的 cssid cy 但这似乎被覆盖了在文档中我只能找到在导出到图像时设置背景颜色的功能例如cy jpg 但这不是我想要的我
（未使用的）GLSL 制服/输入/输出是否有助于调节压力？

我不知道制服在记忆中是如何表示的制服似乎会占用宝贵的寄存器空间但它们最终会传入通过传出到全局内存中对吧制服未使用后情况会发生变化吗编译器可以优化它们吗在这种情况下我作为绑定位置变得无效 1 所以我假设是的制服以 GLSL
gnu ld 链接整个目标文件还是仅链接所需的函数？

我们有一个库和一个可执行文件那就是静态地链接到库我们希望最小化最终可执行文件的程序空间根据 avr libc 的文档链接器链接该函数所在的整个对象模块 http www nongnu org avr libc user manual
提高 mysql LOAD DATA / mysqlimport 的性能？

我正在批处理CSV15GB 30mio 行成mysql 8数据库问题任务大约需要 20 分钟吞吐量约为 15 20 MB s 而硬盘能够以 150 MB s 的速度传输文件我有一个 20GB 的 RAM 磁盘用于保存我的 csv
Automake - 安装版本“automake-1.14.1”时遇到困难

我在 Rapbian 2014 09 09 wheezy raspbian 发行版上安装 automake 1 14 1 时遇到问题我写sh configure然后我写了make然后终端写信给我 make CDPATH ZSH VERSI
删除 Unix 文件中的 ^@ 字符

我有一个关于删除不可见字符的问题这些字符只有当我们尝试使用 vi 命令查看文件时才能看到我们有一个由 Datastage 应用程序生成的文件源是 DB2 表 gt 目标是 txt 文件文件包含不同数据类型的数据我遇到的问题是只有
更改 Java 临时 Internet 文件存储位置

我正在尝试更改 Java Web Start 的存储位置我读到可以通过java控制面板更改位置我到达那里我可以看到临时互联网文件的路径但更改按钮是灰色的为什么我不能改变这条路径我需要将其更改为另一个硬盘驱动器 I goo
dplyr::mutate 的并行版本是什么？

鉴于我有一个非常大的数据框请告知R中是否有一个函数可以使dplyr mutate并行多核运行 Like furrr包你可以在其中设置plan并运行多核 None
Laravel 缓存获取所有带标签的项目

在 Laravel 中您可以使用以下标签将项目放入缓存中 Cache tags bans gt put result gt ip result gt reason 但我似乎无法找到一种方法来获取带有特定标签的所有项目是否可以检索带有特定
在此特定示例中如何将 Javascript 变量传递给 Twig

以下代码在我的Twig模板它用于加载CSS文件或其他文件具体取决于用户选择的主题这在一个简单的HTML页面但是当我尝试将其带到Twig我的模板Symfony应用程序我找不到通过的方法CSS路线与Twig 到Javascript do
如何在android studio中仅允许特定指纹

我正在构建一个应用程序我只想允许每个设备使用特定的指纹指纹是原始的真实的有没有什么方法可以实现这个想法也许可以转换成一个数字我可以将其存储在数据库中并在需要时进行匹配关于你的问题有几点您可以使用根据设备中当前注册的指纹生成的
POST/GET 变量命名规则？

在命名表单中的 POST 变量或查询字符串中的 GET 变量时是否需要遵循任何规则 Thanks 从字面上回答这个问题我所知道的命名确实没有规则 POST and GETphp ini 中的数组键它是一个像其他数组一样的数组看一眼键
从州-县字符变量中提取州和县

我在单个字符串变量中有州和县名称州县我想将它们分开以创建两个不同的变量 states and county 有些州有两个甚至三个单词县也是如此 gt states county names df states county 1 C

从州-县字符变量中提取州和县

从州-县字符变量中提取州和县 的相关文章

随机推荐

热门标签

从州-县字符变量中提取州和县的相关文章