如何在 R 中读取文本文件并创建数据框

2024-02-29

需要读取txt文件中https://raw.githubusercontent.com/fonnesbeck/Bios6301/master/datasets/addr.txt https://raw.githubusercontent.com/fonnesbeck/Bios6301/master/datasets/addr.txt

并将它们转换为数据框 R,列号为:LastName、FirstName、streetno、streetname、city、state 和 zip...

尝试使用 sep 命令将它们分开但失败......


扩展我的评论,这是另一种方法。如果您的完整数据集需要考虑更广泛的模式,您可能需要调整一些代码。

library(stringr) # For str_trim 

# Read string data and split into data frame
dat = readLines("addr.txt")
dat = as.data.frame(do.call(rbind, strsplit(dat, split=" {2,10}")), stringsAsFactors=FALSE)
names(dat) = c("LastName", "FirstName", "address", "city", "state", "zip")

# Separate address into number and street (if streetno isn't always numeric,
# or if you don't want it to be numeric, then just remove the as.numeric wrapper).
dat$streetno = as.numeric(gsub("([0-9]{1,4}).*","\\1",  dat$address))
dat$streetname = gsub("[0-9]{1,4} (.*)","\\1",  dat$address)

# Clean up zip
dat$zip = gsub("O","0", dat$zip)
dat$zip = str_trim(dat$zip)

dat = dat[,c(1:2,7:8,4:6)]

dat
      LastName  FirstName streetno           streetname       city state        zip
1        Bania  Thomas M.      725    Commonwealth Ave.     Boston    MA      02215
2      Barnaby      David      373        W. Geneva St.   Wms. Bay    WI      53191
3       Bausch       Judy      373        W. Geneva St.   Wms. Bay    WI      53191
...
41      Wright       Greg      791  Holmdel-Keyport Rd.    Holmdel    NY 07733-1988
42     Zingale    Michael     5640        S. Ellis Ave.    Chicago    IL      60637
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 R 中读取文本文件并创建数据框 的相关文章

  • 使用 heatmap() 作为 ggsave() 的绘图输入时出错

    我想将 stats heatmap 的输出保存在 ggplot2 ggsave 中 但输出不是绘图 并且收到错误 这是代码 data iris col lt colorRampPalette c blue white red 20 ggsa
  • R:如何改变格子(levelplot)颜色主题?

    我安装的默认主题是将值映射为粉色和青色的主题 例如如何将其更改为灰度主题 您可以使用 library lattice lattice options default theme standard theme color FALSE 它会打开
  • RcppArmadillo 传递用户定义函数

    考虑以下 R 代码 R version caller lt function x 1 3 fun identity do some other stuff then call the function eval call fun x fun
  • 如何使用 Reactable 过滤父表和嵌套表中的行?

    如何过滤具有特定内容的行Type 它们位于父表或任何嵌套表中reactable using crosstalk filter checkbox 如图所示here https glin github io reactable articles
  • (因子)数据框列的小写字母

    我有一个data frame以这种格式 data frame 244 obs of 1 variable names Factor w 244 levels ERA BAKE 1 2 3 4 5 6 7 8 9 10 我用它来将其转换为小写
  • 如何在 R tidyverse 中转换列类型

    我试图熟悉 Tidyverse 的使用 但数据类型转换被证明是一个障碍 我知道自动将字符串转换为因子并不理想 但有时我想使用因子 因此一些可以轻松地将 tibble 中所需的字符列转换为因子的方法将非常好 我更喜欢使用 readxl 包读取
  • glm 起始值不被接受日志链接

    我想运行带有日志链接和偏移量的高斯 GLM 出现以下问题 y lt c 1 1 0 0 t lt c 5 3 2 4 没问题 exp coef glm y 1 offset log t family poisson with family
  • 约束优化 R:另一个例子

    我正在尝试在 R 中执行约束优化 我已经查看了这些帖子和其他一些帖子 R 中的约束优化 https stackoverflow com questions 5436630 constrained optimization in r R 中的
  • 如何将数组每一维的值求和成一个矩阵

    我有一个具有三个维度的数组 想要对每个维度的值求和并最终得到一个数据矩阵 这是一个例子 array1 lt array c 5 5 6 3 dim c 3 4 3 matrix lt matrix NA nrow 3 ncol 4 matr
  • Rscript 正在绘制 PDF

    我有一个简单的R http en wikipedia org wiki R 28programming language 29脚本 当它通过 Rscript exe 运行时 默认情况下它会绘制为 PDF 文件 我希望脚本打开一个绘图窗口 我
  • 如何在不指定数据集的情况下调整函数

    我有一个函数 基本上可以过滤SPV行 如下所示 请注意 我这样做return coef lt function df1 idd dmda CategoryChosse 然而 我不希望df1作为函数的参数 而是函数的属性df1数据集 在本例中
  • 您使用 Attach() 或按名称或切片调用变量吗?

    许多介绍 R 的书籍和指南都是从附加一个 R 语言的实践开始的 data frame这样您就可以通过名称调用变量 我一直发现用以下方式调用变量是有利的 符号或方括号切片 2 这样我就可以使用多个data frames 而不混淆它们和 或使用
  • 在闪亮仪表板中显示/隐藏菜单项

    当进入应用程序时 我需要隐藏一个菜单项 当用户选择某个值时 菜单项必须出现 我努力了shinyjs功能hidden 并且它隐藏了一个 menuItem 但是当使用show or toggle 菜单项不会出现 我发现了Rshinydashbo
  • 数据集子集的回归

    我想做以下事情并需要一些帮助 分别计算 身高 与 年龄 的斜率和截距 lm Height Age 一 每个人 二 性别 并创建一个包含结果 斜率和截距 的表 我可以使用 申请 吗 在下一步中 我想做一个统计测试 以确定性别之间的斜率和截距是
  • 中断、保存并稍后继续循环的最佳方法

    事情是这样的 我有一个需要几天时间才能运行的循环 我想中断循环 检查进度 然后稍后继续 目前 我正在使用以下内容 for i in 1 100000 Sys sleep i 2 5 print i write csv i i csv 我检查
  • 有没有办法将字母扩展到超过 26 个字符,例如 AA、AB、AC...?

    我大部分时间都使用字母来表示我的因素 但今天我尝试超过 26 个字符 LETTERS 1 32 期待有自动递归因式分解 AA AB AC 但很失望 这只是字母的限制还是有办法使用其他函数来获取我正在寻找的内容 702够吗 LETTERS70
  • 抑制 r markdown 中的控制台输出,但保留绘图

    嗨 我有以下降价块 r echo FALSE warning FALSE message FALSE error FALSE lapply obj function x plot x main some plot box axis 1 at
  • R 在 Ubuntu 中通过代理连接

    我在 Ubuntu 12 04 上安装了 RStudio 0 97 168 当我尝试安装 gstat 库时出现以下错误 install packages gstat dependencies TRUE Warning in install
  • 使用梯度下降(最速下降)估计线性回归

    示例数据 X lt matrix c rep 1 97 runif 97 nrow 97 ncol 2 y lt matrix runif 97 nrow 97 ncol 1 我已经成功创建了成本函数 COST lt function th
  • corr.test 与 cor.test p 值

    我正在尝试使用 psych 包 psych 1 6 9 中的 corr test 但在使用 method spearman 时 它似乎给出了与 cor test 不同的 p 值 相关系数相同 但 p 值不同 我整理了一些示例代码和输出 如下

随机推荐

  • Prestashop - 付款验证后更改订单状态

    付款验证后 订单状态将变为 付款已验证 法语为 付款接受 我想在付款验证时设置另一个状态 因此历史记录将显示以下内容 Current status My personnal status History My personnal statu
  • 使用 HTML5 文件 API 检查文件是否已更改

    好的 我有一个程序 它将一些特定数据输出到制表符分隔的变量文件中 我一直在使用 Excel 打开和查看文件内容 但是我发现 Excel 坚持锁定它打开的每个文件 这非常烦人 因为如果我在 Excel 中打开文件 我的程序就会崩溃 但我真的很
  • EL 2.1 和 2.2 之间的差异

    我正在寻找 EL 2 1 和 2 2 之间的差异列表 我知道 EL 2 1 和 2 2 之间的一个区别是 2 2 中传递方法参数的能力 还有其他区别吗 有没有可用的功能比较表来说明差异 我已经找了好几天了 到目前为止还没有找到它 谢谢 答案
  • 如何释放 C++ WinRT 值结构的内存

    我是否必须以及如何从已返回到托管 C 项目的 Windows 运行时组件中创建的值结构中释放内存 我声明了该结构 Custom struct public value struct PlayerData Platform String Na
  • 计算不同字段中具有匹配值的记录数

    我有一个这样的表 myTable id name orig id 01 Bill 02 Tom 01 03 Sam 01 04 Alex 02 05 Phil 06 Bob 01 我想要一个返回每条记录的查询 但添加了一个列 其中包含 or
  • Form.ShowDialog(IWin32Window) 应该与任何窗口句柄一起使用吗?

    使用时System Windows Forms ShowDialog IWin32Window 我应该能够传递一个IWin32Window代表任何窗口句柄并且它是否相对于该窗口是模态的 作为 Internet Explorer 7 扩展的一
  • 在 Heroku 上更新应用程序而不丢失图像链接

    我在 Heroku 上有一个应用程序 用户可以在其中添加图像 当我更新这个应用程序时git push heroku master 所有图像都消失了 只留下断开的链接 你知道如何避免吗 Heroku 对他们的文件系统有特殊的限制 因为它只读
  • 在rails中assert_select第一个和第二个html表格单元格内容

    我有以下 html 表 table class list user permission tr th Name th th Permission th tr tr td test user01 td td Reading permissio
  • 托管 Blazor WASM GetFromJsonAsync:JSON 值无法转换为 System.Collections.Generic.IEnumerable`

    我尝试过挖掘和调试 但似乎无法弄清楚为什么 Http Json GetFromJsonAsync 无法转换 我得到的错误如下 删节 blazor webassembly js 1 crit Microsoft AspNetCore Comp
  • Bing 地图 - 悬停时突出显示带有多边形的国家/地区

    我正在使用 silverlight Bing 地图控件 我想在用鼠标光标悬停它后突出显示国家 大陆 除了提供多边形坐标之外 还有更好的方法吗 如果我想强调世界上所有国家 那就太费功夫了 我认为应该有某种现成的解决方案 但我找不到 不 除了提
  • 在 Python 中使用自定义字体将 SVG 转换为 PNG

    我正在使用基于 Cairo RSVG 的解决方案将 SVG 光栅化为 PNG StackOverflow 上已经对它进行了描述在 Python 中将 SVG 转换为 PNG https stackoverflow com questions
  • 返回总和的 Lisp 函数

    我正在尝试编写一个奇怪的函数 所以请耐心等待 这个函数应该有一个列表L作为参数并有一个sum多变的 如果L不是列表 它应该返回nil 否则 它应该迭代列表的每个元素并执行以下操作 如果元素是数字且小于零 则应从总和中减去 1 如果元素是数字
  • 时间序列 - 相关性和滞后时间

    我正在研究一组输入变量和响应变量价格之间的相关性 这些都是按时间顺序排列的 1 我是否有必要平滑曲线其中输入变量是循环变量 自回归 如果是这样 怎么办 2 一旦建立相关性 我想准确量化输入变量如何影响响 应变量 例如 一旦 X 增加 gt
  • 缩放、旋转和裁剪图像

    我希望在 GUI 中能够永久缩放 旋转和裁剪图像 将更改保存到文件中 WPF本身就有能力吗 如果不是 是否有任何组件可以与 WPF 更好地集成 我还需要调整 JPEG 和 TIFF 格式的图像亮度和对比度 删除边框 Thisarticle
  • 为什么 Common Lisp 中冒号位于变量之前

    Common Lisp 中变量前面的冒号语法是什么意思 我见过这样的程序 我将在这里从大量函数中展示一些示例代码 defun expand successorf node mapcar lambda action state cost le
  • 重载类的流插入 (<<) 运算符

    它经常作为类的友元函数被重载 有什么方法可以将其重载为成员函数吗 有什么方法可以将其重载为成员函数吗 假设你有课Foo并且您想使用 Foo foo std cout lt lt foo 不 它不能 仅当第一个参数是类的对象时 成员函数重载才
  • 将 YouTube 嵌入代码精简为仅 URL

    请帮忙 我需要删除以下代码 以便它只使用 值 部分
  • 删除 ASP.net MVC 单页应用程序中的身份验证

    我正在尝试在 Visual Studio 2013 中使用 asp net MVC SPA 模板 我不需要任何身份验证位 我只需要直接加载到控制器页面之一 如何删除初始模板中的所有身份验证内容 去除 Authorize 注释来自HomeCo
  • 创建一个触发器,它将在另一个表更新时在表中插入记录

    假设我有表 T1 和 T2 Columns of T1 gt Value Columns of T2 gt OldValue NewValue 我需要的是一个触发器 它将在 T1 更新时在 T2 中插入一条记录 我还需要知道旧值和新值 我以
  • 如何在 R 中读取文本文件并创建数据框

    需要读取txt文件中https raw githubusercontent com fonnesbeck Bios6301 master datasets addr txt https raw githubusercontent com f