tryCatch 函数适用于大多数不存在的 URL，但在（至少）一种情况下不起作用

2023-12-25

亲爱的 Stackoverflow 用户，

我正在使用 R 从《今日心理学》中抓取一些心理治疗师的资料；这样做是为了锻炼和学习更多有关网络抓取的知识。

我是 R 新手，我必须接受这种紧张的培训，这将有助于我完成未来的项目。这意味着我可能并不确切地知道我现在在做什么（例如，我可能无法很好地解释脚本或来自 R 的错误消息），但我必须完成它。因此，对于可能存在的误解或不准确之处，敬请谅解。

简而言之，情况如下。我创建了一个函数，通过它我可以从心理治疗师个人资料的 2 个节点中抓取信息；该功能显示在此堆栈溢出帖子 https://stackoverflow.com/questions/58054707/web-scraping-and-looping-through-pages-with-r/58055188.

然后我创建一个循环，在一些心理治疗师的个人资料上使用该函数；该循环也在上面的帖子中，但我在下面报告它，因为这是脚本中产生一些问题的部分（除了我在上面提到的帖子中解决的问题之外）。

j <- 1
MHP_codes <-  c(150140:150180) #therapist identifier
df_list <- vector(mode = "list", length(MHP_codes))
  for(code1 in MHP_codes) {
    URL <- paste0('https://www.psychologytoday.com/us/therapists/illinois/', code1)
    #Reading the HTML code from the website
    URL <- read_html(URL)
    df_list[[j]] <- tryCatch(getProfile(URL), 
                             error = function(e) NA)
    j <- j + 1
  }

当循环完成时，我将来自不同配置文件的信息绑定到一个数据帧中并保存它。

final_df <- rbind.fill(df_list)
save(final_df,file="final_df.Rda")

该函数 (getProfile) 在个人配置文件上运行良好。它也适用于小范围的配置文件 (c(150100:150150))。请注意，我不知道实际分配的心理治疗师 ID 是什么；因此，该范围内的许多 URL 都不存在。

不过一般来说tryCatch应该可以解决这个问题。当 URL 不存在时（因此 ID 不与任何心理治疗师关联），2 个节点中的每一个（以及我的数据框中的 2 个相应变量中的每一个）都是空的（即数据框在相应的单元格）。

然而，在某些 ID 范围内，可能会出现两个问题。

首先，我收到一条错误消息，如下所示：

open.connection(x, "rb") 中的错误：HTTP 错误 404。

因此，尽管我正在使用 try Catch 并且它通常看起来有效（至少在错误消息出现之前），但这种情况还是发生了。

此外，在循环停止并且 R 运行该行之后：

final_df <- rbind.fill(df_list)

出现第二条错误消息：

警告信息：在 df[[var]] 中：关闭未使用的连接 3 (https://www.psychologytoday.com/us/therapys/illinois/150152 https://www.psychologytoday.com/us/therapists/illinois/150152)

该空 URL 似乎存在特定问题。事实上，当我更改 ID 范围时，尽管 URL 不存在，循环仍能正常工作：一方面，当 URL 存在时，将从网站中抓取信息；另一方面，当 URL 不存在时，这两个变量与该 URL（以及该心理治疗师 ID）相关联的用户会得到 NA。

如果 URL 为空，是否可以告诉 R 跳过该 URL？不记录任何东西？这个解决方案非常好，因为它会将数据帧缩小到现有的 URL，但我不知道该怎么做，也不知道它是否能解决我的问题。

谁能帮我解决这个问题？

是的，你需要包装一个tryCatch周围的read_html称呼。这是 R 尝试连接到网站的地方，因此如果连接失败，它将抛出错误（而不是返回空对象）。您可以捕获该错误，然后使用next告诉 R 跳到循环的下一次迭代。

library(rvest)
##Valid URL, works fine
URL <- "https://news.bbc.co.uk"
read_html(URL)

##Invalid URL, error raised
URL <- "https://news.bbc.co.uk/not_exist"
read_html(URL)
##Leads to error
Error in open.connection(x, "rb") : HTTP error 404.

##Invalid URL, catch and skip to next iteration of the loop
URL <- "https://news.bbc.co.uk/not_exist"
tryCatch({
URL <- read_html(URL)},
error=function(e) {print("URL Not Found, skipping")
                  next})

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tryCatch 函数适用于大多数不存在的 URL，但在（至少）一种情况下不起作用的相关文章

如何找到对象的创建位置？

我目前正在努力改进对其他脚本有不同调用的代码我想知道在哪里创建对象对于其中一些人来说只需使用文本编辑器的搜索选项即可只要看看是否obj lt or obj 有什么结果但这不适用于使用assign功能在加载的脚本中创建的也不是 T
Selenium AttributeError：列表对象没有属性 find_element_by_xpath

我正在尝试从网站上抓取一些营养数据到目前为止一切似乎都进展顺利直到我遇到格式略有不同的页面使用 selenium 和这样的行返回一个空列表 values browser find elements by class name siz
data.frame 按列分组[重复]

这个问题在这里已经有答案了我有一个数据框 DF 说 DF 是 A B 1 1 2 2 1 3 3 2 3 4 3 5 5 3 6 现在我想将 A 列的行组合在一起并得到 B 列的总和例如 A B 1 1 5 2 2 3 3 3 11
评估 R 中字符串指向的函数

假设我有以下内容 x lt 1 10 squared lt function x x 2 y lt squared 我希望能够使用 y 定义的字符串来评估该函数像 eval y 这样的东西我知道这是错误的但会返回 1 1 4 9 16
在 R 中将本地日期时间转换为 UTC

如何将本地日期时间转换为以下格式 12 31 2014 6 42 52 PM R 中的 UTC 我试过这个 as POSIXct as Date 12 31 2014 6 42 52 PM format m d Y H M S tz UTC
为 PDF 输出添加 natbib 选项

有没有办法指定natibib输出 PDF 时的选项bookdown 我希望 tex 输出具有命令 usepackage sort compress natbib 但似乎没有任何方法可以在 YAML 中指定它我无法将命令添加到我的序言中因
是否可以使用像“tz=NULL”这样的东西？...“as.POSIXct”默认为依赖于语言环境的时区（与“as.Date”不同），这会导致问题

我知道这是一个长期存在根深蒂固的问题但这是我经常遇到的问题而且我看到初学者R经常与此斗争我希望有一个令人满意的解决方案到目前为止我的谷歌和 SO 搜索都是空的但如果在其他地方重复请指出正确的方向 TL DR 有没有办法使用类
R 在 Ubuntu 中通过代理连接

我在 Ubuntu 12 04 上安装了 RStudio 0 97 168 当我尝试安装 gstat 库时出现以下错误 install packages gstat dependencies TRUE Warning in install
为闪亮的应用程序创建桌面图标

当我在基本 R 提示中提供以下代码时我会在浏览器中打开一个闪亮的应用程序 shiny runApp C Myapp 我使用 Windows 7 我试图创建一个桌面图标以避免我的客户每次想要使用该应用程序时都键入上述代码我创建了一个桌面
两个闪亮的操作按钮

我正在编写一个闪亮的函数其中包含两个操作按钮这两个按钮是左右按钮单击时可以帮助绘图移动第一次单击时这两个按钮都工作正常当我重新单击它们时就会出现问题无论我单击哪个按钮它都会在两个范围之间来回弹跳我猜可能是右和左按
R Plotly 禁用图例单击和图例双击

我想使用 R Plotly 从服务器端禁用绘图图例选择我们看here https community plot ly t disable legend click functionality hiding traces 1345 2可以使
为什么 quosures 在 group_by() 中起作用，但在 filter() 中不起作用？

我正在构建一个函数我将根据字符串操作数据框在该函数中我将根据字符串构建一个列名称并使用它来操作数据框如下所示 library dplyr orig df lt data frame id 1 3 amt c 100 200 300
检测外部 URL 的最快方法

检测是否最快的方法是什么foo http john doe 是一个外部的url questions tagged url 相比于window location href Update 我做了更多研究发现使用new URL很容易足够快而且
R 包“raster”在搜索“terra”最新版本时无法上传

我正在 Windows 10 中使用 RStudio 2021 09 2 中的 R 4 1 2 工作我正在处理空间数据包括矢量和栅格但三天前命令库栅格开始向我发出此警告错误 loadNamespace i c lib loc l
插值时间序列

我有两组具有不同时间戳的数据一组数据包含校准数据另一组包含样本数据校准的频率比样品少得多我想做的是将校准数据低频插值到采样时间序列高频上 sam lt textConnection time value 01 00 52 2
如何在 R 中使用 msgbox [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案如何在中显示消息框R 我正在寻找类似的东西msgbox在 VBA 中因此我可以向用户发出有关问题的警报此外我想允许一些用户交互例如
未安装的应用程序的URL方案

简单的问题我正在开发一个将注册自己的 URL 方案的应用程序我计划通过人们最喜欢的 QRCode 阅读器使用 QRCode 启动该应用程序我的问题如果我的应用程序尚未安装在他们的 iPhone iPad 上会发生什么他们会被引导
ggplot2：图例中的斜体

我正在尝试编辑图例中的标签以便第一个标签 WT 为纯文本而后续 7 个标签为斜体我一直在使用element text face c plain rep italic 7 但这导致没有任何标签被转换为斜体我有点困惑为什么它不起作用因
如何将带有几行代码的字符数组转换为 data.frame？

我有以下数组 my list lt c Jan 01 Dec 31 00 00 24 00 Jan 01 Jun 30 12 00 18 00 Jul 06 Dec 31 09 00 19 00 导致以下结果的最短代码是什么 x1 x2 x
如何限制scrapy请求对象？

所以我有一个蜘蛛我认为它正在泄漏内存结果当我检查 telnet 控制台 gt gt gt prefs 时它只是从链接丰富的页面中抓取了太多链接有时它会超过 100 000 个现在我已经一遍又一遍地浏览文档和谷歌但我找不到一种方法

随机推荐

Android：使用 ADB 获取所有已安装的软件包[重复]

这个问题在这里已经有答案了如何使用 ADB Shell 获取 Android 8 上安装的所有软件包的列表我更喜欢查询 Sqlite 库但接受任何命令行解决方案 adb shell cmd package list packages
R 中的瓦哈卡分解 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想在 R 中进行瓦哈卡分解它用于例如我相信劳动经济学可以区分可解释的方差和不可解释的方差我一直无法在 R 中找到合适的解决方案
尝试调试 Windows 应用程序时出现 Flutter 错误

我正在尝试使用默认的 Flutter 项目首次启动 Windows 应用程序但它特别显示此错误 Unable to start engine without AOT data Failed to create view controlle
如何在 NSSet 或 NSArray 中搜索具有特定属性的特定值的对象？

如何在 NSSet 或 NSArray 中搜索具有特定属性的特定值的对象示例我有一个包含 20 个对象的 NSSet 每个对象都有一个type财产我想得到第一个对象 theObject type isEqualToString sta
如何从 ASP.NET Core 中的 .json 文件读取 AppSettings 值

我已在文件 appsettings Config json 中设置了 AppSettings 数据如下所示 AppSettings token 1234 我在网上搜索了如何从 json 文件读取 AppSettings 值但我找不到任何
如何部署php应用程序

我目前正在为一个慈善组织开发一个 php 应用程序现在正处于定义部署实践的阶段我们的应用程序同时使用 Zend Framework 和 Doctrine 该应用程序将被部署到不同的服务器每个服务器都有不同的配置文件这些机器都是 Wi
设置每个 UITableViewCell 的高度后获取 UITableViewCell 的高度

我为每个 UITableViewCell 设置高度 CGFloat tableView UITableView tableView heightForRowAtIndexPath NSIndexPath indexPath 我需要获取每个
没有 VCS/Git 的 Go 模块初始化失败并无法确定模块路径

我正在尝试使用 go 模块使用 go 1 11 初始化一个新的 go 项目我不打算在 github 或其他地方发布它它只是一个只有主包的临时测试项目每当我尝试跑步时go mod init在一个目录中在我的目录之外 GOPATH
如何在运行时解析类型以避免多个 if else

我的代码可以根据请求类型进行网络服务调用为此我有以下代码 public class Client IRequest request public Client string requestType request new Enrolme
使用Gson和JsonObject格式化和解析数据

我在用Json对象 http google gson googlecode com svn trunk gson docs javadocs com google gson JsonObject html and Gson http goo
SQL 中的 COALESCE 函数

有人能解释一下 SQL 中的 COALESCE 函数是如何工作的吗语法如下合并 x y MSDN 文档中关于这个函数的描述非常模糊我不确定您为什么认为文档含糊不清它只是逐一遍历所有参数然后返回第一个参数NOT NULL COALE
在编辑模式下更改 datagridview 单元格值

我在 datagridview 中有一个单元格在其中以自定义格式显示时间我需要当使用进入编辑模式例如通过双击时我需要将字符串值更改为表示时间以分钟为单位的整数当我尝试更改 CellEnter 事件中的单元格值时它似乎没有响
在 React 中使用多个选项从

tryCatch 函数适用于大多数不存在的 URL，但在（至少）一种情况下不起作用

r

URL

webscraping

trycatch

tryCatch 函数适用于大多数不存在的 URL，但在（至少）一种情况下不起作用的相关文章

如何找到对象的创建位置？

Selenium AttributeError：列表对象没有属性 find_element_by_xpath

data.frame 按列分组[重复]

评估 R 中字符串指向的函数

在 R 中将本地日期时间转换为 UTC

为 PDF 输出添加 natbib 选项

是否可以使用像“tz=NULL”这样的东西？...“as.POSIXct”默认为依赖于语言环境的时区（与“as.Date”不同），这会导致问题

R 在 Ubuntu 中通过代理连接

为闪亮的应用程序创建桌面图标

两个闪亮的操作按钮

R Plotly 禁用图例单击和图例双击

为什么 quosures 在 group_by() 中起作用，但在 filter() 中不起作用？

检测外部 URL 的最快方法

R 包“raster”在搜索“terra”最新版本时无法上传

插值时间序列

如何在 R 中使用 msgbox [关闭]

未安装的应用程序的URL方案

ggplot2：图例中的斜体

如何将带有几行代码的字符数组转换为 data.frame？

如何限制scrapy请求对象？

随机推荐

Android：使用 ADB 获取所有已安装的软件包[重复]

R 中的瓦哈卡分解 [关闭]

尝试调试 Windows 应用程序时出现 Flutter 错误

如何在 NSSet 或 NSArray 中搜索具有特定属性的特定值的对象？

如何从 ASP.NET Core 中的 .json 文件读取 AppSettings 值

如何部署php应用程序

设置每个 UITableViewCell 的高度后获取 UITableViewCell 的高度

没有 VCS/Git 的 Go 模块初始化失败并无法确定模块路径

如何在运行时解析类型以避免多个 if else

使用Gson和JsonObject格式化和解析数据

SQL 中的 COALESCE 函数

在编辑模式下更改 datagridview 单元格值

在 React 中使用多个选项从

tryCatch 函数适用于大多数不存在的 URL，但在（至少）一种情况下不起作用

tryCatch 函数适用于大多数不存在的 URL，但在（至少）一种情况下不起作用 的相关文章

随机推荐

tryCatch 函数适用于大多数不存在的 URL，但在（至少）一种情况下不起作用的相关文章