可以在 Try/Except 中重试/循环吗？

2024-01-12

我试图了解是否可以在 Try/Except 调用内部设置循环，或者是否需要重构以使用函数。长话短说，在花了几个小时学习 Python 和 BeautifulSoup 后，我设法将一些代码组合在一起来抓取 URL 列表，将数据提取到 CSV（现在将其更新到 MySQL 数据库）。代码现在按计划工作，除了我偶尔会遇到 10054，要么是因为我的 VPN 打嗝，要么可能是源主机服务器偶尔会拒绝我（我的循环中有 30 秒的延迟，但有时它仍然会困扰我））。

我了解了 Try/Except 结构的一般概念，但我不太确定我将如何（或者如果可以）在其中循环以重试。我用于获取 URL、清理它并解析我需要的表的基本代码如下所示：

for url in contents:
    print('Processing record', (num+1), 'of', len(contents))
    if url:
        print('Retrieving data from ', url[0])
        html = requests.get(url[0]).text
        soup = BeautifulSoup(html, 'html.parser')
        for span in soup('span'):
            span.decompose()
       trs = soup.select('div#collapseOne tr')
        if trs:
            print('Processing')
            for t in trs:
                for header, value in zip(t.select('td')[0], t.select('td:nth-child(2)')):
                    if num == 0:
                        headers.append(' '.join(header.split()))    
                    values.append(re.sub(' +', ' ', value.get_text(' ', strip=True)))

之后只需将数据处理为 CSV 并运行更新 sql 语句。

我想做的是，如果 HTML 请求调用失败，请等待 30 秒，再次尝试请求，然后处理，或者如果重试失败 X 次，则继续并退出脚本（假设此时我已经完全连接失败）。

是否可以在线执行类似的操作，或者我需要将请求语句放入函数中并设置一个循环来调用它？必须承认我还不熟悉 Python 如何处理函数返回。

您可以为重试添加一个内部循环，并将 try/ except 块放入其中。这是它的外观草图。您可以将所有这些放入一个函数中，并将该函数调用放入其自己的 try/ except 块中，以捕获导致循环退出的其他错误。

看着请求异常层次结构 https://requests.readthedocs.io/en/master/_modules/requests/exceptions/，超时涵盖了多个可恢复的异常，对于您可能想要捕获的所有内容来说，这是一个良好的开始。其他问题（例如 SSLError）不会因为重试而变得更好，因此请跳过它们。您可以浏览该列表，看看什么对您来说是合理的。

import itertools

# requests exceptions at 
# https://requests.readthedocs.io/en/master/_modules/requests/exceptions/
    
for url in contents:
    print('Processing record', (num+1), 'of', len(contents))
    if url:
        print('Retrieving data from ', url[0])
        retry_count = itertools.count()
        # loop for retries
        while True:
            try:
                # get with timeout and convert http errors to exceptions
                resp = requests.get(url[0], timeout=10)
                resp.raise_for_status()
            # the things you want to recover from
            except requests.Timeout as e:
                if next(retry_count) <= 5:
                    print("timeout, wait and retry:", e)
                    time.sleep(30)
                    continue
                else:
                    print("timeout, exiting")
                    raise # reraise exception to exit
            except Exception as e:
                print("unrecoverable error", e)
                raise
            break

        html = resp.text
        etc…

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

可以在 Try/Except 中重试/循环吗？的相关文章

python：函数中的变量，点前面是函数名

我需要理解这个概念其中我们可以在函数定义中的变量名中使用点这里没有类定义也没有模块 Python 不应该接受包含点的变量名 def f x f author sunder f language Python print x f aut
pip3：错误的解释器：没有这样的文件或目录

我正在尝试使用安装依赖项pip3 command 当前场景 Dev which python Users Dev anaconda bin python Dev which python3 usr local bin python3 Dev
使用 Python 从网站下载所有 pdf 文件

我遵循了几个在线指南试图构建一个可以识别并从网站下载所有 pdf 的脚本从而避免我手动执行此操作到目前为止这是我的代码 from urllib import request from bs4 import BeautifulSoup
为什么 __instancecheck__ 没有被调用？

我有以下 python3 代码 class BaseTypeClass type def new cls name bases namespace kwd result type new cls name bases namespace p
对 Pandas DataFrame 进行类型检查

我想对 Pandas DataFrames 进行类型检查即我想指定 DataFrame 必须具有哪些列标签以及哪种数据类型 dtype 存储在其中一个粗略的实现受此启发question https stackoverflow com
ssl.SSLEOFError: EOF 发生违反协议 (_ssl.c:1129)

我正在尝试使用 GOOGLE Drive Api 从电脑上传多个文件到云端硬盘 from pydrive auth import GoogleAuth from pydrive drive import GoogleDrive import
无论如何要抓取重定向的链接吗？

无论如何我可以让 python 单击一个链接例如 bit ly 链接然后抓取生成的链接吗当我抓取某个页面时我唯一可以抓取的链接是重定向的链接它重定向到的位置就是我需要的信息所在的位置重定向有 3 种类型 HTTP 作为响应标头
ValueError：没有为“dense_input”提供数据

我正在使用以下简单的代码使用tensorflow加载csv并使用keras执行建模无法弄清楚这个错误 import tensorflow as tf train dataset fp tf keras utils get file fna
如何在单元测试中模拟 subprocess.call

我使用的是 python 3 3 我必须测试一个使用的方法call来自 subprocess py I tried subprocess call MagicMock with patch subprocess call as TU cal
更改QLineEdit的ClearButton图标

我想在Windows 10 1909 64位上的Python 3 8和PyQt5 5 15 0 上更改我的QLineEdit的ClearButton图标稍后我想在Linux上运行代码我尝试应用此处找到的代码如何在 QLineEdit
Django Rest Framework——没有名为rest_framework的模块

我已经使用安装了 django rest 框架pip install djangorestframework但当我运行 python3 manage py sycndb 时我仍然收到此错误导入错误没有名为 rest framework
加速美丽汤

我正在运行本课程网站的抓取工具我想知道将页面放入 beautifulsoup 后是否有更快的方法来抓取页面花费的时间比我预期的要长得多 Tips from selenium import webdriver from selenium
Spyder 未检测到导入的 python 文件中的更改

我正在使用 Spyder 3 2 4 Python 3 6 Spyder 不会检测导入的 python 文件中的更改例如测试2 py def func return 5 测试1 py import test2 a test2 func
如何从下面的html中提取数据？

我想要从中提取数据的 Html 是 div class infoMessageInner p span class ng binding Fiber r best lld till adressen Tj nsterna kan du be
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
使用 Apache Beam python 创建 Google 云数据流模板时出现 RuntimeValueProviderError

我无法使用 python 3 7 暂存云数据流模板它在一个参数化参数上失败了apache beam error RuntimeValueProviderError RuntimeValueProvider option input typ
我可以在我的机器上同时安装 python 2.7 和 3.5 的tensorflow吗？

目前我通过 Anaconda 在我的机器 MAC OX 上安装了 Python 2 7 Python 3 5 Tensorflow for Python 3 5 我也想在我的机器上安装 Tensorflow for Python 2 7 当
Python beautifulsoup 仅限 1 级文本

我看过其他 beautifulsoup 得到相同级别类型的问题看来我的有点不同这是网站我正试图拿到右边那张桌子请注意表的第一行如何展开为该数据的详细细分我不想要那个数据我只想要最顶层的数据您还可以看到其他行也可以展开但在本例
如何在 MacBook Pro 上的 Docker 容器内运行 tkinter？

我正在尝试运行一个使用以下命令的 python GUI 应用程序tkinter我的 MacBook Pro 上的 docker 容器内的模块所以我安装了XQuartz https www xquartz org 并跟随本教程 https
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle

随机推荐

React-Native-Styled-Components：类型“DefaultTheme”上不存在属性“backgroundColor”

我正在为我的应用程序使用react native Typescript 我的样式组件版本是 styled components 5 3 0 我已经创建了自定义ThemeProvider并包装到我的根应用程序我的应用程序有切换深色主题我的
如何使用 IBM Bluemix Track & Plan 管理多个组件

我们有一个由多个不同组件不同功能语言组成的应用程序在 IBM Bluemix 中是否可以使用单个 Track Plan 功能来管理组件的工作项但将源代码保留在单独的 git 存储库中例如我希望整个应用程序有一个积压工作然后由
如何通过 FTP 访问我的 Azure 应用服务文件？ wwwroot 目录为空

使用 Azure 门户中应用服务页面导航上的部署中心链接我能够找到我的 FTP 凭据并使用它们轻松登录但是 wwwroot 文件夹中除了hostingstart html 之外没有任何文件但是当我使用 Azure 控制台时我的所有
Android NDK 无法使用两个 gradle 插件调试本机代码

我使用 NDK 和实验性 gradle 插件最初我能够调试我的本机代码然后我看到了这个问题https github com googlesamples android ndk issues 119 https github com go
如何在Android文件系统上模拟文件的“tail”命令？

我的 SD 卡上有文件我的应用程序使用它作为日志文件是否可以通过 adb 实时监视文件的所有更改喜欢与tail f sdcard myfile log命令这似乎对我很有用 adb shell while true do cat sl
如何使用OKHTTP发出post请求？

我读了一些将 json 发布到服务器的示例有人说 OkHttp 是 HttpUrlConnection 接口的实现由Java提供它提供了一个用于写入内容的输入流不知道或关心该内容是什么格式现在我想使用名称和密码参数向 URL
提取 Objective-c 二进制文件

是否可以提取二进制文件获取二进制文件背后的代码使用类转储您可以看到实现地址但是是否也可以看到实现地址中的代码有什么办法可以做到吗您的所有代码都会编译为单个指令并放置在可执行文件的文本部分中编译器负责将高级语言转换为更简单的处
简单的、结构类型的 XML 数据绑定（无需代码生成或反射）

我正在寻找一个 Java 库它允许我将 XML 编组到 Java 对象树反之亦然有很多库可以让我将 XML 绑定到JavaBeans由某些代码生成工具生成但是我不需要这些 JAXB JiBX Castor 等我需要的是一个工具
如何做 pd.get_dummies 或其他方式？

实际上我的问题是基于是否有更快的方法根据条件更新数据框列值 https stackoverflow com questions 46678400 is there a faster way to update dataframe col
WCF 数据服务支持的 Linq

我正在寻找与 WCF 数据服务兼容的受支持 linq 扩展方法的完整列表通过反复试验我发现 First Func 和 Single Func 不受支持还有其他吗 This http msdn microsoft com en us l
Java - 如何检查字符串中的重复字符？

我需要编写一个函数来检查字符串中是否有重复值并返回唯一字符的计数如果计数大于 3 则应返回 true 如果计数小于 3 则应该为 false 这是我一直在尝试的注意我是java新手 private boolean isFormatVal
SSE (SIMD)：向量乘标量

我在程序中执行的常见操作是按标量缩放向量 V s 例如 1 2 3 4 2 2 4 6 8 除了首先在向量中的每个位置加载标量例如 mm set ps 2 2 2 2 然后相乘之外是否有 SSE 或 AVX 指令可以执行此操作这就是我
如何从 UIView 创建 CGLayer 进行离屏绘图

我已经阅读了我认为是 Quartz 2D 编程指南的相关部分但找不到以下内容的答案他们似乎在文档中没有过多谈论 iOS 我的应用程序在UIView 我时不时地必须以某种方式更新绘图例如更改其中一个形状的填充颜色我保留CGPathRe
访问列表视图中的自定义对象

我目前正在构建一个应用程序该应用程序将请求发送到网络然后解析结果并将其放入对象的 ArrayList 中然后该列表将填充 ListView 我想创建一个onClickListener这将使我知道单击了哪个对象但我找不到实现此目的的
如何访问 Sharepoint 2007/2010/2013 _layouts 文件夹

我正在尝试在该位置插入一些数据 mysiteurl layouts 因为我必须使用第三方软件该软件使用该文件夹中存储的数据我是机器的管理员 Windows Server 2008R2 上的 Sharepoint 2010 但 Share
ActiveMQ - 通过命令行删除/清除所有队列

有没有办法通过命令行 win linux 删除清除ActiveMQ中的所有队列我只能找到特定队列的命令或者也许有办法通过 activeMQ 管理员来做到这一点同样我只找到了如何一一删除清除队列这可能非常乏味 Thanks 你可
gitlab.com SSH 连接超时

我尝试让 Gitlab 与 SSH 一起工作但不行我已完成以下步骤 1 生成ssh密钥 ssh keygen t rsa C email protected cdn cgi l email protection b 4096 2 在文件
WPF DataGrid 虚拟化无法正常工作？

我有一个 DataGrid 其中有一个 DataTable 设置为其 ItemsSource DataTable 包含 24 列和约 1600 行实际上我稍后必须加载更多行但目前这已经够麻烦的了尽管将列和行的虚拟化设置为活动状态 Da
使用 libwebsockets 编译 libuv

我正在尝试运行与 LWS 库一起安装的 libwebsockets test server 但它不会运行因为 lwsts 31616 libuv support not generated in 我检查过 libuv 已安装 1 8 0
可以在 Try/Except 中重试/循环吗？

我试图了解是否可以在 Try Except 调用内部设置循环或者是否需要重构以使用函数长话短说在花了几个小时学习 Python 和 BeautifulSoup 后我设法将一些代码组合在一起来抓取 URL 列表将数据提取到 CSV

可以在 Try/Except 中重试/循环吗？

可以在 Try/Except 中重试/循环吗？ 的相关文章

随机推荐

热门标签

可以在 Try/Except 中重试/循环吗？的相关文章