使用 BeautifulSoup 的 Python 进行网页抓取 429 错误

2023-12-02

首先，我不得不说我对使用 Python 进行 Web 抓取还很陌生。我正在尝试使用这些代码行来抓取数据

import requests
from bs4 import BeautifulSoup
baseurl ='https://name_of_the_website.com'
html_page = requests.get(baseurl).text
soup = BeautifulSoup(html_page, 'html.parser')
print(soup)

作为输出，我没有得到预期的 Html 页面，而是另一个 Html 页面，上面写着：Misbehaving Content Scraper 请使用robots.txt 您的IP已被限速

为了检查我写的问题：

try:
page_response = requests.get(baseurl, timeout =5)
 if page_response.status_code ==200:
   html_page = requests.get(baseurl).text
   soup = BeautifulSoup(html_page, 'html.parser')

 else:
  print(page_response.status_code)
except requests.Timeout as e:
print(str(e))

然后我得到 429（请求太多）。

我可以做什么来解决这个问题？这是否意味着我无法打印页面的 Html，并且是否会阻止我抓取页面的任何内容？我应该轮换 IP 地址吗？

如果您只访问该页面一次并获得429可能不是你打他们太多了。你不能确定429错误是准确的，这只是他们的网络服务器返回的内容。我见过页面返回 404 响应代码，但页面正常，而合法缺失页面上返回 200 响应代码，只是服务器配置错误。他们可能会回来429从任何机器人，尝试改变你的User-Agent到 Firefox、Chrome 或“Robot Web Scraper 9000”，看看您会得到什么。像这样：

requests.get(baseurl, headers = {'User-agent': 'Super Bot Power Level Over 9000'})

声明自己是机器人或

requests.get(baseurl, headers = {'User-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'})

如果您想更多地模仿浏览器。请注意所有模仿浏览器的版本内容，在撰写本文时这些内容都是最新的。您可能需要更高版本号。只需找到您使用的浏览器的用户代理，此页面会告诉您那是什么：

https://www.whatismybrowser.com/detect/what-is-my-user-agent

如果您只是说自己是机器人，某些网站会返回更好的可搜索代码，而其他网站则相反。这基本上就是狂野的西部，必须尝试不同的事情。

另一个专业提示，您可能需要编写代码才能拥有“cookie jar”或接受 cookie 的方法。通常这只是您请求中的额外一行，但我会将其留给另一个 stackoverflow 问题:)

如果你确实经常打电话，那么你需要在通话之间睡觉。这是完全由他们控制的服务器端响应。您还需要研究您的代码如何与robots.txt，该文件通常位于网络服务器的根目录中，其中包含它希望您的蜘蛛遵循的规则。

您可以在这里阅读相关内容：在Python中解析Robots.txt

抓取网络既有趣又具有挑战性，请记住，您可能随时被任何网站以任何原因阻止，您是他们的客人。所以好好走路:)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 BeautifulSoup 的 Python 进行网页抓取 429 错误的相关文章

如何使用 cython 编译扩展？

我正在尝试从示例页面编译一个简单的 cython 扩展here http docs cython org src userguide tutorial html在我安装了 Python 2 6 64 位版本的 Windows 7 64 位计
如何使用Python将WebP图像转换为Gif？

我已经尝试过这个 from PIL import Image im Image open this webp im save that gif gif save all True 这给了我这个错误类型错误不支持的操作数类型 tuple
Python BeautifulSoup XML 解析

我编写了一个简单的脚本来使用 BeautifulSoup 模块解析 XML 聊天日志标准 soup prettify 工作正常只是聊天日志中有很多绒毛您可以在下面看到我正在使用的脚本代码和一些 XML 输入文件 Code import
优化 Keras 以使用所有可用的 CPU 资源

好吧我真的不知道我在说什么所以请耐心听我说我正在使用 Theano 后端运行 Keras 以在 MNIST 图像上运行基本的神经网络目前只是一个教程过去我一直使用我的旧 HP 笔记本电脑因为我有 Windows 和 Ubunt
Pandas重置索引未生效[重复]

这个问题在这里已经有答案了我不确定我在哪里误入歧途但我似乎无法重置数据帧上的索引当我跑步时test head 我得到以下输出正如您所看到的数据帧是一个切片因此索引超出范围我想做的是重置该数据帧的索引所以我跑test rese
带图像的简单 GUI [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我试图在简单的 GUI 上显示一些卡
错误：permission_manager_qt.cpp(82) 不支持的权限类型：13

我正在开发具有内置浏览器功能的 python 代码 PyQt 5 13 import sys from PyQt5 QtCore import from PyQt5 QtGui import from PyQt5 QtWidgets imp
如果字段值在外部列表中，Django 会注释布尔值

想象一下我有这个 Django 模型 class Letter models Model name models CharField max length 1 unique True 还有这个列表 vowels a e i o u 我想查询
如何从 Dockerfile 安装 Python 3.7 和 Pip

我正在尝试构建基于 Ubuntu 18 04 的自定义 Docker 映像 Ubuntu 预装了 Python 3 6 但我想 1 安装 Python 3 7 2 将其设置为默认 Python 版本这样就可以使用python代替pytho
sudo pip install python-Levenshtein 失败，错误代码 1

我正在尝试在 Linux 上安装 python Levenshtein 库但每当我尝试通过以下方式安装它时 sudo pip install python Levenshtein 我收到此错误命令 usr bin python c 导入
“char”/“character”类型的类型提示

char 或 character 没有内置的原始类型因此显然必须使用长度为 1 的字符串但是为了暗示这一点并暗示它应该被视为一个字符如何通过类型提示来实现这一点 grade chr A 一种方法可能是使用内置的 chr 函数来表示这一
具有多个元素的数组的真值是二义性错误吗？ Python

from numpy import from pylab import from math import def TentMap a x if x gt 0 and x lt 0 5 return 2 a x elif x gt 0 5 a
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
导入错误：没有名为 google.auth 的模块

当我尝试导入时firebase admin in python 2 7我收到错误导入错误没有名为 google auth 的模块这是Docker文件 https github com ammaratef45 Attendance bl
Python组合目录中的所有csv文件并按日期时间排序

我有 2 年的每日数据分成每月文件我想将所有这些数据合并到一个按日期和时间排序的文件中我正在使用的代码组合了所有文件但不按顺序我正在使用的代码 import pandas as pd import glob os import cs
全局变量是 None 而不是实例 - Python

我正在处理Python 中的全局变量代码应该可以正常工作但是有一个问题我必须使用全局变量作为类的实例Back 当我运行应用程序时它说 back is None 这应该不是真的因为第二行setup 功能 back Back Back
如何在sphinx中启用数学？

我在用sphinx http sphinx pocoo org index html与pngmath http sphinx pocoo org ext math html module sphinx ext pngmath扩展来记录我的代
如何禁止 celery 中的 pickle 序列化

Celery 默认使用 pickle 作为任务的序列化方法如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏
检查字符串是否只有字母和空格 - Python

试图让 python 返回一个字符串仅包含字母和空格 string input Enter a string if all x isalpha and x isspace for x in string print Only alphabe
使用 Python 生成类似于 Messenger 或 kik 代码的圆形二维码

我可以使用 Python 生成圆形 QR 码就像 Facebook Messenger 或 kik 使用的那样吗我访问了很多网站但找不到这种类型的二维码默认情况下 Python 生成方形 QR 码但在我的项目中我想要圆形 QR 码

随机推荐

AmazonS3Client 单个连接与每次调用的新连接 C#

我正在使用 AmazonS3Client 将数据读取写入 S3 对象存储在我的代码中我每次执行读取列出存储桶上传重命名删除等操作时都会创建一个新连接将应用程序部署到生产环境后我遇到了一些性能问题在浏览了几篇博客后建议使
如何在 matplotlib Finance 中保存蜡烛图

我制作了一些 python 脚本来使用 mpl finance 创建烛台图我已经成功制作了烛台图但为了我的生活我找不到将图表保存为 png 的方法这是我的代码 pip install yfinance pip install mpl
获取随机 android.database.sqlite.SQLiteBlobTooBigException

我在应用程序中使用 Room 作为单一事实来源因此来自后端的所有内容都保存在我的房间数据库中然后返回一个 Flowable 每次数据更改时都会触发一个事件这是我的 PlacesDAO Dao abstract class Places
PostgreSQL 自定义周数 - 包含 2 月 1 日的第一周

我是 SQL 函数的新手并尝试创建一个显示自定义周数的日历表每周从星期六开始到星期五结束每年的第一周始终包含该年的 2 月 1 日例如如果特定年份的 2 月 1 日是星期二则第一周那一年是1月29日至2月4日我已经为这个问题苦
ModuleNotFoundError：运行 yum 或 dnf 时没有名为“dnf”的模块

几天前我想运行 dnf 但收到以下错误 Traceback most recent call last File usr bin dnf line 57 in
按名称创建 Objective-C 类实例？

是否可以通过名称创建类的实例就像是 NSString className Car id p Magic createClassByName className p turnOnEngine 我不知道这在 Objective C 中是否可行
将回调作为 upload_to 传递给 FileField

我有一个抽象模型类 UploadItem 用于处理上传的文件我希望每个子类都能够定义 upload to 路径为此我将回调传递给 FileField 的构造函数这是一个例子 class UploadItem models Model
JavaFX：线程“JavaFX 应用程序线程”java.lang.RuntimeException 中的异常：java.lang.reflect.InitationTargetException

我正在开发 JavaFX 项目遇到这样的错误 Logout Exception in thread JavaFX Application Thread java lang RuntimeException java lang reflec
emberjs - 如何使用路由器基础设施标记活动菜单项

我正在尝试创建导航选项卡取自推特引导程序 ul class nav nav tabs li class active a href Home a li li a href Profile a li li a href Messages a
如何在弹性布局中拥有固定元素（如 float: right）？

I have a flex layout with elements in it I want one of them to always stick in the top right corner When I put it out of
LessCSS - 带变量和减亮的 IE 渐变过滤器

我需要在 Less CSS 中使用带有变量和变亮的 IE 渐变过滤器这可能吗 whatever filter progid DXImageTransform Microsoft gradient startColorstr lighten
哈希表中的通用列表

我可以将数组定义为这样的通用列表 array Collections Generic List String 我可以将哈希表中的元素定义为这样的数组 hash array 但我无法将哈希表中的元素定义为通用列表如下所示 hash arra
Fabricjs 1.6.3：为什么活动对象总是显示在顶部

我的问题的良好演示 http fabricjs com hovering如果您选择任何项目它将显示在顶部在早期版本 1 5 0 1 6 2 中不存在此问题抱歉英语不好如果你不想要这种行为你可以设置保留对象堆叠为真检查此处的文档
使用 Android Gradle 更改版本代码

我正在尝试在我的版本中自动增加 versionCodebuild gradle 但这不起作用然后我尝试简单地覆盖 versionCode 例如versionCode 20但它仍然没有更新都检查过原件AndroidManifest xml
指向接口/重载过程的过程指针

我使用过程重载和接口来在 Fortran 程序中实现某种通用性为此我有一个包含许多过程的模块所有过程都是重复的以便能够更改变量类型我还在模块的开头提供了一系列以下类型的接口 interface norm module proced
Geodjango 的 Beanstalk 迁移失败

我想在 aws beanstalk 中部署 geodjango 我已经尝试过这个解决方案以前有用过 commands 01 yum update command sudo yum y update 02 epel repo command
当向视图控制器添加展开函数时，链接器命令失败，退出代码为 1

我正在使用 Storyboard 开发一款 iPad 应用程序在我的应用程序中我有一个弹出窗口和一个视图控制器如果我添加一个像这样的函数 IBAction unwindCouponPaymentToOrderdetailsView U
python 中的复制构造函数？

python中有复制构造函数吗如果不是我会做什么来实现类似的目标情况是我正在使用一个库并且我已经用额外的功能扩展了其中一个类并且我希望能够将从库中获取的对象转换为我自己的类的实例我想你想要复制模块 import copy x
如何将词云放入grob中？

我创建了一个简单的词云 require wordcloud words lt c affectionate ambitious anxious articulate artistic caring contented creative cy
使用 BeautifulSoup 的 Python 进行网页抓取 429 错误

首先我不得不说我对使用 Python 进行 Web 抓取还很陌生我正在尝试使用这些代码行来抓取数据 import requests from bs4 import BeautifulSoup baseurl https name of

使用 BeautifulSoup 的 Python 进行网页抓取 429 错误

使用 BeautifulSoup 的 Python 进行网页抓取 429 错误 的相关文章

随机推荐

热门标签

使用 BeautifulSoup 的 Python 进行网页抓取 429 错误的相关文章