如何使用 python 避免机器人检测并抓取网站？

2024-04-11

我的问题：

我想抓取以下网站：https://www.coches.net/segunda-mano/ https://www.coches.net/segunda-mano/。但每次我用 python selenium 打开它时，我都会收到消息，他们将我检测为机器人。我怎样才能绕过这个检测？首先我尝试使用 selenium 编写简单的代码：

from selenium import webdriver
from bs4 import BeautifulSoup

browser = webdriver.Chrome('C:/Python38/chromedriver.exe')
URL = 'https://www.coches.net/segunda-mano/'
browser.get(URL)

然后我按照要求尝试了它，但我也不起作用。

from selenium import webdriver
from bs4 import BeautifulSoup

from fake_useragent import UserAgent

import requests

ua = UserAgent()

headers = {"UserAgent":ua.random}

URL = 'https://www.coches.net/segunda-mano/'
r = requests.get(URL, headers = headers)

print(r.statuscode)

在这种情况下，我收到消息 403 = 状态代码，表明禁止访问该 URL。

不知道如何在不被阻止的情况下访问该网页。我将非常感谢你的帮助。提前致谢。

Selenium 很容易被检测到，尤其是被所有主要的反机器人提供商（Cloudflare、Akamai 等）检测到。

Why?

Selenium 和大多数其他主要网络驱动程序设置一个浏览器变量（网站可以访问），称为navigator.webdriver to true。您可以通过前往 Google Chrome 控制台并运行来自行检查console.log(navigator.webdriver)。如果您使用的是普通浏览器，则会出现错误。
用户代理，通常所有设备都有所谓的“用户代理”，这是指访问网站的设备。 Selenium 的用户代理看起来像这样：Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) HeadlessChrome/59.0.3071.115 Safari/537.36。你明白了吗？HeadlessChrome包括在内，这是另一种检测途径。

这些只是检测 Selenium 浏览器的多种方法中的两种，我强烈建议阅读this https://stackoverflow.com/a/56529616/6126726 and this https://stackoverflow.com/questions/53039551/selenium-webdriver-modifying-navigator-webdriver-flag-to-prevent-selenium-detec/53040904#53040904以及。

最后，如果您想要一个简单的、直接的解决方案来绕过检测，实现我们讨论过的几乎所有这些概念，我建议使用未检测到的 chromedriver https://github.com/ultrafunkamsterdam/undetected-chromedriver。这是一个开源项目，尽力让您的 Selenium chromedriver 看起来更人性化。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 python 避免机器人检测并抓取网站？的相关文章

如何使用 colorchecker 在 opencv 中进行颜色校准？

我有数码相机获取的色彩检查器图像我如何使用它来使用 opencv 校准图像按照以下颜色检查器图像操作您是想问如何进行颜色校准或如何使用 OpenCV 进行校准为了进行颜色校准您可以使用校准板的最后一行灰色调以下是您应该逐步进行
numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
ctypes 错误：libdc1394 错误：无法初始化 libdc1394

我正在尝试将程序编译为共享库我可以使用 ctypes 在 Python 代码中使用该库使用以下命令该库可以正常编译 g shared Wl soname mylib O3 o mylib so fPIC files pkg config
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
Python tkinter.filedialog Askfolder 干扰 clr

我主要在 Spyder 中工作构建需要弹出文件夹或文件浏览窗口的脚本下面的代码在spyder中完美运行在 Pycharm 中 askopenfilename工作良好同时askdirectory什么都不做卡住了但是如果在调试模式
Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
迭代列表的奇怪速度差异

我创建了两个重复两个不同值的长列表在第一个列表中值交替出现在第二个列表中一个值出现在另一个值之前 a1 object object 10 6 a2 a1 2 a1 1 2 然后我迭代它们不对它们执行任何操作 for in a1 p
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
使用 Selenium 处理验证码

我正在尝试自动化一个表单在表单提交过程中我会得到重新验证码我陷入困境并弄清楚我们如何使用 selenium webdriver 处理验证码文本虽然这个验证码正在实时进行图灵测试实施但是我仍然在寻找某种方法来处理这种情况所以你不能真
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0

随机推荐

是否可以在已经存在的对象中模拟单个方法？

对于集成测试我需要在 java 服务客户端中模拟特定方法而不破坏其中的其余信息它没有自构造函数所以这样的解决方案是不可能的 private DBClient mockClient new DBClient alreadyExisti
MUI 文本字段上的省略号效果

如何在 MUI 文本字段上添加省略号效果他们有一个用于文本换行的多行选项但我想要单行像您可以做的那样换行文本
Xamarin：未找到绑定属性

这个应用程序在 UWP 中运行得很好除了在 Android 上失败的一个更基本的属性之外我已经删除了所有内容它看起来像这样我的页面 xaml
使用 apikey 从 Google Sheets API 获取 403 [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我一直在使用 Google Sheets 作为我的一些应用程序的简单数据后端基本上这些是 20 行 x 20 列客户希望能够
调整图像大小，同时保持纵横比

大家好我从互联网上下载了一张图像需要将其大小调整为其大小的 1 4 同时保留其纵横比关于如何最简单地做到这一点有什么想法吗 WebRequest requestPic WebRequest Create imageURL WebRes
关于并行任务的 `srun ... >output_file` 的语义

抱歉这个问题需要大量的积累但总而言之它是关于许多并行实例的条件srun gt output file会或不会导致某些进程任务破坏其他进程任务产生的输出案例 0 仅 bash 无 SLURM 假设prog 0 sh是以下玩具脚本
Overflow:hidden 隐藏边框但不隐藏溢出的元素

我正在研究带有过渡的标题但有些东西不起作用我将 ul 设为 120px li 设为 60px 我给 li hover 一个translateY 60px 这样当您将鼠标悬停在 li 上时它就会弹出我想隐藏溢出的内容直到您将鼠标悬停在
自定义日期选择器对话框

目前我正在使用经过修改的本机对话框来隐藏日期微调器并且工作正常但现在我想以这样的格式设置日期当我旋转月份微调器或年份微调器时对话框仅显示月份和年份而不是完整的日历日期我的日期选择器对话框的自定义代码如下 Override pro
如何同时按名称或标准差选择列？

Solution 我采用了 thelatemail 提供的解决方案因为我试图坚持使用 tidyverse 和 dplyr 我对 R 仍然很陌生所以我正在采取一些小步骤并利用辅助库感谢大家花时间贡献解决方案 df new lt df i
IE6 不解析加载的 JavaScript 文件（由 Google 托管的 Recaptcha）

这是一个非常奇怪的问题我尝试在其中一个网站上使用 Recaptcha 它适用于除 IE6 之外的所有测试浏览器我参考了google的js http www google com recaptcha api challenge k the
我如何知道机器上特定 Perl 安装最初提供了哪些模块？

我如何知道机器上特定 Perl 安装最初提供了哪些模块这是not的副本如何判断 Perl 模块是核心还是标准安装的一部分 https stackoverflow com questions 2049735 如何判断 Perl 模块是核心
在发布中部署 PDB 文件

我有 CI 服务器设置来构建和部署我的所有环境包括我的生产环境据我所知我的所有项目文件的设置和 CI 设置在我的暂存环境构建和生产环境构建之间都是相同的但是当我部署到生产环境时并没有像暂存中那样与 DLL 文件并排放置 PDB
CSS“>”与“>”？

In CSS a gt b是相同的 a gt b 但这两个符号中哪一个更正确呢我看到在 Chrome 开发者工具中使用了第二个变体两者都不是更正确两者同样有效唯一的一点就是spec http www w3 org TR selec
在 Ionic 2 中添加自定义图标

我正在使用 Ionic 2 来开发我的应用程序我想在我的应用程序中使用我的自定义图标就像我们使用 ionic 2 图标一样标签例如
将库发布到 Maven 存储库

我有一个稳定的开源库 http github com fernandezpablo85 scribe并想知道如何以及是否我可以将我的库发布到 Maven 官方存储库以便人们可以将其包含在他们的pom xml文件并自动下载依赖项将您的
sql server 查询中的明智移位日期时间检查

我的一个项目中的 sql 查询有一个问题实际上我必须检查某个具有三个班次的表中的一个 DateTime 列即我必须根据相应班次中的 RegisteredDateTime 列获取记录我们的轮班时间如下轮班时间为 24 小时制 Sh
Python-PostgreSQL psycopg2 接口 -->executemany

我目前正在分析维基百科转储文件我使用 python 从中提取大量数据并将其保存到 PostgreSQL 数据库中我总是试图让事情进展得更快因为这个文件很大 18GB 为了与 PostgreSQL 交互我使用 psycopg2 但该模
自动扩展 Axon 的跟踪事件处理器

我使用 Axon 框架 4 0 3 和 Spring Boot 来进行事件溯源并有一个跟踪处理器该处理器配置为具有多个段线程来同时处理事件 axon eventhandling processors my processor init
设计confirmation_token无效

我的用户 rb class User lt ActiveRecord Base devise database authenticatable registerable confirmable token authenticatable r
如何使用 python 避免机器人检测并抓取网站？

我的问题我想抓取以下网站 https www coches net segunda mano https www coches net segunda mano 但每次我用 python selenium 打开它时我都会收到消息他们将

如何使用 python 避免机器人检测并抓取网站？

如何使用 python 避免机器人检测并抓取网站？ 的相关文章

随机推荐

热门标签

如何使用 python 避免机器人检测并抓取网站？的相关文章