Python 网页抓取被阻止

2024-01-01

我想抓取德国房地产网站 immobilienscout24.de 的网页。我想下载给定 URL 的 HTML，然后离线使用该 HTML。它不适合商业用途或出版，我也不打算向该网站发送垃圾邮件，它只是用于编码练习。我想编写一个 python 工具，自动下载给定 immobilienscout24.de 网站的 HTML。我尝试使用 beautifulsoup 来实现此目的，但是，解析后的 HTML 不显示内容，而是询问我是否是机器人等，这意味着我的网络爬虫被检测到并被阻止（我可以在 Firefox 中正常访问该网站）。我设置了引荐来源网址、延迟和用户代理。我还能做什么来避免被检测到（即轮换代理、轮换用户代理、随机点击、其他未被检测到的网络抓取工具...）？我尝试过使用我的手机 IP，但得到了相同的结果。 GUI 网络抓取工具不是一个选项，因为我需要用 python 来控制它。如果可能的话请给出一些可实现的代码。到目前为止，这是我的代码：

import urllib.request
from bs4 import BeautifulSoup
import requests
import time
import numpy

url = "https://www.immobilienscout24.de/Suche/de/wohnung-mieten?sorting=2#"
req = urllib.request.Request(url, data=None, headers={ 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36' })
req.add_header('Referer', 'https://www.google.de/search?q=immoscout24)
delays = [3, 2, 4, 6, 7, 10, 11, 17]
time.sleep(numpy.random.choice(delays)) # I want to implement delays like this
page = urllib.request.urlopen(req)
soup = BeautifulSoup(page, 'html.parser')
print(soup.prettify)

username:~/Desktop$ uname -a
Linux username 5.4.0-52-generic #57-Ubuntu SMP Thu Oct 15 10:57:00 UTC 2020 x86_64 x86_64 x86_64 GNU/Linux

谢谢你！

我是 Fredy 的开发者（https://github.com/orangecoding/fredy https://github.com/orangecoding/fredy）。我遇到了同样的问题。深入研究这个问题后，我发现他们如何检查你是否是机器人。

首先，他们设置一个本地存储值。

localstorageAvailable: true

如果可用，他们会设置一个值：

testLocalStorage: 1

如果两者都有效，则会设置一个名为reese84=xxx。这就是你想要的。如果您随请求发送此 cookie，它应该可以工作。我已经测试过几次了。

注意：这尚未在 Fredy 中实现，因此 immoscout 仍然无法在实时源上工作，因为我目前正在重写代码。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 网页抓取被阻止的相关文章

MANIFEST.in、package_data 和 data_files 澄清吗？

我正在尝试创建一个 Python 包并且目录结构如下 mypkg init py module1 x py y py z txt module2 a py b py 然后我将所有文件添加到MANIFEST in当我检查创建的存档时它包含
使用 OpenCV 和/或 Numpy 对两个图像进行 Alpha 混合 [重复]

这个问题在这里已经有答案了我想将一个填充纯色的半透明矩形添加到已加载的半透明 PNG 中这是我正在使用的输入图像示例该图像加载了标准cv2 IMREAD UNCHANGED标志以便完美保留 alpha 通道该输入图像存储在imag
Python GTK + webkit - 在 gtk.main() 之后插入 JavaScript

我在终端中尝试了这个一切正常但是如果我在脚本内运行这个我无法在 gtk main 之后插入 JavaScript import gtk import webkit w gtk Window b webkit WebView w add
最小二乘法拟合直线 python 代码

我有一个由 X 和 Y 坐标组成的散点图我想使用直线的最小二乘拟合来获得最佳拟合线直线最小二乘拟合是指如果 x 1 y 1 x n y n 是测量数据对则最佳直线是y A Bx 这是我的Python代码 number of poin
正则表达式，选择最接近的匹配

假设以下单词序列 BLA text text text text text text BLA text text text text LOOK text text text BLA text text BLA 我想做的是将 BLA 中的文本
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
对于相同的查询，MySQL Workbench 比 Python 快得多

MySQL Workbench 中的以下查询需要 0 156 秒才能完成 SELECT date time minute price id FROM minute prices WHERE contract id 673 AND TIMES
Django 模型字段默认基于另一个模型字段

我使用 Django Admin 构建一个管理站点有两张表一张是ModelA其中有数据另一个是ModelB里面什么也没有如果一个模型字段b b in ModelB为None 可以显示在网页上值为ModelA的场a b 我不知道该怎
返回上个月的日期时间对象

如果 timedelta 在它的构造函数中有一个月份参数就好了那么最简单的方法是什么 EDIT 正如下面指出的那样我并没有认真考虑这一点我真正想要的是上个月的任何一天因为最终我只会获取年份和月份因此给定一个日期时间对象返回的最
如何使用 Celery 多工作人员启用自动缩放？

命令celery worker A proj autoscale 10 1 loglevel info启动具有自动缩放功能的工作人员当创建多个工人时 me mypc projects x celery multi start mywork
Pandas：将 pytz.FixedOffset 应用于系列

我有一个带有timestamp列看起来像这样 0 2020 01 26 05 00 00 08 00 1 2020 01 26 06 00 00 08 00 Name timestamp dtype datetime64 ns pytz F
根据第三个变量更改散点图中的标记样式

我正在处理多列字典我想绘制两列然后根据第三列和第四列更改标记的颜色和样式我很难改变 pylab 散点图中的标记样式我的方法适用于颜色不幸的是不适用于标记样式 x 1 2 3 4 5 6 y 1 3 4 5 6 7 m k l l
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
如何使用 django-pyodbc (ubuntu 16.04) 配置数据库设置 Django-MSSQL？

我是 Django 新手目前正在尝试使用另一个数据库来保存我的模型即MS SQL 我的数据库部署在docker容器中 903876e64b67 microsoft mssql server linux bin sh c opt mssq
python dicttoxml 多次使用相同的键

我正在尝试做如下所示的 xml
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
在 HDF5 (PyTables) 中存储 numpy 稀疏矩阵

我在使用 PyTables 存储 numpy csr matrix 时遇到问题我收到此错误 TypeError objects of type csr matrix are not supported in this context so
Java/Python 中的快速 IPC/Socket 通信

我的应用程序中需要两个进程 Java 和 Python 进行通信我注意到套接字通信占用了 93 的运行时间为什么通讯这么慢我应该寻找套接字通信的替代方案还是可以使其更快更新我发现了一个简单的修复方法由于某些未知原因缓冲输出流似
如何使用 Python 3 正确显示倒计时日期

我正在尝试获取将显示的倒计时基本上就像一个世界末日时钟哈哈有人可以帮忙吗 import os import sys import time import datetime def timer endTime datetime datet
Python 中的字符串slugification

我正在寻找 slugify 字符串的最佳方法蛞蝓是什么 https stackoverflow com questions 427102 in django what is a slug 我当前的解决方案基于这个食谱 http code

随机推荐

显示表，描述 redshift 中等效的表

我是 aws 新手谁能告诉我 redshifts 与 mysql 命令的等价物是什么 show tables redshift command describe table name redshift command 所有信息都可以在PG
生成随机、唯一的值 C#

我已经搜索了一段时间并一直在努力找到这个我试图用 C 生成几个随机的唯一的数字我在用着System Random 我正在使用DateTime Now Ticks seed public Random a new Random Date
R studio - 我需要使用混淆矩阵的敏感性和特异性以及阳性和阴性预测值的置信区间

我正在写一篇关于住院儿童帐单代码有效性的论文我是一个非常新手的 R studio 用户我需要敏感性和特异性以及阳性和阴性预测值的置信区间但我不知道该怎么做我的数据有 3 列 ID true value billing value 这
Golang 模板“减号”功能

我知道在go我可以调用名为的模板函数add对于像这样的表达1 1 但是如何为表达式命名函数2 1 没有add默认包含的功能但是您可以轻松地自己编写此类函数例如 tmpl template Must template New Funcs
为什么 C++ 标准文件流没有更严格地遵循 RAII 约定？

为什么 C 标准库使用流open close 语义与对象生命周期分离从技术上讲关闭销毁可能仍会生成类 RAII 但获取释放独立性会在范围内留下漏洞其中句柄可以指向任何内容但仍需要运行时检查来捕获为什么库设计者选择他们的方法而不是
Django 教程：运行服务器错误

我正在遵循 django 教程但我立即在第 1 部分中遇到了问题运行 python manage py runserver 后我在浏览器中输入 URL 并收到错误 ImproperlyConfigured Module django
如何使用 jQuery 查找特定类型（表）的最后一个子项？

假设我有以下结构 div table tbody tr td div table tbody tr td div table Last table here table div td tr tbody table div td tr tbo
使用 Android NDK 中的系统函数在 Android 嵌入式设备上运行 Shell 脚本文件

All 这里我想通过android NDK中的系统调用运行 sh文件我能跑cp rm通过系统调用命令但 sh 命令无法通过系统调用运行我还在 android 上安装 busybox 我使用下面的代码我设置了所有权限test sh C
Swift 中根据 String 计算出 UILabel 的大小

我正在尝试根据不同的字符串长度计算 UILabel 的高度 func calculateContentHeight gt CGFloat var maxLabelSize CGSize CGSizeMake frame size width
AWS Textract - GetDocumentAnalysisRequest 仅返回文档第一页的正确结果

我编写了使用 Amazon Textract 从 pdf 中提取表和名称值对的代码我按照这个例子 https docs aws amazon com texttract latest dg async analyzing with sqs
ES6 的参数名称？

我定义了一个函数例如 function call api url callback query body 我期望有一种可以提供正文并跳过查询的语法 call api api clients new function x console l
为什么 swift 不警告这个不可发送的全局传递到不同的任务？

考虑以下代码 class Cat var name Tom class Globals var cat Cat let glob Globals func one Task glob cat name Max Expected Warnin
ocamlbuild；建筑顶层

已成功使用子目录重新组织了我的 ocamlbuild 项目 https stackoverflow com questions 2209532 properly compiling modules in subfolders ocamlbu
在 GAE 中实施独特的约束

我正在尝试 Google App Engine Java 但是缺乏独特的约束使事情变得困难我已经通过这篇文章 https stackoverflow com questions 2626978 unique constraint at d
隐藏 Jinja2 模板中无法访问的链接

我们正在工作中使用 Flask Jinja2 编写一个 Web 应用程序该应用程序具有注册用户可以根据其角色访问某些页面为了在服务器端实现这一点我们只需使用装饰页面 app route action1 security requir
如何根据 Unix 时间戳计算本地时间

如果unix时间戳在世界各地都是相同的我如何才能获得本地时间或者是根据不同的时区时间戳不同也就是说我在美国 UTC 1970 的当前秒数是 5 000 但如果我在亚洲并检查时间戳那么它将是 4 000 秒世界上每个国家的 UTC
使用由单个安装程序安装的 SQLite 的 Java 桌面应用程序

我是与数据库交互的 Java 桌面应用程序编程的初学者我的目标是制作一个简单的java应用程序它使用数据库在本地存储数据经过一番谷歌搜索后我发现 SQLite Derby 可以满足我的需求我用谷歌搜索了 SQLite 和 Derb
App 类中的静态上下文 - 内存泄漏

为了能够在应用程序中的任何位置获取应用程序上下文我创建了这样的 App 类 public class App extends Application private static Context mContext public stati
带 if 语句的 Postgresql 函数

我怎样才能使这个伪代码在 Postgresql 中工作 create or replace function getf arg character varying 255 returns int as if arg a then retur
Python 网页抓取被阻止

我想抓取德国房地产网站 immobilienscout24 de 的网页我想下载给定 URL 的 HTML 然后离线使用该 HTML 它不适合商业用途或出版我也不打算向该网站发送垃圾邮件它只是用于编码练习我想编写一个 python

Python 网页抓取被阻止

Python 网页抓取被阻止 的相关文章

随机推荐

热门标签

Python 网页抓取被阻止的相关文章