使用 Python 请求抓取整个滚动加载页面

2023-11-30

具体来说，我试图抓取整个页面，但只得到其中的一部分。如果我使用：

r = requests.get('http://store.nike.com/us/en_us/pw/mens-shoes/7puZoi3?ipp=120')

它只获取页面的“可见”部分，因为当您向下滚动时会加载更多项目。

我知道 PyQT 有一些解决方案，例如this，但是有没有办法让 python 请求不断滚动到网页底部，直到所有项目加载？

您可以使用浏览器开发控制台（F12 - Chrome 中的网络）监视页面网络活动，以查看向下滚动时页面执行什么请求，使用该数据并使用以下命令重现请求requests。作为替代方案，您可以使用selenium以编程方式控制浏览器向下滚动直到页面结束，然后保存其 HTML。

我想我找到了正确的请求

Request URL:http://store.nike.com/html-services/gridwallData?country=US&lang_locale=en_US&gridwallPath=mens-shoes/7puZoi3&pn=3
Request Method:GET
Status Code:200 OK
Remote Address:87.245.221.98:80

请求标头

Provisional headers are shown
Accept:application/json, text/javascript, */*; q=0.01
Referer:http://store.nike.com/us/en_us/pw/mens-shoes/7puZoi3?ipp=120
User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36
X-NewRelic-ID:VQYGVF5SCBAJVlFaAQIH
X-Requested-With:XMLHttpRequest

似乎查询参数pn表示当前的“子页面”。但您仍然需要正确理解响应。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

pythonrequests

使用 Python 请求抓取整个滚动加载页面的相关文章

ipython/ pylab/ matplotlib安装和初始化错误

我在 OS X El Captain 上安装了 matplotlib anaconda ipython 然而即使在尝试以所有可能的方式设置环境变量之后我仍无法启动 ipython shell pylab 版本这是错误 ImportEr
绘制与Fig.show()内联的IPython Notebook图形？

我正在使用 IPython Notebook 调用内联模式 pylab inline 以下代码立即在单元格处绘制一个图形 fig plt figure axes fig add axes 0 0 1 1 不过我想在一个单元格中创建绘图轴
Google App Engine 实例不断快速关闭

所以我已经使用应用程序引擎很长一段时间了没有任何问题我知道如果应用程序有一段时间没有被访问者点击那么实例将关闭并且第一个访问该网站的访问者将有几秒钟的延迟同时新实例启动然而最近这些实例似乎只在很短的时间内保持活动状态有时不
PyOpenCL：如何创建本地内存缓冲区？

这里可能是非常简单的问题但我已经搜索了几个小时但没有任何结果我有这段代码我希望有一个 256 位 8 uint32 bitstring gpu 作为设备中的本地内存指针 def Get Bitstring GPU Buffer ctx
了解 Python 2.7 中的缩进错误

在编写 python 代码时我往往会遇到很多缩进错误有时当我删除并重写该行时错误就会消失有人可以为菜鸟提供 python 中 IndentationErrors 的高级解释吗以下是我在玩 CheckIO 时收到的最近 inden
PySpark 使用统计信息写入 Parquet 二进制列（signed-min-max.enabled）

我找到了这张 apache parquet 票https issues apache org jira browse PARQUET 686 https issues apache org jira browse PARQUET 686被标
Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
在张量流中保存模型

Tensorflow 允许我们使用 tf train write graph 方法保存加载模型的结构以便我们可以在将来恢复它以继续我们的训练但是我想知道这是否有必要因为我可以创建一个模块例如 GraphDefinition py
本地化：django-admin compilemessages 跳过 venv

我正在使用本地化Django 1 11应用我可以排除虚拟环境文件夹node modules文件夹同时使用消息文件添加消息 i选项如 django admin makemessages l no i venv django admin m
超出 HTTPSConnectionPool 最大重试次数

我有一个在 nginx uwsgi 上运行的 django 应用程序我们最近开始对所有连接使用 SSL 自从迁移到 SSL 以来我经常收到以下消息 HTTPSConnectionPool host foobar com port 443
使用 python requests 模块登录网站

我正在尝试使用 python 请求模块登录网页我在使用 chrome 提交登录表单并重新检查该表单的代码时捕获了发布请求下面的代码片段中提到了网站以及参数根据某人的帖子我能够创建一个尝试登录和访问受保护内容的 python 代码片段
Cherrypy 和 Jinja2 入门

这是我第一次深入研究Python的Web开发我唯一的其他经验是 PHP 而且我以前从未使用过框架所以我发现这非常令人生畏和困惑我有兴趣学习 CherryPy Jinja2 为我的 NAS 制作 ZFS 监视器我已经阅读了 Cherr
Python：从命令行运行时包含库文件夹

我有一个目录结构 root dir src p1 py lib init py util1 py util2 py 我想跑src p1 py它使用lib util1 py使用导入语句import lib util1 as u1 当我使用 P
如何增加pyqt4中QTableWidget中标题标签的行高和行项目的字体大小

在这里我想增加标题标签的行高和单元格项目的字体大小在我的代码中我使用self table setRowHeight 方法但它不起作用所以请告诉我他们有什么方法可以增加标题标签的行高和单元格项目的字体大小下面给出的是我的代码 impo
Raspberry pi 3 B+ 中的串行通信

我想在 Raspberry pi 3 B 和 GSM GPRS A6 之间进行通信我尝试过但无法从 Raspberry pi 向 GPRS 模块发送数据现在我知道在较新的操作系统在我的例子中是 Raspbian Stretch 中
下载的 csv 中的“_csv.Error：行包含 NUL”

我已经从 url 下载了一个 csv 文件并使用csv reader阅读其内容不过我得到了 csv Error line contains NUL当我尝试迭代时 csv reader object 我不得不提的是如果我手动复制粘贴 ctr
Pandas DataFrame - 列 whos dtype=='category' 上的聚合导致性能下降

我使用内存使用量较高的大数据帧并且我读到如果更改重复值列上的数据类型我可以节省大量内存我尝试了一下确实内存使用量下降了 25 但随后我遇到了我无法理解的性能缓慢问题我对 dtype 类别列进行分组聚合在更改 dtype 之前
Python 子进程在发出 HTTP 请求时无提示崩溃

我在组合多处理请求或 urllib2 和 nltk 时遇到问题这是一个非常简单的代码 gt gt gt from multiprocessing import Process gt gt gt import requests gt g
导入错误：无法导入名称 DependencyWarning

我正在使用 python 2 7 12 当我做import requests 我看到下面的错误尝试卸载和安装 requests 也升级 pip 但没有运气仍然是同样的问题 Python 2 7 12 default Nov 19 201

随机推荐

如何在 Spring config.xml 中配置 Cron 时区？

我有一个带有 Cron 任务的 Spring 配置 xml 文件该任务在我的机器上定期执行如何在 xml 文件中配置此任务以使用莫斯科时区与我的时区不同
更改浏览器缩放级别

我需要在我的网站上创建 2 个按钮来更改浏览器缩放级别由于图像大小和布局问题我请求浏览器缩放而不是 css 缩放嗯这可能吗我听到了相互矛盾的报道尽管在 Firefox 中不起作用但在 IE 和 chrome 中可以使用 img
sci-kit learn：使用 X.reshape(-1, 1) 重塑数据

我正在训练一个用于文本分类的 python 2 7 11 分类器在运行时我收到一条已弃用的警告消息表明我不知道代码中的哪一行导致了它错误警告但是代码运行良好并给了我结果 AppData Local Enthought Canop
Haskell Esqueleto 将列子集投影到自定义记录列表

在所有的例子中我都看到了结果埃斯克莱托被投影到元组列表中或实体记录例如 previousLogItems lt select from li gt do orderBy desc li LogItemId limit 10 return
在我的 iOS 应用程序中使用 IOKit 会导致我的应用程序被拒绝吗？

开发人员正如提到的EricaIOKit是一个半私有框架有人有在应用程序商店应用程序中使用它的经验吗我想用它来获取 IMEI 和 ICCID 号码如果您调用任何未记录的 Apple 框架您的应用程序将被拒绝因此人们不太可能有在应
如何处理 IE 8 中缺少 JavaScript Object.bind() 方法

我正在编写一些 JavaScript 它使用Object bind method funcabc function x y z this myx x this playUB function w if this myx null do bl
有谁知道协议缓冲区的 Ada 插件吗？

我正在寻找用于协议缓冲区的 Ada 插件看起来除了 Ada 之外几乎所有语言插件都可用或正在开发中嗯我唯一发现的是这篇论文不幸的是我没有找到任何翻译工具的源代码即你所说的plugin 我唯一能告诉的是该工具是用 C 开发的 U
将向量的向量打印到 ostream

请考虑以下代码我正在尝试将向量的向量输出到 ostream include
如何从任何字符串网址获取网站名称[关闭]

Closed 这个问题需要细节或清晰度目前不接受答案我已经给出了包含任何有效 url 的字符串我必须从给定的网址中找到网站的名称我也忽略了子域 like http www yahoo com gt yahoo www google
向多个图层组添加标记

我使用 StyledLayerControl 和 markcluster 使用 leafletjs 创建了一张地图 https www wiva at v2 basemap kartentest 每个标记代表一个适合一个类别图层组的研究
根据身体负荷向下滑动一个 div

如何让 div 在页面加载时隐藏然后在页面加载后向下滑动我不想使用 CSSdisplay none 尝试一下这个小提琴 http jsfiddle net ahr3U 这基本上使用 CSS3 设置过渡的所有参数过渡属性使动画成为可能
jshn - 如何解析 json 包

我想知道如何在openwrt上轻松解析json 我有 jhsn 来解析 json 这是我的程序 sh 脚本 download weather wget api openweathermap org data 2 5 weather id 2
在派生类中调用 super() 时，可以传入 self.__class__ 吗？ [复制]

这个问题在这里已经有答案了我最近发现通过 StackOverflow 要调用基类中的方法我应该调用 super derived class self base class method 很好它有效但是我发现自己在进行更改时经常在
使用加密后在终结器线程中获取“ReleaseHandleFailed”MDA

运行此代码后我得到了 MDA第二次在一个循环中使用不同的file范围 byte encryptedData File ReadAllBytes file before this line it throws see exception b
.on("click") 在 iOS 上不起作用

我注意到 body on click id function event 不适用于 iOS 而 id on click function event 工作完美相同的站点相同的 jQuery 最新相同的 DOM 我不能使用后者因为 i
Paypal Ipn 与 asp.net MVC 集成

HomeControler Index cshtml页面如下 div div
无法创建适合文本大小的 HTML Div 元素

我无法让 div 适合其内部文本的大小我有 2 个 div 我希望内部 div 能够 1 适合外部 div 内部 2 位于包装 div 内的中心我遇到的问题是当我调整视图的宽度时文本和 div 边框之间出现了很大的不必要的间隙如下
这个素数相关谓词的瓶颈是什么？

所以这里是我正在尝试计算低于两百万的所有素数的总和对于这个问题但是我的程序非常慢我确实知道该算法本身非常糟糕并且是一种蛮力算法但对我来说它似乎比应有的速度要慢得多这里我将搜索限制为 20 000 这样结果就不会等待太久我不认为
扩展 Wpf Treeview 以支持排序

您好我创建了这个小示例我想扩展它以支持排序 public class Country public string Name get set public int SortOrder get set My xaml
使用 Python 请求抓取整个滚动加载页面

具体来说我试图抓取整个页面但只得到其中的一部分如果我使用 r requests get http store nike com us en us pw mens shoes 7puZoi3 ipp 120 它只获取页面的可见部分

使用 Python 请求抓取整个滚动加载页面

请求标头

使用 Python 请求抓取整个滚动加载页面 的相关文章

随机推荐

热门标签

使用 Python 请求抓取整个滚动加载页面的相关文章