使用 Python 请求抓取整个滚动加载页面

2023-11-30

具体来说,我试图抓取整个页面,但只得到其中的一部分。如果我使用:

r = requests.get('http://store.nike.com/us/en_us/pw/mens-shoes/7puZoi3?ipp=120')

它只获取页面的“可见”部分,因为当您向下滚动时会加载更多项目。

我知道 PyQT 有一些解决方案,例如this,但是有没有办法让 python 请求不断滚动到网页底部,直到所有项目加载?


您可以使用浏览器开发控制台(F12 - Chrome 中的网络)监视页面网络活动,以查看向下滚动时页面执行什么请求,使用该数据并使用以下命令重现请求requests。作为替代方案,您可以使用selenium以编程方式控制浏览器向下滚动直到页面结束,然后保存其 HTML。

我想我找到了正确的请求

Request URL:http://store.nike.com/html-services/gridwallData?country=US&lang_locale=en_US&gridwallPath=mens-shoes/7puZoi3&pn=3
Request Method:GET
Status Code:200 OK
Remote Address:87.245.221.98:80

请求标头

Provisional headers are shown
Accept:application/json, text/javascript, */*; q=0.01
Referer:http://store.nike.com/us/en_us/pw/mens-shoes/7puZoi3?ipp=120
User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36
X-NewRelic-ID:VQYGVF5SCBAJVlFaAQIH
X-Requested-With:XMLHttpRequest

似乎查询参数pn表示当前的“子页面”。但您仍然需要正确理解响应。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Python 请求抓取整个滚动加载页面 的相关文章

  • ipython/ pylab/ matplotlib安装和初始化错误

    我在 OS X El Captain 上安装了 matplotlib anaconda ipython 然而 即使在尝试以所有可能的方式设置环境变量之后 我仍无法启动 ipython shell pylab 版本 这是错误 ImportEr
  • 绘制与Fig.show()内联的IPython Notebook图形?

    我正在使用 IPython Notebook 调用内联模式 pylab inline 以下代码立即在单元格处绘制一个图形 fig plt figure axes fig add axes 0 0 1 1 不过 我想在一个单元格中创建绘图 轴
  • Google App Engine 实例不断快速关闭

    所以我已经使用应用程序引擎很长一段时间了 没有任何问题 我知道 如果应用程序有一段时间没有被访问者点击 那么实例将关闭 并且第一个访问该网站的访问者将有几秒钟的延迟 同时新实例启动 然而 最近这些实例似乎只在很短的时间内保持活动状态 有时不
  • PyOpenCL:如何创建本地内存缓冲区?

    这里可能是非常简单的问题 但我已经搜索了几个小时但没有任何结果 我有这段代码 我希望有一个 256 位 8 uint32 bitstring gpu 作为设备中的本地内存指针 def Get Bitstring GPU Buffer ctx
  • 了解 Python 2.7 中的缩进错误

    在编写 python 代码时 我往往会遇到很多缩进错误 有时 当我删除并重写该行时 错误就会消失 有人可以为菜鸟提供 python 中 IndentationErrors 的高级解释吗 以下是我在玩 CheckIO 时收到的最近 inden
  • PySpark 使用统计信息写入 Parquet 二进制列(signed-min-max.enabled)

    我找到了这张 apache parquet 票https issues apache org jira browse PARQUET 686 https issues apache org jira browse PARQUET 686被标
  • Gunicorn 工作人员无论如何都会超时

    我正在尝试通过gunicorn运行一个简单的烧瓶应用程序 但是无论我做什么 我的工作人员都会超时 无论是否有针对应用程序的活动 工作人员在我设置任何内容后总是会超时timeout值到 是什么导致它们超时 当我发出请求时 请求成功通过 但工作
  • 我应该使用 Python 双端队列还是列表作为堆栈? [复制]

    这个问题在这里已经有答案了 我想要一个可以用作堆栈的 Python 对象 使用双端队列还是列表更好 元素数量较少还是数量较多有什么区别 您的情况可能会根据您的应用程序和具体用例而有所不同 但在一般情况下 列表非常适合堆栈 append is
  • 在张量流中保存模型

    Tensorflow 允许我们使用 tf train write graph 方法保存 加载模型的结构 以便我们可以在将来恢复它以继续我们的训练 但是 我想知道这是否有必要 因为我可以创建一个模块 例如 GraphDefinition py
  • 本地化:django-admin compilemessages 跳过 venv

    我正在使用本地化Django 1 11应用 我可以排除虚拟环境文件夹node modules文件夹 同时使用消息文件添加消息 i选项如 django admin makemessages l no i venv django admin m
  • 超出 HTTPSConnectionPool 最大重试次数

    我有一个在 nginx uwsgi 上运行的 django 应用程序 我们最近开始对所有连接使用 SSL 自从迁移到 SSL 以来 我经常收到以下消息 HTTPSConnectionPool host foobar com port 443
  • 使用 python requests 模块登录网站

    我正在尝试使用 python 请求模块登录网页 我在使用 chrome 提交登录表单并重新检查该表单的代码时捕获了发布请求 下面的代码片段中提到了网站以及参数 根据某人的帖子 我能够创建一个尝试登录和访问受保护内容的 python 代码片段
  • Cherrypy 和 Jinja2 入门

    这是我第一次深入研究Python的Web开发 我唯一的其他经验是 PHP 而且我以前从未使用过框架 所以我发现这非常令人生畏和困惑 我有兴趣学习 CherryPy Jinja2 为我的 NAS 制作 ZFS 监视器 我已经阅读了 Cherr
  • Python:从命令行运行时包含库文件夹

    我有一个目录结构 root dir src p1 py lib init py util1 py util2 py 我想跑src p1 py它使用lib util1 py使用导入语句import lib util1 as u1 当我使用 P
  • 如何增加pyqt4中QTableWidget中标题标签的行高和行项目的字体大小

    在这里我想增加标题标签的行高和单元格项目的字体大小 在我的代码中我使用self table setRowHeight 方法 但它不起作用 所以请告诉我他们有什么方法可以增加标题标签的行高和单元格项目的字体大小 下面给出的是我的代码 impo
  • Raspberry pi 3 B+ 中的串行通信

    我想在 Raspberry pi 3 B 和 GSM GPRS A6 之间进行通信 我尝试过 但无法从 Raspberry pi 向 GPRS 模块发送数据 现在 我知道在较新的操作系统 在我的例子中是 Raspbian Stretch 中
  • 下载的 csv 中的“_csv.Error:行包含 NUL”

    我已经从 url 下载了一个 csv 文件并使用csv reader阅读其内容 不过我得到了 csv Error line contains NUL当我尝试迭代时 csv reader object 我不得不提的是如果我手动复制粘贴 ctr
  • Pandas DataFrame - 列 whos dtype=='category' 上的聚合导致性能下降

    我使用内存使用量较高的大数据帧 并且我读到 如果更改重复值列上的数据类型 我可以节省大量内存 我尝试了一下 确实内存使用量下降了 25 但随后我遇到了我无法理解的性能缓慢问题 我对 dtype 类别 列进行分组聚合 在更改 dtype 之前
  • Python 子进程在发出 HTTP 请求时无提示崩溃

    我在组合多处理 请求 或 urllib2 和 nltk 时遇到问题 这是一个非常简单的代码 gt gt gt from multiprocessing import Process gt gt gt import requests gt g
  • 导入错误:无法导入名称 DependencyWarning

    我正在使用 python 2 7 12 当我做import requests 我看到下面的错误 尝试卸载和安装 requests 也升级 pip 但没有运气 仍然是同样的问题 Python 2 7 12 default Nov 19 201

随机推荐

  • 如何在 Spring config.xml 中配置 Cron 时区?

    我有一个带有 Cron 任务的 Spring 配置 xml 文件 该任务在我的机器上定期执行 如何在 xml 文件中配置此任务以使用莫斯科时区 与我的时区不同
  • 更改浏览器缩放级别

    我需要在我的网站上创建 2 个按钮来更改浏览器缩放级别 由于图像大小和布局问题 我请求浏览器缩放而不是 css 缩放 嗯 这可能吗 我听到了相互矛盾的报道 尽管在 Firefox 中不起作用 但在 IE 和 chrome 中可以使用 img
  • sci-kit learn:使用 X.reshape(-1, 1) 重塑数据

    我正在训练一个用于文本分类的 python 2 7 11 分类器 在运行时我收到一条已弃用的警告消息 表明我不知道代码中的哪一行导致了它 错误 警告 但是 代码运行良好并给了我结果 AppData Local Enthought Canop
  • Haskell Esqueleto 将列子集投影到自定义记录列表

    在所有的例子中我都看到了结果埃斯克莱托被投影到元组列表中或实体记录 例如 previousLogItems lt select from li gt do orderBy desc li LogItemId limit 10 return
  • 在我的 iOS 应用程序中使用 IOKit 会导致我的应用程序被拒绝吗?

    开发人员 正如提到的EricaIOKit是一个半私有框架 有人有在应用程序商店应用程序中使用它的经验吗 我想用它来获取 IMEI 和 ICCID 号码 如果您调用任何未记录的 Apple 框架 您的应用程序将被拒绝 因此 人们不太可能有在应
  • 如何处理 IE 8 中缺少 JavaScript Object.bind() 方法

    我正在编写一些 JavaScript 它使用Object bind method funcabc function x y z this myx x this playUB function w if this myx null do bl
  • 有谁知道协议缓冲区的 Ada 插件吗?

    我正在寻找用于协议缓冲区的 Ada 插件 看起来除了 Ada 之外 几乎所有语言插件都可用或正在开发中 嗯 我唯一发现的是这篇论文 不幸的是 我没有找到任何翻译工具的源代码 即你所说的plugin 我唯一能告诉的是该工具是用 C 开发的 U
  • 将向量的向量打印到 ostream

    请考虑以下代码 我正在尝试将向量的向量输出到 ostream include
  • 如何从任何字符串网址获取网站名称[关闭]

    Closed 这个问题需要细节或清晰度 目前不接受答案 我已经给出了包含任何有效 url 的字符串 我必须从给定的网址中找到网站的名称 我也忽略了子域 like http www yahoo com gt yahoo www google
  • 向多个图层组添加标记

    我使用 StyledLayerControl 和 markcluster 使用 leafletjs 创建了一张地图 https www wiva at v2 basemap kartentest 每个标记代表一个适合一个类别 图层组 的研究
  • 根据身体负荷向下滑动一个 div

    如何让 div 在页面加载时隐藏 然后在页面加载后向下滑动 我不想使用 CSSdisplay none 尝试一下这个小提琴 http jsfiddle net ahr3U 这基本上使用 CSS3 设置过渡的所有参数 过渡属性使动画成为可能
  • jshn - 如何解析 json 包

    我想知道如何在openwrt上轻松解析json 我有 jhsn 来解析 json 这是我的程序 sh 脚本 download weather wget api openweathermap org data 2 5 weather id 2
  • 在派生类中调用 super() 时,可以传入 self.__class__ 吗? [复制]

    这个问题在这里已经有答案了 我最近发现 通过 StackOverflow 要调用基类中的方法 我应该调用 super derived class self base class method 很好 它有效 但是 我发现自己在进行更改时经常在
  • 使用加密后在终结器线程中获取“ReleaseHandleFailed”MDA

    运行此代码后我得到了 MDA第二次在一个循环中 使用不同的file范围 byte encryptedData File ReadAllBytes file before this line it throws see exception b
  • .on("click") 在 iOS 上不起作用

    我注意到 body on click id function event 不适用于 iOS 而 id on click function event 工作完美 相同的站点 相同的 jQuery 最新 相同的 DOM 我不能使用后者 因为 i
  • Paypal Ipn 与 asp.net MVC 集成

    HomeControler Index cshtml页面如下 div div
  • 无法创建适合文本大小的 HTML Div 元素

    我无法让 div 适合其内部文本的大小 我有 2 个 div 我希望内部 div 能够 1 适合外部 div 内部 2 位于包装 div 内的中心 我遇到的问题是 当我调整视图的宽度时 文本和 div 边框之间出现了很大的不必要的间隙 如下
  • 这个素数相关谓词的瓶颈是什么?

    所以这里是 我正在尝试计算低于两百万的所有素数的总和 对于这个问题 但是我的程序非常慢 我确实知道该算法本身非常糟糕并且是一种蛮力算法 但对我来说它似乎比应有的速度要慢得多 这里我将搜索限制为 20 000 这样结果就不会等待太久 我不认为
  • 扩展 Wpf Treeview 以支持排序

    您好 我创建了这个小示例 我想扩展它以支持排序 public class Country public string Name get set public int SortOrder get set My xaml
  • 使用 Python 请求抓取整个滚动加载页面

    具体来说 我试图抓取整个页面 但只得到其中的一部分 如果我使用 r requests get http store nike com us en us pw mens shoes 7puZoi3 ipp 120 它只获取页面的 可见 部分