Python + Selenium firefox webdriver - 从网站中提取图像

2023-12-09

我正在尝试使用以下方法从网页中提取图像： Python 2.7 + Selenium（使用 FireFox）+ Beautiful Soup。

该页面是动态加载的，因此，我使用 Selenium 进行屏幕抓取。一切在前端看起来都很棒，但是，当我加载所有图像并查看 HTML 时，我看不到图像的链接。你知道这里会发生什么吗？

Site is https://flipp.com/flyers?postal_code=97035, 然后从那里导航到https://flipp.com/weekly_ad/1550082-big-5-sporting-goods-weekly-ad为了看到第一个每周广告（我的工作代码如下）。

更奇怪的是，我可以看到图像正在检查器窗口中加载......但我仍然无法在 HTML 中看到它们。知道这里发生了什么，以及如何获取更新的 HTML（图像加载后？）

这是我能够从 HTML 中提取的一组图像（通过附加 jpg）。这些仅适用于将鼠标悬停在画布上时的弹出窗口。

我想要得到的实际上是构成实际页面/画布的图像。我可以看到它们通过（使用 Firefox 中的流量选项），但由于某种原因它们没有出现在 HTML 中。知道这是怎么回事吗？

工作代码：

#import packages
from time import gmtime, strftime,sleep, time
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium import webdriver
from selenium.webdriver.common.proxy import Proxy, ProxyType
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
#scraping packages
from bs4 import BeautifulSoup


USAPROXY = "177.84.23.122:3128"
def launch_webdriver(PROXY):
    PROXY = PROXY
    PROXY_HOST = PROXY.rpartition(':')[0]
    PROXY_PORT = PROXY.rpartition(':')[2]
    fp = webdriver.FirefoxProfile()
    # Direct = 0, Manual = 1, PAC = 2, AUTODETECT = 4, SYSTEM = 5
    fp.set_preference("network.proxy.type", 1)
    fp.set_preference("network.proxy.http",PROXY_HOST)
    fp.set_preference("network.proxy.http_port",int(PROXY_PORT))
    fp.set_preference("network.proxy.ssl",PROXY_HOST)
    fp.set_preference("network.proxy.ssl_port",int(PROXY_PORT))
    fp.set_preference("general.useragent.override","whater_useragent")    
    fp.update_preferences()
    return webdriver.Firefox(firefox_profile=fp)




def test():
    driver = launch_webdriver(USAPROXY)
    driver.set_page_load_timeout(11)
    driver.get("https://flipp.com/flyers?postal_code=97035")
    sleep(15)
    driver.get("https://flipp.com/weekly_ad/1550082-big-5-sporting-goods-weekly-ad")
    sleep(5)
    my_html = driver.page_source
    soup = BeautifulSoup(my_html,'lxml')
    tags=soup.findAll('img')  #prints only 3 imgs, there should be 100s
    for tag in tags:print tag
    print soup.prettify()
#execute script
test()

看不到更新的原因HTML在你的my_html=driver.page_source是因为page_source抓住了HTML在你的页面之前动态地已加载。尝试以下方法在页面加载后获取 HTML：

my_html = driver.execute_script("return document.getElementsByTagName('html')[0].innerHTML")
# or
my_html = driver.find_element_by_tag_name('html').get_attribute('innerHTML')

EDIT:

好吧，我想我已经找到了你要找的东西。我找到了一种方法来访问network资源并获得表现浏览器正在记录的数据。调用此函数并在加载所需页面后传递驱动程序，它应该以您要查找的格式返回图像：

def getNetworkImages(driver):
    ImageList = []
    Resources = driver.execute_script("return window.performance.getEntriesByType('resource');")
    for resource in Resources:
        if resource['initiatorType'] == 'img': ImageList.append(resource['name'])
    for image in ImageList: print(image)
    return ImageList

注意：这是用 Chrome 测试的64和Chromedriver2.35.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

selenium

webdriver

Python + Selenium firefox webdriver - 从网站中提取图像的相关文章

静态文件配置不正确

我已经在 Heroku 上部署了简单的博客应用程序它运行在Django 1 8 4 我在静态文件方面遇到了一些问题当打开我的应用程序时我看到Application Error页面所以我尝试调试它并发现当我提交到 Heroku 时它无
我怎样才能在python cgi中找到上传的文件名

我制作了如下简单的网络服务器 import BaseHTTPServer os cgi import cgitb cgitb enable html
Selenium - 保存网站，包括所有图像、css、dom

我想使用 firefox 或 chrome 访问带有 selenium 的页面当页面加载时我想从页面下载所有图像 css dom 我想存储每张图像就像我在其中找到它们一样 chrome gt Tools gt Development
引发 RuntimeError(f"目录 '{directory}' 不存在") RuntimeError: 导入 fitz 时目录 'static/' 不存在

当我运行 extract img py 文件时出现此错误 RuntimeError f 目录 directory 不存在运行时错误导入 fitz 时不存在目录 static 我不明白为什么这会给我发回此错误消息我之前看到过关于这个话题
如何在Python中的BeautifulSoup4中使用.next_sibling时忽略空行

由于我想删除 html 网站中重复的占位符因此我使用 BeautifulSoup 的 next sibling 运算符只要重复项位于同一行就可以正常工作参见数据但有时它们之间有一个空行所以我希望 next sibling 忽略它
在 Python 3 中动态导入模块的问题

我遇到的情况是在我的 Python 3 项目中在运行时必须包含某些模块我在用着importlib import module为了这第二次更新我确实找到了一种方法来做一些接近我想要的事情一些额外的代码可能会使我的一些链接稍微偏离一
绘制“plot”而不是“scatter”时，图例选择会中断

再会这个问题是后续问题为什么图例选取仅适用于 ax twinx 而不适用于 ax https stackoverflow com q 60167378 9282844 下面提供的最小代码分别绘制了两条曲线ax1 and ax2 ax1 t
对图像使用 Pixellib 自定义训练时出现 input_image 元形状错误

我正在使用 Pixellib 来训练自定义图像实例分割我创建了一个数据集可以在下面的链接中看到数据集 https drive google com drive folders 1MjpDNZtzGRNxEtCDcTmrjUuB1ics
Pandas Pivot_Table ：非数字值的行计算百分比

这是我在数据框 df 中的数据 Document Name Time SPS2315511 A 1 HOUR SPS2315512 B 1 2 HOUR SPS2315513 C 2 3 HOUR SPS2315514 C 1 HOUR S
如何使用python读取最后一行的特定位置

我有一个太大的 txt 文件并且有几行类似的行如下所示字1 字2 字3 字4 553 75 我对位置 4 值感兴趣即最后一行 553 75 我的文件文本 word1 word2 word3 word4 553 20 word1 w
InvalidArgumentException：消息：无效参数：“using”必须是字符串

我对 python 很陌生试图创建可重用的代码当我尝试通过传递 Login 类下使用的所有参数来调用 test main py 中的 Login 类和函数 login user 时我收到错误 InvalidArgumentExcept
Floyd-Warshall 算法：获取最短路径

假设一个图由一个表示n x n维数邻接矩阵我知道如何获得所有对的最短路径矩阵但我想知道有没有办法追踪所有最短路径 Blow是python代码实现 v len graph for k in range 0 v for i in range
如何从数据框的单元格中获取值？

我构建了一个条件从我的数据框中提取一行 d2 df df l ext l ext df item item df wn wn df wd 1 现在我想从特定列中获取一个值 val d2 col name 但结果我得到一个包含一行和一列
Python 垃圾收集有时在 Jupyter Notebook 中不起作用

我的一些 Jupyter 笔记本经常出现 RAM 不足的情况而且我似乎无法释放不再需要的内存这是一个例子 import gc thing Thing result thing do something thing None gc col
如何在 Python 中仅列出 zip 存档中的文件夹？

如何仅列出 zip 存档中的文件夹这将列出存档中的每个文件夹和文件 import zipfile file zipfile ZipFile samples sample zip r for name in file namelist pr
如何将 pytest 装置与 django TestCase 一起使用

我如何在TestCase方法类似问题的几个答案似乎暗示我的例子应该有效 import pytest from django test import TestCase from myapp models import Category py
从 C 线程调用 Python 代码

我对从 C 或 C 线程调用 Python 代码时如何确保线程安全感到非常困惑 The Python 文档 http docs python org c api init html non python created threads似乎是
Jupyter Notebook 中的多处理与线程

我试图测试这个例子here https ipywidgets readthedocs io en stable examples Widget 20Asynchronous html将其从线程更改为多处理在 jupyter Noteboo
django 组合对两个不同基本模型的查询

我有两个不同的查询集我想将两个查询集合并 q1 tbl nt 123 objects values list id value geometry filter restriction height exclude condition id
测试中的模型 - Django 1.7 问题

我正在尝试将我的项目移植为使用 Django 1 7 除了一件事之外一切都很好测试文件夹内的模型 Django 1 7 新迁移在内部运行 migrate 命令在运行syncdb之前这意味着如果模型未包含在迁移中它将不会填充到数据库

随机推荐

BaseX中如何将结果与更新操作一起返回？

我认识到 insert delete 使用 BaseX 客户端执行的 XQueries 始终返回空字符串我发现这非常令人困惑或不直观有没有办法找出查询是否成功而无需再次查询数据库并使用可能有错误的传递逻辑例如如果我删除了一
是否有通过 DbDataReader 实现 IQueryable 的方法？

我有很多使用原始 ADO NET 的现有代码 DbConnection DbDataReader 等我想过渡到使用 LINQ to SQL 来处理新代码但现在将现有代码和新代码放在一组统一的存储库类后面我遇到的一个问题是我希望 Re
android studio构建AVD未知错误

and 我的电脑CPU E3 1231v3 vt已经而且我是tiro 我无法解决这个问题有人能给我一些建议吗谢谢我刚刚通过从目录 home android avd 中删除 ini 文件解决了这个问题这是针对Ubuntu的在 W
ruby 中数组的重复元素

我找到了很多关于在 ruby 中删除重复项的参考但我找不到如何创建重复项如果我有一个像这样的数组 1 2 3 如何将它映射到带有配音项的数组 1 1 2 2 3 3 有方法吗试试这个 1 2 3 flat map i i i gt 1
WCF - 为 oasis-200401-wss-username-token-profile-1.0 创建带有时间戳和密码摘要的 UserNameToken

目标是通过使用 WCF 连接到需要 UserNameToken ws security 的 Web 服务如标准 oasis 200401 wss soap message security 1 0 所指定完整规格可在此处找到http d
使用 JQuery 通过 ajax 动态发送 json 格式的 post 表单数据

我想知道如何使用 JQuery 通过 ajax 动态发送 json 格式的帖子表单数据例如我在 JQ 中编写如下代码 post test php func getNameAndTime function data alert data
使用 .NET (dotnet) 通过 HTTPS 下载文件

我想使用 VB NET 最好或 C 通过 HTTPS 下载文件我有以下代码可以通过纯 HTTP 下载文件 Dim client As WebClient New WebClient Dim wp As WebProxy New WebP
从 ls(pattern="") 创建一个列表 [R]

The ls pattern 函数对我来说非常有用因为我的对象列表似乎在不断增长我很好奇这个功能是否可以更有用例如假设我有 4 个对象 a c lt 1 b c lt 2 c c lt 3 d c lt 4 现在我使用有用的ls p
如何从 UIView 创建特定尺寸的图像

我正在开发 iOS 应用程序该应用程序应该使用户能够创建 Instagram 故事照片并将其导出到 Instagram 基本上像 Unfold Stellar Chroma Stories 这样的应用程序我已经准备好了 UI 用户可以从
Google 地图错误：未捕获 InvalidValueError：setIcon：不是字符串；并且没有 url 属性；并且没有路径属性

我今天刚刚开始收到 Google 地图的此错误未捕获的 InvalidValueError setIcon 不是字符串并且没有 url 属性并且没有路径属性我已经几个月没有更改任何代码了错误发生在该页面上 http gusmode
Indesign CS6 脚本 - 导出图像

我在 indesign cs6 中编写 js 脚本来导出格式化图像时遇到问题下面的代码在本网站上找到并稍作修改仅打开文档理想情况下脚本将循环遍历文档中的所有格式化裁剪图像并将它们导出到桌面上的新文件夹中但使用原始文件名任何
pandoc跳过latex环境

我主要用 LaTeX 写作但一些合著者更喜欢 MS Word 为了方便他们的工作我想将 tex文件或 pdf to a docx 格式不需要完美但所有文本方程图形等都应该完全可读我目前正在考虑采取 tex文档替换所有必要的内
如何通过点击UITextView ios中的返回键来创建新行

我刚接触 iPhone 我在我的应用程序中使用 XIB 添加了一个 UITextView 现在点击完成键后它只是放弃键盘但是我想通过点击它来创建一个新行这意味着它应该转到下一段请帮助我实现我的输出这是我的代码 void text
Service Worker 注册失败。 Chrome 扩展程序

我不明白如何在 Service Worker 的一部分中从清单 v2 迁移到 v3 发生错误Service worker registration failed manifest json background service worker
制作java应用程序的安装程序

我已经尝试过这两个设置来制作 java 应用程序的安装程序 Exe4j 创新设置我已经使用这 2 个设置来制作 Java 应用程序安装程序但是当我在另一个操作系统 Microsoft 操作系统 Windows 7 或 8 上安装时它会
.NET 中的事件签名——使用强类型“发送者”？ [关闭]

Closed 这个问题是基于意见的目前不接受答案我完全意识到我的提议不遵循 NET 准则因此仅出于这个原因这可能是一个糟糕的主意不过我想从两个可能的角度来考虑这个问题 1 我是否应该考虑将其用于我自己的开发工作这是100 用于
函数返回后局部变量仍然存在

我认为一旦函数返回其中声明的所有局部变量除了那些带有static关键字被垃圾收集但是当我尝试以下代码时它仍然在函数返回后打印该值有人能解释一下为什么吗 int fun main int p p fun printf d p sh
连接到 Azure 应用服务中的应用中的 MySQL 时出现访问被拒绝错误

我创建了一个Azure App Service并在App中启用了MySql 我能够使用 phpMyAdmin 从门户连接到 MySql 转到应用程序 gt 应用程序中的 MySql gt 单击管理它使用 phpMyAdmin 打开另一个窗
为什么 double 类型的变量会产生意外的结果？

我的健全性检查失败了因为双精度变量不包含预期的结果这真的很奇怪 double a 1117 54 8561 64 13197 37 double b 22876 55 Console WriteLine 0 1 2 a b a b 给我
Python + Selenium firefox webdriver - 从网站中提取图像

我正在尝试使用以下方法从网页中提取图像 Python 2 7 Selenium 使用 FireFox Beautiful Soup 该页面是动态加载的因此我使用 Selenium 进行屏幕抓取一切在前端看起来都很棒但是当我加载所有

Python + Selenium firefox webdriver - 从网站中提取图像

Python + Selenium firefox webdriver - 从网站中提取图像 的相关文章

随机推荐

热门标签

Python + Selenium firefox webdriver - 从网站中提取图像的相关文章