如何使用python通过beautifulsoup中的lxml从网页中提取img src？

2023-11-29

我是 python 新手，正在从事亚马逊的网页抓取项目，我在如何使用 BeautifulSoup 通过 lxml 从产品页面中提取产品 img src 时遇到问题

我尝试使用以下代码来提取它，但它没有显示 img 的 url。

这是我的代码：

import requests
from bs4 import BeautifulSoup
import re

url = 'https://www.amazon.com/crocs-Unisex-Classic-Black-Women/dp/B0014C0LSY/ref=sr_1_2?_encoding=UTF8&qid=1560091629&s=fashion-womens-intl-ship&sr=1-2&th=1&psc=1'

r = requests.get(URL, headers={'User-Agent':'Mozilla/5.0'})
s = BeautifulSoup(r.text, "lxml")

img = s.find(class_="imgTagWrapper").img['src']
# I tried this code.

print(img)

我尝试了这段代码...但它显示如下：

数据：图像/jpeg;base64，/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAoHBwgHBgoICAgLCgoLDhgQDg0NDh0VFhEYIx8lJCIfIiEmKzcvJik0KSEiMEExNDk7Pj4+JS5ESUM8SDc9Pjv/2wBDAQoLCw4NDhwQEBw7KCIoOz s7Ozs7Ozs7Ozs7Ozs7Ozs7Ozs7Ozs7Ozs7Ozs7Ozs7Ozs7Ozs7Ozs7Ozs7Ozs7Ozv/wAARCAG9AM4DASIAAhEBAxEB/8QAHwAAAQUBAQEBAQEAAAAAAAAAAAECAwQFBgcICQoL/8QAtRAAGEDAWIEAWUFBA QAAAF9AQIDAAQRBRIhMUEGE1FhByJxFDKBkaEII0KxwRVS0fAkM2JyggkKFhcYGRolJicoKSo0NTY3ODk6Q0RFRkdisUpTVFVWV1hZWmNkZWZnaGlqc3R1dnd4eXqDhIWGh4iJipKTlJWWl5iZmqKjpKWmp 6ipqrKztLW2t7i5usLDxMXGx8jJytLT1NXW19jZ2uHi4+Tl5ufo6erx8vP09fb3+Pn6/8QAHwEAAwEBAQEBAQEBAQAAAAAAAAECAwQFBgcICQoL/8QAtREAAgECBAQDBAcFBAQAAQJ3AAECAxEEBSExBhJBUQdhcRMiMo EIFEKRobHBCSMzUvAVYnLRChYkNOEl8RcYGRomJygpKjU2Nzg5OkNERUZHSELKU1RVVldYWVpjZGVmZ2hpanN0dXZ3eHl6goOEhYaHiImKkpOUlZaXmJmaoqOkpaanqKmqsrO0t....//

有什么帮助吗？

您看到的是图像的 base64 编码。您用它做什么取决于您对图像 URL 做什么。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用python通过beautifulsoup中的lxml从网页中提取img src？的相关文章

为什么打印出来是这样的

下面的代码片段中的迭代是如何进行的 a 0 1 2 3 b for a 1 in a b append a 1 print b Output is 0 1 2 2 Python for循环使用赋值如果使用不当可能会导致有趣的结果您的示
使用 selenium 和 bs4 进行网页抓取

我正在尝试基于该页面的网络抓取构建一个数据框 https www schoolholidayseurope eu choose a country https www schoolholidayseurope eu choose a cou
HTTPError：HTTP 错误 403：禁止

我制作了一个供个人使用的 python 脚本但它不适用于维基百科这项工作 import urllib2 sys from bs4 import BeautifulSoup site http youtube com page urlli
使用python的csv文件仅存储单行数据

我抓取了一个网站并尝试将其存储为 Csv 格式但当我这样做时它只存储单行数据如何在csv中写入多行数据 for lis in lists title lis find a class title text tag lis find s
Node.js 中的 Python 多处理 - 在子进程上打印不起作用

我有一个运行客户端界面的 Node js 应用程序该界面公开触发机器学习任务的操作由于在实现机器学习相关内容时 Python 是更好的选择因此我实现了一个按需运行机器学习任务的 Python 应用程序现在我需要集成这两个应用程序
通过相邻行的差异过滤 pandas 数据框

我有一个按日期时间索引的数据框我想根据行的索引与前一行的索引之间的差异来过滤行因此如果我的标准是删除比前一行晚一小时以上的所有行则应删除下面示例中的第二行 2005 07 15 17 00 00 2005 07 17 18 00
type: 定义一个只能是某些字符串的类型？

我怎样才能使用typing模块创建一个可以是某些字符串的类型例如假设我需要一个类型CondOperator 可以是以下任何字符串 gt lt gt lt lt gt 我本来希望CondOperator String gt lt gt
在 python 中编写轮询函数的更好方法

我写了一个轮询函数来检查reg result可变 120 秒 reg result 0 while timeout time time 120 while reg result is not REGISTERED and time time
beautifulsoup find_all 错误？

现在我正在使用 beautiful soup 来解析 html 页面但有时我通过find all得到的结果小于页数例如这个页面有 18 个标题跨度但是当我使用以下代码时它只有两个谁能告诉我为什么先感谢您 soup Beautif
使用 CSS 选择器和 BeautifulSoup 获取属性值

我正在抓取网页Python并使用BeutifulSoup library I have HTML像这样的标记 tr class deals span class hotel name a href www example2 com a sp
beautiful soup有没有办法计算html页面中标签的数量

我正在考虑在 python 中创建一个字典其中键是 html 标签名称值是标签出现的次数有没有办法用漂亮的汤或其他东西来做到这一点 BeautifulSoup 非常适合 HTML 解析您当然可以将它用于此目的这将非常简单 from
Python DataFrame：将一列转置为多列

我有一个如下所示的数据框 df pd DataFrame month 2017 09 27 2017 09 27 2017 09 28 2017 09 29 Cost 100 500 200 300 我怎样才能得到这样的 df 2017 0
调用 close() 后大文件没有立即刷新到磁盘？

我正在使用 python 脚本创建大文件超过1GB 实际上有 8 个在创建它们之后我必须创建将使用这些文件的进程该脚本如下所示 This is more complex function but it basically does
导入父目录进行简单测试

我从上到下搜索了这个网站但还没有找到一种方法来真正实现我在 Python3x 中想要的东西这是一个简单的玩具应用程序所以我想我可以在断言中编写一些简单的测试用例然后就到此为止了它确实会生成报告等因此我想确保我的代码在更改时不会做
如何设置appache2的WSGI与python 3.7一起使用？

我使用的是 ubuntu 16 04 并安装了 python 3 7 并使用以下说明将其设置为默认值无法在 ubuntu 中将默认 python 版本设置为 python3 https stackoverflow com question
如何在不使用太多内存的情况下打乱大型 csv 文件的行并将结果写入新的 csv 文件？

因此如果我有一个 csv 文件如下所示 User Gender A M B F C F 然后我想编写另一个 csv 文件其中行像这样打乱作为示例 User Gender C F A M B F 我的问题是我不知道如何随机选择行并确保
使用 Opencv 屏蔽水平线和垂直线

我正在尝试删除该图像中的水平线和垂直线以便拥有更清晰的文本区域我正在使用下面的代码它遵循这个guide https docs opencv org 3 2 0 d1 dee tutorial moprh lines detection
Python Camelot无边框表格提取问题

我正在努力从 pdf 文件中提取一些无边框表格如下图所示我已经安装了 python camelot 如图所示here https github com socialcopsdev camelot并且仅适用于有边框的表格请参阅以下详细信
Scrapy 抓取并跟踪 href 中的链接

我对 scrapy 很陌生我需要从 url 的主页跟踪 href 到多个深度再次在 href 链接内我有多个 href 我需要遵循这些href 直到到达我想要抓取的页面我的页面的示例 html 是初始页 div class page
Facebook Messenger 机器人的日期选择器 webview - 无法将字段值带回机器人的输入字段

我正在使用 Dialogflow 和 Messenger 开发聊天机器人 Webhook 是用 Python 3 x 编写的我面临着如何再次将数据从 webview 传输到信使聊天窗口以继续与用户对话的问题 Messenger 聊天机器人

随机推荐

SWIFT：CoreLocation - 使用 CLBeaconIdentityConstraint 测距信标不会测距多个信标

因此我们在 Swift for iOS 13 中开发时遇到了一个问题当我们使用较新的方法来测距信标 startRangingBeacons satisfying CLBeaconIdentityConstraint 时它只会测距最近添
具有 Windows 身份验证的 cx_Oracle

我想让 cx Oracle 与 Windows 操作系统身份验证一起使用但惨败我知道使用 pyodbc 你可以使用trusted connection yes 但我必须使用 Oracle 客户端 11g 12c 它似乎与 pyodbc
多窗口 OpenGL/过剩

我想知道如何打开多个 OpenGL Glut 窗口我的意思是同时多个窗口不是子窗口和不更新同一个窗口虽然我相信上面的答案是准确的但它比需要的要复杂一些并且当以后必须处理窗口之间的移动时例如在窗口中绘制时可能会很困难这是我
与基元进行比较 -> Integer / int

是不是写得比较好 int primitive1 3 primitive2 4 Integer a new Integer primitive1 Integer b new Integer primitive2 int compare a c
如何使用 VS Package 在解决方案资源管理器中获取所选项目的项目类型 Guid

我创建了简单的 VS 包用于在解决方案资源管理器的上下文菜单中添加新项目我需要检查所选项目的项目类型 GUID 我怎样才能得到这个例如一个解决方案包含三种不同类型的项目如 WindowFormsApplication MVC 项目
Python文件常见的头格式是什么？

我在有关 Python 编码指南的文档中发现了以下 Python 源文件的标头格式 usr bin env python Foobar py Description of what foobar does author Barack Oba
WebMvcConfigurerAdapter 不起作用

这是我正在处理的 WebConfig 代码 package hello config import org springframework context annotation Configuration import org spring
删除 NSdictionary 中的重复项

有没有办法从 NSDictionary 中删除重复的键值对编辑我的描述具有误导性我有重复的对例如键1 值1键1 值1键2 值2键1 值1 etc 反转键值不是一个好主意因为并非所有值都可以是键你可以这样做 dict 是原始字
Google App Script 中同时多次提交

我使用 Google App Script 创建了一个表单并发送了 Google 电子表格中的所有数据我的 GS 代码 function doGet e return HtmlService createTemplateFromFile
无法远程运行针对 Safari 11 的测试（ssh、CI）

当我尝试通过 ssh 手动或通过 Jenkins 其中 Safari 所在的机器是远程从机运行测试时我在针对 Safari 11 运行 Ruby RSpec 测试时遇到问题执行测试时我收到以下错误 Selenium WebDrive
Python Flask - request.json 返回 None 类型而不是 json 字典

我正在编写一个非常简单的演示 web 应用程序我似乎无法从中传递 json 对象js to python using ajax 我已经尝试了一些有类似问题的人的建议例如使用 get json 代替 json 传递对象而不使用JSON s
无法使用 SQL 创建具有小数位的数字列

下面的SQL CREATE TABLE TESTTABLE TESTFIELD dec 6 2 抛出错误 SQL0104 令牌无效有效令牌 AS NO FOR NOT FILE WITH CCSID CHECK LOGGED UNIQU
格式化sectionNameKeyPath NSFetchedResultsController - Swift

我正在尝试格式化我的sectionNameKeyPath对于我的核心数据获取使用存储的NSDate属性它正在全面工作并根据以下内容将记录拉动排序到各个部分NSDate但我不知道如何格式化它以按 dd mm yyyy 显示它我知道如
CSS 动画、自动幻灯片上的淡入淡出不透明度

我想制作一个幻灯片其中图片通过淡入淡出不透明度进行过渡它只是在屏幕上变暗并切换到下一张图片我让它工作但添加了其他浏览器 webkit 它停止工作似乎找不到我的错误幻灯片仍然有效这是代码 Fading animation in
我的 Android Studio 从 3.4 更新到 3.5 后不断崩溃

从今天起我就一直面临这个问题昨天我将 Android Studio 从 3 4 更新到 3 5 它运行良好但从今天开始它在启动时崩溃当我启动时它显示启动屏幕然后尝试加载项目并突然关闭或崩溃而不显示任何错误消息我应该怎么办是
Delphi XE4 - 八进制常数像十进制常数一样工作

今天我正在对我的队友进行代码审查它是普通的旧 Delphi 版本 XE4 我检测到这样的代码 cWin CountryIdsSet array 0 243 of integer 499 688 040 它是十进制 ID 列表但其中之一
C- 使用位域时结构的大小以及它如何存储在内存中

void main struct bitfield signed int a 3 unsigned int b 13 unsigned int c 1 struct bitfield bit1 2 14 1 clrscr printf d
C++ 子模式匹配

谁能告诉我一个关于在 C C 中使用正则表达式 regex h 来搜索和或提取正则表达式中的子模式的示例在 javascript 中它会是这样的 var str the string contains 123 dots and 344
While 循环，每个其他循环的语句？

我有一个 while 循环每个循环显示一个 li li 在列表中有没有办法告诉 php 每个其他循环都应该回显 li style background 222 li 在我的 CSS 中我将另一种颜色 111 设置为默认值以便我的网站
如何使用python通过beautifulsoup中的lxml从网页中提取img src？

我是 python 新手正在从事亚马逊的网页抓取项目我在如何使用 BeautifulSoup 通过 lxml 从产品页面中提取产品 img src 时遇到问题我尝试使用以下代码来提取它但它没有显示 img 的 url 这是我的代码

如何使用python通过beautifulsoup中的lxml从网页中提取img src？

如何使用python通过beautifulsoup中的lxml从网页中提取img src？ 的相关文章

随机推荐

热门标签

如何使用python通过beautifulsoup中的lxml从网页中提取img src？的相关文章