BeautifulSoup HTML 获取 src 链接

2024-02-05

我正在使用 python 3.5.1 和 requests 模块制作一个小型网络爬虫，该模块从特定网站下载所有漫画。我正在尝试一个页面。我使用 BeautifulSoup4 解析页面，如下所示：

import webbrowser
import sys
import requests
import re
import bs4

res = requests.get('http://mangapark.me/manga/berserk/s5/c342')
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text, 'html.parser')

for link in soup.find_all("a", class_ = "img-link"):
    if(link):
        print(link)
    else:
        print('ERROR')

当我做print(link)有我感兴趣的正确 HTML 部分，但是当我尝试仅获取链接时src using link.get('src')它只打印None.

我尝试使用以下方式获取链接：

img = soup.find("img")["src"]

没关系，但我想要所有的 src 链接，而不是第一个链接。我对 beautifulSoup 的经验很少。请指出这是怎么回事。谢谢。

我感兴趣的网站的示例 HTML 部分是：

<a class="img-link" href="#img2">
    <img id="img-1" class="img"
          rel="1" i="1" e="0" z="1" 
          title="Berserk ch.342 page 1" src="http://2.p.mpcdn.net/352582/687224/1.jpg"
          width="960" _width="818" _heighth="1189"/>        
</a>

我会用一个一次性完成CSS 选择器 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#css-selectors:

for img in soup.select("a.img-link img[src]"):
    print(img["src"])

在这里，我们得到了所有的img元素具有src属性位于a元素与一个img-link班级。它打印：

http://2.p.mpcdn.net/352582/687224/1.jpg
http://2.p.mpcdn.net/352582/687224/2.jpg
http://2.p.mpcdn.net/352582/687224/3.jpg
http://2.p.mpcdn.net/352582/687224/4.jpg
...
http://2.p.mpcdn.net/352582/687224/20.jpg

如果您仍想使用find_all()，你必须嵌套它：

for link in soup.find_all("a", class_ = "img-link"):
    for img in link.find_all("a", src=True):  # searching for img with src attribute
        print(img["src"])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

python3x

beautifulsoup

htmlparsing

BeautifulSoup HTML 获取 src 链接的相关文章

将 stdout 重定向到 Python 中的文件？ [复制]

这个问题在这里已经有答案了如何将 stdout 重定向到 Python 中的任意文件当长时间运行的 Python 脚本例如 Web 应用程序从 ssh 会话内启动并处于后台并且 ssh 会话关闭时应用程序将引发 IOError
Python 中的二进制相移键控

我目前正在编写一些代码以使用音频转换通过激光传输消息文件和其他数据我当前的代码使用 python 中 binascii 模块中的 hexlify 函数将数据转换为二进制然后为 1 发出一个音调为 0 发出不同的音调这在理论上是
Python3模拟用另一个函数替换函数

如何使用 python 中的另一个函数来模拟一个函数该函数也将提供一个模拟对象我有类似以下操作的代码 def foo arg1 arg2 r bar arg1 does interesting things 我想替换的实现bar函数让
python 语言环境奇怪的错误。这究竟是怎么回事？

所以今天我升级到了 bazaar 2 0 2 我开始收到这条消息顺便说一句我在雪豹上 bzr warning unknown locale UTF 8 Could not determine what text encoding to
jQuery 删除函数真的删除 Dom 元素吗？

我真的想知道 jQuery 是否remove http api jquery com remove 函数确实从 DOM 中删除元素首先我看了here https stackoverflow com questions 2185760 j
获取 zeep.exceptions.ValidationError：缺少与 suds 一起使用的方法的元素

我正在移植开发的代码suds 0 6到zeep 2 4 0 以前的泡沫代码 client Client WSDLfile proxy proxy faults True config client factory create perUse
在文档流中提取一个元素

这是示例代码 top background lightGreen content outline 1px solid red bottom background lightBlue div Top div div Lorem ipsum d
pandas apply：函数名是否带引号的区别

简单数据框定义示例 df pd DataFrame A 2 4 1 B 8 4 1 C 6 2 7 df A B C 0 2 8 6 1 4 4 2 2 1 1 7 尝试理解以下块中函数参数调用的差异 df apply sum df app
Python：使用列表创建二叉搜索树

我的代码的目标是从 txt 文件中获取每个单独的单词并将其放入列表中然后使用该列表创建二叉搜索树来计算每个单词的频率并按字母顺序打印每个单词及其频率中的每个单词只能包含字母数字或我无法用我的初学者编程知识来做的部分是使用我拥有的
如何在包更新之间保留数据文件？

我正在使用data files的论证setuptools setup 将配置文件安装到 etc和用户主目录但是更新包pip install
tweepy 流到 sqlite 数据库 - 语法错误[重复]

这个问题在这里已经有答案了可能的重复 tweepy 流到 sqlite 数据库语法无效 https stackoverflow com questions 9434205 tweepy stream to sqlite database
iPad 上的网站纵向视图

我的网站在 iPad 纵向模式下无法正确显示它在横向模式下看起来不错但当我将其转换为纵向模式时我最终会得到一个混乱的网站所有元素都分散在整个网站上我怎样才能解决这个问题请帮我这是我网站的链接 inclouds co uk ht
对 pandas 数据框中的每一列应用函数

我如何以更多的熊猫方式编写以下函数 def calculate df columns mean self df means for column in df columns columns tolist cleaned data self
在python中将列表转换为字符串

我对 python 语言相当陌生我一直在寻找这个问题的答案我需要一个如下所示的列表 Kevin went to his computer He sat down He fell asleep 转换为如下字符串 Kevin went to
在 Gensim 中通过 ID 检索文档的字符串版本

我正在使用 Gensim 进行一些主题建模并且已经达到使用 LSI 和 tf idf 模型进行相似性查询的程度我取回 ID 集和相似点例如 299501 0 64505910873413086 如何获取与 ID 在本例中为 29950
在 pyhf 中针对小信号模型拟合收敛失败

这是我们 pyhf 开发团队最近提出的一个问题认为很好并且值得分享因此我们在这里发布了它的修改版本我正在尝试做一个简单的假设检验pyhf v0 4 0 https pypi org project pyhf 0 4 0 我使用的模型
在没有numpy的情况下在python中分配变量NaN

大多数语言都有一个 NaN 常量您可以使用它为变量分配值 NaN python 可以在不使用 numpy 的情况下做到这一点吗是的使用math nan https docs python org 3 library math html
python IDLE shell 似乎无法正确处理一些转义

例如 b 退格键打印为四元在下面的示例中显示为但是 n 换行是可以的 gt gt gt print abc bd abc d gt gt gt print abc nd abc d 我在 Vista pro python 2 7 下运行
提供节点名或服务名，或未知

我收到这个 Python 错误 File Library Frameworks Python framework Versions 2 7 lib python2 7 urllib2 py line 1184 in do open rais
将笔记本生成的 HTML 片段转换为 LaTeX 和 PDF

在我的笔记本里有时会有 from IPython display import display HTML display HTML h3 The s is important h3 question of the day 但当我后来将笔记本

随机推荐

在 iis 上托管基本 html 网站

我有一个基本网站只有 html js 和 css 文件我想将其托管在本地计算机上的 IIS 上以进行测试当我直接将其作为文件在计算机上运行时该网站运行良好我使用这些文件所在的目录在 IIS 上添加了一个网站但是当我尝试启动它时
Android 中的多个 HTTP 连接（分段/群下载）下载同一文件

我目前正在为 Android 创建一个下载管理器为了优化下载我需要使用与服务器的多个连接来下载相同的文件即与 Windows 中的 Internet 下载管理器中使用的技术相同问题是我不知道如何创建多个 HTTP 连接并下载相同的
如何设计响应的打字稿模型？

如何在得到以下响应的打字稿中设计我的模型 data name XYZ id 1 name Abc id 2 我尝试了什么 export class responseModel
自引用 has_many :through 和自定义 :primary key 问题

我正在尝试在 Rails 2 3 8 应用程序 ruby 1 8 7 中模拟 twitter 模型 class Connection lt ActiveRecord Base belongs to subject foreign key g
以一种形式上传多个文件 MVC4

我正在尝试在一张表单上上传多张图片 using Html BeginForm Create AdminRestaurants FormMethod Post new enctype multipart form data div class
为什么 CSS 填充会增加元素的大小？

我试图给我的 div 和 textarea 一些填充当我这样做时它会增加元素的大小而不是缩小元素内部的内容区域有什么办法可以实现我想做的事情吗你可以添加box sizing border box到容器元素以便能够指定在向元素添加
Linux中访问另一个进程虚拟内存（调试）

Linux上gdb如何访问另一个进程的虚拟内存都是通过 proc完成的吗 Linux上gdb如何访问另一个进程的虚拟内存都是通过 proc完成的吗在Linux上读取内存 1 如果要读取的字节数小于3 sizeof long 或文件系统
Scala中递归删除目录

我正在编写以下内容使用 Scala 2 10 和 Java 6 import java io def delete file File if file isDirectory Option file listFiles map toLis
在某些设备上，两个活动之间的拖放功能不起作用

我使用以下代码将视图从应用程序中的一个活动拖动到另一个活动知道拖动开始时第二个活动接收放置事件未创建活动它适用于三星 Note 3 Android 5 API 21 三星 Note 4 Android 6 0 1 API 23
从我的应用程序捕获 iPhone 屏幕并录制视频

我只是好奇创建一个应用程序来录制 iPhone 屏幕视频或捕获 iPhone 屏幕图像我知道苹果不允许应用程序商店上架此类应用程序而且我无意这样做我可以将我的应用程序上传到Cydia如果我愿意的话但我目前的目标只是开发一个具有捕获
单核处理器上的单线程与多线程编程

有人可以解释一下编写在单核处理器上运行的多线程代码是否真的有任何优势吗例如一种处理文档页面的方法使得页面与上述代码段是互斥的乍一看这似乎没有优势因为真正的多线程是不可能的也就是说操作系统无论如何都必须对线程进行上下文切换我
下拉列表选定值

我已经使用 Web 服务创建了国家地区的下拉列表并且尝试将下拉列表选择添加到 sql 数据库中但是当我在插入语句中使用 ddlCountry SelectedValue 执行此操作时只有下拉列表中的第一个值是出现在表中我应该使用
语音合成器“输入字符串的格式不正确”

这是我的代码 string message Hello world SpeechSynthesizer synth new SpeechSynthesizer Prompt prompt new Prompt message synth S
IE9奇怪的表格问题

大家好我想知道是否有人可以提供帮助因为我一片空白我有一个使用 css 设计的表格除了 IE9 甚至其他 ie 版本之外它在所有浏览器中都呈现良好我不知道为什么我什至尝试删除所有 css 但它仍然发生有什么想法吗 Examp
VirtualDocumentRoot 域和子域

普通域和子域是否可以有 VirtualDocumentRoot http www example com or http example com Uses var www example com And http example com U
UI 自动化 - #32770（对话框）在 Insepct.exe 中显示，但不在 VisualUIAVerifyNative.exe 中显示

我正在尝试使用 UI Automation C API 自动化子窗口 ClassName 的对话框为 32770 目标子窗口显示在Spy and 检查程序但不显示在VisualUIAVerifyNative 它也无法通过 Automati
在其参数结构上重载 C/C++ 预处理器宏

我想编写一个预处理器宏如果它的参数是带括号的标记元组它会做一件事如下所示 MY MACRO x y 如果它只是一个令牌还有其他东西如下所示 MY MACRO x 那可能吗如何区分空格分隔的标记的数量即MY MACRO x an
Android 模块与风味之间的区别

android模块和风格之间的主要区别是什么来自模块定义https developer android com studio projects add app module html https developer android com
使用缩放图块最大化矩形区域覆盖范围的算法

I have N需要放置在固定大小的矩形表面工具箱内的可扩展方形图块按钮我想以相同的尺寸呈现所有按钮我怎样才能解决瓷砖的最佳尺寸以提供被瓷砖覆盖的矩形表面的最大面积 Let W and H是矩形的宽度和高度 Let s是正方形的
BeautifulSoup HTML 获取 src 链接

我正在使用 python 3 5 1 和 requests 模块制作一个小型网络爬虫该模块从特定网站下载所有漫画我正在尝试一个页面我使用 BeautifulSoup4 解析页面如下所示 import webbrowser impor

BeautifulSoup HTML 获取 src 链接

BeautifulSoup HTML 获取 src 链接 的相关文章

随机推荐

热门标签

BeautifulSoup HTML 获取 src 链接的相关文章