python：从html获取图像链接

2024-01-07

来自这样的 html/rss 片段

[...]<div class="..." style="..."></div><p><a href="..."
<img alt="" heightt="" src="http://link.to/image"
width="" /></a><span style="">[...]

我想获取图像源链接“http://link.to/image.jpg”。我怎样才能在Python中做到这一点？谢谢。

lxml http://lxml.de是完成这项工作的工具。

从网页中抓取所有图像就像这样简单：

import lxml.html

tree = lxml.html.parse("http://example.com")
images = tree.xpath("//img/@src")

print images

Giving:

['/_img/iana-logo-pageheader.png', '/_img/icann-logo-micro.png']

如果它是 RSS 提要，您需要使用以下方式解析它lxml.etree.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

regex

python：从html获取图像链接的相关文章

从字典的元素创建 Pandas 数据框

我正在尝试从字典创建一个 pandas 数据框字典设置为 nvalues y1 1 2 3 4 y2 5 6 7 8 y3 a b c d 我希望数据框仅包含 y1 and y2 到目前为止我可以使用 df pd DataFrame fr
定义Python源代码编码的正确方法

PEP 263 http www python org dev peps pep 0263 定义如何声明Python源代码编码通常 Python 文件的前两行应以以下内容开头 usr bin python coding
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
将 C++ 指针作为参数传递给 Cython 函数

cdef extern from Foo h cdef cppclass Bar pass cdef class PyClass cdef Bar bar def cinit self Bar b bar b 这总是会给我类似的东西 Can
使用 Pytest 的参数化添加测试功能的描述

当其中一个测试失败时可以在测试正在测试的内容的参数化中添加描述快速了解测试失败的原因有时您不知道测试失败的原因您必须查看代码通过每个测试的描述您就可以知道例如 pytest mark parametrize num1 num2
以类型化内存视图作为成员的结构定义

目前我正在尝试让一个具有类型化内存视图的结构能够工作例如 ctypedef struct node unsigned int inds 如果 inds 不是内存视图据我所知它可以完美地工作然而通过内存视图并使用类似的东西 def
是否有一个包可以维护所有带有符号的货币列表？

是否有一个 python 包提供所有或相当完整货币的列表与符号如美元的有优秀的pycountry 贪财的 https github com limist py moneyed and ccy http code google com
如何将 sql 数据输出到 QCalendarWidget

我希望能够在日历小部件上突出显示 SQL 数据库中的一天就像启动程序时突出显示当前日期一样在我的示例中它是红色突出显示我想要发生的是当用户按下突出显示的日期时数据库中日期旁边的文本将显示在日历下方的标签上这是我使用 QT De
如何使用 Homebrew 在 Mac 上安装 Python 2 和 3？

我需要能够在 Python 2 和 3 之间来回切换我如何使用 Homebrew 来做到这一点因为我不想弄乱路径并陷入麻烦现在我已经通过 Homebrew 安装了 2 7 我会用pyenv https github com yyuu
更改QLineEdit的ClearButton图标

我想在Windows 10 1909 64位上的Python 3 8和PyQt5 5 15 0 上更改我的QLineEdit的ClearButton图标稍后我想在Linux上运行代码我尝试应用此处找到的代码如何在 QLineEdit
PIL.Image.open和tf.image.decode_jpeg返回值的区别

我使用 PIL Image open 和 tf image decode jpeg 将图像文件解析为数组但发现PIL Image open 中的像素值与tf image decode jpeg不一样为什么会出现这种情况 Thanks 代
numpy：如何连接数组？（获得多个范围的并集）

我使用Pythonnumpy 我有一个 numpy 索引数组a gt gt gt a array 5 7 12 18 20 29 gt gt gt type a
使用seaborn绘制简单线图

我正在尝试使用seaborn python 绘制ROC曲线对于 matplotlib 我只需使用该函数plot plt plot one minus specificity sensitivity bs where one minus s
pygame：使用 sprite.RenderPlain 绘制精灵组的顺序

我有一个精灵组需要按一定的顺序绘制以便其精灵按应有的方式重叠然而即使使用运算符模块函数 sorted self sprites key attrgetter y x 对组进行排序顺序也是错误的我该如何解决这个问题直截了当地说
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
Discord.py 嵌入中禁用按钮/冻结按钮

I m trying to make a replica of this bot in which when I press any of the buttons below it shows a dropdown menu and you
PyInstaller“ValueError：源代码字符串不能包含空字节”

我得到了一个ValueError source code string cannot contain null bytes执行命令时pyinstaller main py在具有和不具有管理员权限的cmd中 Traceback most re
高效创建抗锯齿圆形蒙版

我正在尝试创建抗锯齿加权而不是布尔圆形掩模以制作用于卷积的圆形内核 radius 3 no of pixels to be 1 on either side of the center pixel shall be decimal a
描述符“join”需要“unicode”对象，但收到“str”

代码改编自here http wiki geany org howtos convert camelcase from foo bar to Foo Bar def lower case underscore to camel case s

随机推荐

Laravel Socialite Facebook 登录错误：参数 app_id 是必需的

试图让社交名流使用我的应用程序 Facebook 返回The parameter app id is required error Routes Route get login facebook CommendMe Http Control
使用 window.open 打开新选项卡时，Chrome 扩展内容脚本范围是否共享（自 Chrome 45 起）？

我有一个扩展在 Chrome 45 最新更新之前一直运行良好问题在于过去为每个选项卡单独加载的内容脚本现在似乎在打开的选项卡及其开启选项卡使用 window open 时之间共享范围只要新选项卡与旧选项卡位于同一域中揭幕战有
如何在 kotlin 中将函数作为参数传递 - Android

如何使用 Kotlin 在 android 中传递函数如果我知道如下功能我就可以通过 fun a b gt Unit fun b 我想传递任何函数例如 gt fun passAnyFunc fun gt Unit 您可以使用匿名函数或
获取 Windows 中文件的编码

这实际上不是一个编程问题是否有命令行或 Windows 工具 Windows 7 来获取文本文件的当前编码当然我可以编写一个小 C 应用程序但我想知道是否已经内置了一些东西 Open up your file using regul
xaml 条件 StringFormat

我想做一个binding具有有条件的价格格式更准确地说如果另一个属性位于true 显示不带百分比的价格如果是 false 以百分比显示价格有没有办法用 xaml 处理这种情况或者我应该在我的代码隐藏代码中创建一个字符串价格属性
我如何添加样式类到 xpages 中的表单标签

我需要添加StyleClass到生成的表单标签xPages 我不知道是否可以在新主题中更改此控件但我只需要一个xPage在我的应用程序中这是生成的代码
如何使用CSS使背景DIV仅透明

我正在使用 CSS 属性 filter alpha opacity 90 不透明度 9 使 DIV 透明但是当我在该 DIV 中添加另一个 DIV 时它也会使其透明我想让外部背景 DIV 仅透明如何 Fiddle http jsf
标准化在优化中有用/必要吗？

我正在尝试使用 Matlab 优化工具箱使用fmincon准确地说是函数为了快速表达我的观点我提供了一个小变量集 l m r m l c r c 其起始值等于 4mm 2mm 1mm 0 5mm 虽然 Matlab 没有特别建议对输入
当我尝试在 chrome 中创建书签时，控制台中出现错误“浏览器未定义”

我正在尝试创建书签在本例中是 chrome API 书签创建 https developer mozilla org en US Add ons WebExtensions API bookmarks create 我的代码是 func
使用基于视图的 NSOutline (Sourcelist) 的奇怪行为

我的应用程序中有一个 Lion 中的新功能基于视图的 NSOutlineView 作为侧边栏 SourceList 使用 CoreData NSTreeController Bindings NSOutlineView 和一个对象作为 N
自定义条带结帐的错误处理

我正在研究自定义条带集成网关如果我使用信用卡借记卡付款我将从该 url 获得带有令牌 id 的成功 json 响应https api stripe com v1 tokens https api stripe com v1 toke
.NET 4 中的 URL 重写？

我听说 Visual Studio 2010 提供了使用其 URL 路由引擎进行 URL 重写的内置功能我在 Visual Studio 的早期版本中使用像 intelligencia urlrewrite 这样的插件进行了 URL 重写
SVG 粘糊糊的效果在最新版本的 FireFox 上不起作用

我有一个问题当使用黑色以外的任何其他颜色时我的 feGuassian 模糊无法正常工作在 chrome 上它工作得很好我还没有在 safari 上测试过我在 jsFiddle 创建了一个示例 HTML div div class
关于 django form.errors 的问题，获取原始错误消息

django文档说https docs djangoproject com en dev ref forms api django forms Form errors https docs djangoproject com en dev
从代码隐藏中获取多用户控件中的 GridView

IpInterfaceUC 用户控制 div style height 205px width 550px margin left 5px div
正则表达式 [A-z] 和 [a-zA-Z] 之间的区别

我正在使用正则表达式为我只需要字母字符的文本框编写输入验证器我想知道是否 A z and a zA Z 是否相同或性能方面是否存在差异我继续阅读 a zA Z 在我的搜索中没有提及 A z 我正在使用java的String match
在android中制作按钮的按下效果

我创建了一个android应用程序它动态创建50个按钮效果很好但问题是当我动态地为这些按钮添加一些背景颜色时按钮的按下效果会丢失谁能告诉我一些保留按钮点击按下效果的解决方案我的代码如下所示 my Android平台是2 3 3 i
流星 / JS 日期

所以我试图在流星中制作一个时间表应用程序创建项目并添加时间条目为什么这是我能想到的所有测试应用程序但是我更习惯于处理 PHP 在 PHP 中我只会存储一个带有时间长度的日期字段现在我想知道在 Meteor 中处理日期的最佳方式
ElasticSearch进入“只读”模式，节点无法更改

晚上我的 ES 集群由 5 个数据节点 3 个主节点组成发生了一些事情我不知道发生了什么但所有索引和数据都被删除集群进入只读模式可能被黑客攻击了 When trying to get Kibana running I get
python：从html获取图像链接

来自这样的 html rss 片段 div class div p a href alt src http link to image width a span 我想获取图像源链接 http link to image jpg 我怎样才能在

python：从html获取图像链接

python：从html获取图像链接 的相关文章

随机推荐

热门标签

python：从html获取图像链接的相关文章