python:从html获取图像链接

2024-01-07

来自这样的 html/rss 片段

[...]<div class="..." style="..."></div><p><a href="..."
<img alt="" heightt="" src="http://link.to/image"
width="" /></a><span style="">[...]

我想获取图像源链接“http://link.to/image.jpg”。我怎样才能在Python中做到这一点?谢谢。


lxml http://lxml.de是完成这项工作的工具。

从网页中抓取所有图像就像这样简单:

import lxml.html

tree = lxml.html.parse("http://example.com")
images = tree.xpath("//img/@src")

print images

Giving:

['/_img/iana-logo-pageheader.png', '/_img/icann-logo-micro.png']

如果它是 RSS 提要,您需要使用以下方式解析它lxml.etree.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python:从html获取图像链接 的相关文章

随机推荐

  • Laravel Socialite Facebook 登录错误:参数 app_id 是必需的

    试图让社交名流使用我的应用程序 Facebook 返回The parameter app id is required error Routes Route get login facebook CommendMe Http Control
  • 使用 window.open 打开新选项卡时,Chrome 扩展内容脚本范围是否共享(自 Chrome 45 起)?

    我有一个扩展 在 Chrome 45 最新更新之前一直运行良好 问题在于 过去为每个选项卡单独加载的内容脚本现在似乎在打开的选项卡及其开启选项卡 使用 window open 时 之间共享范围 只要新选项卡与旧选项卡位于同一域中 揭幕战 有
  • 如何在 kotlin 中将函数作为参数传递 - Android

    如何使用 Kotlin 在 android 中传递函数 如果我知道如下功能 我就可以通过 fun a b gt Unit fun b 我想传递任何函数 例如 gt fun passAnyFunc fun gt Unit 您可以使用匿名函数或
  • 获取 Windows 中文件的编码

    这实际上不是一个编程问题 是否有命令行或 Windows 工具 Windows 7 来获取文本文件的当前编码 当然 我可以编写一个小 C 应用程序 但我想知道是否已经内置了一些东西 Open up your file using regul
  • xaml 条件 StringFormat

    我想做一个binding具有 有条件 的价格格式 更准确地说 如果另一个属性位于true 显示不带百分比的价格 如果是 false 以百分比显示价格 有没有办法用 xaml 处理这种情况 或者我应该在我的代码隐藏代码中创建一个字符串价格属性
  • 我如何添加样式类到 xpages 中的表单标签

    我需要添加StyleClass到生成的表单标签xPages 我不知道是否可以在新主题中更改此控件 但我只需要一个xPage在我的应用程序中 这是生成的代码
  • 如何使用CSS使背景DIV仅透明

    我正在使用 CSS 属性 filter alpha opacity 90 不透明度 9 使 DIV 透明 但是当我在该 DIV 中添加另一个 DIV 时 它也会使其透明 我想让外部 背景 DIV 仅透明 如何 Fiddle http jsf
  • 标准化在优化中有用/必要吗?

    我正在尝试使用 Matlab 优化工具箱 使用fmincon准确地说是函数 为了快速表达我的观点 我提供了一个小变量集 l m r m l c r c 其起始值等于 4mm 2mm 1mm 0 5mm 虽然 Matlab 没有特别建议对输入
  • 当我尝试在 chrome 中创建书签时,控制台中出现错误“浏览器未定义”

    我正在尝试创建书签 在本例中是 chrome API 书签 创建 https developer mozilla org en US Add ons WebExtensions API bookmarks create 我的代码是 func
  • 使用基于视图的 NSOutline (Sourcelist) 的奇怪行为

    我的应用程序中有一个 Lion 中的新功能 基于视图的 NSOutlineView 作为侧边栏 SourceList 使用 CoreData NSTreeController Bindings NSOutlineView 和一个对象作为 N
  • 自定义条带结帐的错误处理

    我正在研究自定义条带集成 网关 如果我使用信用卡 借记卡付款 我将从该 url 获得带有令牌 id 的成功 json 响应https api stripe com v1 tokens https api stripe com v1 toke
  • .NET 4 中的 URL 重写?

    我听说 Visual Studio 2010 提供了使用其 URL 路由引擎进行 URL 重写的内置功能 我在 Visual Studio 的早期版本中使用像 intelligencia urlrewrite 这样的插件进行了 URL 重写
  • SVG 粘糊糊的效果在最新版本的 FireFox 上不起作用

    我有一个问题 当使用黑色以外的任何其他颜色时 我的 feGuassian 模糊无法正常工作 在 chrome 上它工作得很好 我还没有在 safari 上测试过 我在 jsFiddle 创建了一个示例 HTML div div class
  • 关于 django form.errors 的问题,获取原始错误消息

    django文档说https docs djangoproject com en dev ref forms api django forms Form errors https docs djangoproject com en dev
  • 从代码隐藏中获取多用户控件中的 GridView

    IpInterfaceUC 用户控制 div style height 205px width 550px margin left 5px div
  • 正则表达式 [A-z] 和 [a-zA-Z] 之间的区别

    我正在使用正则表达式为我只需要字母字符的文本框编写输入验证器 我想知道是否 A z and a zA Z 是否相同或性能方面是否存在差异 我继续阅读 a zA Z 在我的搜索中 没有提及 A z 我正在使用java的String match
  • 在android中制作按钮的按下效果

    我创建了一个android应用程序 它动态创建50个按钮 效果很好 但问题是当我动态地为这些按钮添加一些背景颜色时 按钮的按下效果会丢失 谁能告诉我一些保留按钮点击按下效果的解决方案我的代码如下所示 my Android平台是2 3 3 i
  • 流星 / JS 日期

    所以我试图在流星中制作一个时间表应用程序 创建项目并添加时间条目 为什么 这是我能想到的所有测试应用程序 但是 我更习惯于处理 PHP 在 PHP 中我只会存储一个带有时间长度的日期字段 现在 我想知道在 Meteor 中处理日期的最佳方式
  • ElasticSearch进入“只读”模式,节点无法更改

    晚上我的 ES 集群 由 5 个数据节点 3 个主节点组成 发生了一些事情 我不知道发生了什么 但所有索引和数据都被删除 集群进入 只读 模式 可能被黑客攻击了 When trying to get Kibana running I get
  • python:从html获取图像链接

    来自这样的 html rss 片段 div class div p a href alt src http link to image width a span 我想获取图像源链接 http link to image jpg 我怎样才能在