使用 Python 请求提取 href URL

2024-01-01

我想使用 python 中的 requests 包从 xpath 中提取 URL。我可以获取文本,但我尝试没有给出 URL。有人可以帮忙吗?

ipdb> webpage.xpath(xpath_url + '/text()')
['Text of the URL']
ipdb> webpage.xpath(xpath_url + '/a()')
*** lxml.etree.XPathEvalError: Invalid expression
ipdb> webpage.xpath(xpath_url + '/href()')
*** lxml.etree.XPathEvalError: Invalid expression
ipdb> webpage.xpath(xpath_url + '/url()')
*** lxml.etree.XPathEvalError: Invalid expression

我使用本教程开始:http://docs.python-guide.org/en/latest/scenarios/scrape/ http://docs.python-guide.org/en/latest/scenarios/scrape/

看起来应该很容易,但在我的搜索过程中什么也没有出现。

谢谢。


你有没有尝试过webpage.xpath(xpath_url + '/@href')?

这是完整的代码:

from lxml import html
import requests

page = requests.get('http://econpy.pythonanywhere.com/ex/001.html')
webpage = html.fromstring(page.content)

webpage.xpath('//a/@href')

结果应该是:

[
  'http://econpy.pythonanywhere.com/ex/002.html',
  'http://econpy.pythonanywhere.com/ex/003.html', 
  'http://econpy.pythonanywhere.com/ex/004.html',
  'http://econpy.pythonanywhere.com/ex/005.html'
]
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Python 请求提取 href URL 的相关文章

随机推荐

  • Facebook Graph API:参与计数细分

    使用旧的 API 我能够获取每个 URL 点赞 分享 评论 点击数 使用了links getStats urls www google com 如何通过新 API 获取所有这些信息 我尝试使用https graph facebook com
  • 尽管视图的 post() 出现错误,Django 测试客户端 post() 返回 302

    我目前正在编写一些基本测试 以确保中型 Django 应用程序中的页面正确获取和发布 然而 使用 django test client Client 并不会在应该失败的时候可靠地失败 即使我的代码中明显存在错误 它也会返回 302 响应 在
  • 如何在 Rails 中自动将所有链接设置为 nofollow

    我知道我可以通过 rel gt nofollow to link to但有没有一种方法可以默认设置 这样我就不必在每个中进行更改link to tag 在您的应用程序助手中 您可以覆盖link to方法并替换为您自己的 def link t
  • C switch 语句的汇编 - 它是如何工作的?

    我正在读一本关于汇编 switch 语句的书 当输入 n 为 case 100 102 103 104 106 时 代码有 case branch 它通过从 n 中减去 100 来简化跳转表 然后如果结果是上面的6 进入L2中的默认情况 否
  • mp3 文件的时间长度

    确定给定 mp3 文件的长度 以秒为单位 的最简单方法是什么 不使用外部库 高度赞赏Python源代码 您可以使用pymad http spacepants org src pymad 它是一个外部库 但不要陷入 Not Invented
  • Scala 中的地图内的地图

    我有这个代码 val total ListMap String HashMap Int val hm1 new HashMap Int String val hm2 new HashMap Int Int insert values in
  • 在 R 中查找矩阵的相邻元素

    编辑 非常感谢以下用户的巨大贡献以及 Gregor 的基准测试 假设我有一个充满整数值的矩阵 如下所示 mat lt matrix 1 100 10 10 我可以像这样创建每个元素的 x y 坐标列表 addresses lt expand
  • Flutter如何访问FCM backgroundHandler静态方法中的provider.of(context)?

    我已成功设置后台通知并使用邮递员对其进行了测试 一切都很好 现在我需要在我的backgroundHandler 中访问Provider of context 它必须是没有上下文的静态方法 我需要做的就是根据后台通知中的数据执行操作 这是我初
  • 在 Ubuntu 上通过 Python 使用 Access 数据库 (.mdb) [重复]

    这个问题在这里已经有答案了 我正在尝试使用 pyodbc 访问 Ubuntu 上的 mdb 到目前为止我的进展基于此链接 查询使 MS Access 崩溃 https stackoverflow com questions 3064830
  • 在 Ionic 应用程序中全屏横向播放视频

    我在播放视频横向全屏模式时遇到问题 请帮助我以横向全屏模式显示视频 我使用以下代码在 Ionic 中查看模板
  • 绘制 Matplotlib 等高线图的轴线或原点

    我想画画x 0 and y 0等高线图中的轴 使用白色 如果这太麻烦了 我想要一个白点来表示原点在哪里 我的等高线图如下所示 下面给出了创建它的代码 xvec linspace 5 5 100 X Y meshgrid xvec xvec
  • 如何使用 OCMock 验证某个方法从未被调用?

    在我的日常工作中 我被宠坏了莫基托的never 确认 http mockito googlecode com svn tags latest javadoc org mockito Mockito html never 这可以确认模拟方法从
  • NSArray:lastObject 返回一个自动释放的对象吗?

    我正在开发一个 iPhone 项目 我想从 NSMutableArray 中检索一个对象 从数组中删除该对象 然后在以后使用它 代码看起来像这样 NSMutableArray array fill the array NSObject ob
  • 使用 STL 在 C++ 中处理大于 2 GB 的文件

    我正在进行二进制文件处理 在我的算法中我想知道实际类型pos type and off type 例如计算文件大小或查找给定位置时 tellg and seekg 当计算文件的大小时我只是static cast the pos type t
  • 根据构建配置嵌入不同的框架

    我有 4 种构建配置 Debug Release 白标调试 白标发布 Debug and Release应该链接并嵌入我的自定义LightTheme framework而不是WhiteLabelTheme framework WhiteLa
  • 在批处理脚本中查询注册表项

    我使用以下代码来获取启动时运行的程序列表 并将它们记录到文件中 for f skip 2 tokens 1 2 A in REG QUERY HKCU SOFTWARE Wow6432Node Microsoft Windows Curre
  • 未记录的支持 Date.parse 格式?

    MDN s 的文档Date parse https developer mozilla org en JavaScript Reference Global Objects Date parse says 参数 dateString一个字符
  • 如何同时在2个不同的symfony2防火墙上进行身份验证?

    我有一个包含 2 个区域的 Symfony 应用程序 一个区域用于客户端从网页访问 另一个区域用于来自 AJAX 和 Web 服务的 API 调用 每个区域都由自己的防火墙保护 WEB 界面通过登录表单和 API 进行身份验证http ba
  • 如何在视图集中添加自定义权限

    创建模块时 如何在 django Rest Framework 的视图集中添加除默认权限之外的自定义权限 我有权限 fix an appointment 在下面的视图集中 如何包含此权限 拥有此权限的人只能进行创作 我的views py文件
  • 使用 Python 请求提取 href URL

    我想使用 python 中的 requests 包从 xpath 中提取 URL 我可以获取文本 但我尝试没有给出 URL 有人可以帮忙吗 ipdb gt webpage xpath xpath url text Text of the U