使用 Python 请求提取 href URL

2024-01-01

我想使用 python 中的 requests 包从 xpath 中提取 URL。我可以获取文本，但我尝试没有给出 URL。有人可以帮忙吗？

ipdb> webpage.xpath(xpath_url + '/text()')
['Text of the URL']
ipdb> webpage.xpath(xpath_url + '/a()')
*** lxml.etree.XPathEvalError: Invalid expression
ipdb> webpage.xpath(xpath_url + '/href()')
*** lxml.etree.XPathEvalError: Invalid expression
ipdb> webpage.xpath(xpath_url + '/url()')
*** lxml.etree.XPathEvalError: Invalid expression

我使用本教程开始：http://docs.python-guide.org/en/latest/scenarios/scrape/ http://docs.python-guide.org/en/latest/scenarios/scrape/

看起来应该很容易，但在我的搜索过程中什么也没有出现。

谢谢。

你有没有尝试过webpage.xpath(xpath_url + '/@href')?

这是完整的代码：

from lxml import html
import requests

page = requests.get('http://econpy.pythonanywhere.com/ex/001.html')
webpage = html.fromstring(page.content)

webpage.xpath('//a/@href')

结果应该是：

[
  'http://econpy.pythonanywhere.com/ex/002.html',
  'http://econpy.pythonanywhere.com/ex/003.html', 
  'http://econpy.pythonanywhere.com/ex/004.html',
  'http://econpy.pythonanywhere.com/ex/005.html'
]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

xpath

pythonrequests

lxml

使用 Python 请求提取 href URL 的相关文章

为什么 .setGeometry() 不改变 QWidget 实例的大小？

我想使用 QWidget 更改 QPushButton 的大小 setGeometry https doc qt io qtforpython 5 PySide2 QtWidgets QWidget html PySide2 QtWidge
Tensorflow 可变图像输入大小（自动编码器、放大......）

Edit WARNING不建议使用不同图像大小的图像因为张量需要具有相同的大小才能实现并行化我一直在寻找解决方案了解如何使用不同大小的图像作为神经网络的输入 Numpy 第一个想法是使用numpy 然而由于每个图像的大小不同我无法
从字符串到类型的词法转换

最近我尝试用Python存储和读取文件中的信息遇到了一个小问题我想从文本文件中读取类型信息从 string 到 int 或 float 的类型转换非常有效但从 string 到 type 的类型转换似乎是另一个问题当然我尝试了
在python中将文本文件解析为列表

我对 Python 完全陌生我正在尝试读取包含单词和数字组合的 txt 文件我可以很好地读取 txt 文件但我正在努力将字符串转换为我可以使用的格式 import matplotlib pyplot as plt import num
为什么 Python 中的“pip install”会引发语法错误？

我正在尝试使用 pip 安装软件包我试着跑pip install从Python shell 但我得到了SyntaxError 为什么我会收到此错误如何使用 pip 安装软件包 gt gt gt pip install selenium
如何限制Django CreateView中ForeignKey字段的选择？

我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
Python igraph：从图中删除顶点

我正在使用安然电子邮件数据集并尝试删除没有 enron com 的电子邮件地址即我只想拥有安然电子邮件当我尝试删除那些没有 enron com 的地址时一些电子邮件由于某些原因被跳过下面显示了一个小图其中顶点是电子邮件地址这是
如何使用 python urllib 在 HTTP/1.1 中保持活力

现在我正在这样做 Python3 urllib url someurl headers HOST somehost Connection keep alive Accept Encoding gzip deflate opener urll
无法打开 Python。错误 0xc000007b

我最近一直在学习 Python 3 我在我的上网本 32 位 Windows 7 上创建简单的小程序没有任何问题当我将它安装在我的上网本上时我没有遇到任何问题但现在我已经开始使用它了我想将它安装在我的台式机上并且我有一个我的桌面
matplotlib matshow 标签

我一个月前开始使用 matplotlib 所以我仍在学习我正在尝试用 matshow 制作热图我的代码如下 data numpy array a reshape 4 4 cax ax matshow data interpolation
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
selenium.common.exceptions.WebDriverException：消息：服务

当我使用 selenium 控制 Chrome 时遇到了麻烦这是我的代码 from selenium import webdriver driver webdriver Chrome When i tried to operate it
Python 中的 @staticmethod 与 @classmethod

方法和方法有什么区别装饰的 https peps python org pep 0318 with staticmethod http docs python org library functions html staticmethod和
Matplotlib Scatter - ValueError：RGBA 序列的长度应为 3 或 4

我正在尝试为我的功能绘制图表但不断收到此错误 ValueError RGBA sequence should have length 3 or 4 每当我只有 6 种形状时代码就可以完美运行但现在我将其增加到 10 种它就不起作用了
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
Airflow Python 单元测试？

我想为我们的 DAG 添加一些单元测试但找不到任何单元测试有 DAG 单元测试框架吗有一个端到端的测试框架存在但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
为什么我们应该在 def __init__(self, n) -> None: 中使用 -> ？

我们为什么要使用 gt in def init self n gt None 我读了以下摘录来自 PEP 484 https www python org dev peps pep 0484 the meaning of annotatio
如何禁止 celery 中的 pickle 序列化

Celery 默认使用 pickle 作为任务的序列化方法如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏
使用 Python 生成类似于 Messenger 或 kik 代码的圆形二维码

我可以使用 Python 生成圆形 QR 码就像 Facebook Messenger 或 kik 使用的那样吗我访问了很多网站但找不到这种类型的二维码默认情况下 Python 生成方形 QR 码但在我的项目中我想要圆形 QR 码

随机推荐

Facebook Graph API：参与计数细分

使用旧的 API 我能够获取每个 URL 点赞分享评论点击数使用了links getStats urls www google com 如何通过新 API 获取所有这些信息我尝试使用https graph facebook com
尽管视图的 post() 出现错误，Django 测试客户端 post() 返回 302

我目前正在编写一些基本测试以确保中型 Django 应用程序中的页面正确获取和发布然而使用 django test client Client 并不会在应该失败的时候可靠地失败即使我的代码中明显存在错误它也会返回 302 响应在
如何在 Rails 中自动将所有链接设置为 nofollow

我知道我可以通过 rel gt nofollow to link to但有没有一种方法可以默认设置这样我就不必在每个中进行更改link to tag 在您的应用程序助手中您可以覆盖link to方法并替换为您自己的 def link t
C switch 语句的汇编 - 它是如何工作的？

我正在读一本关于汇编 switch 语句的书当输入 n 为 case 100 102 103 104 106 时代码有 case branch 它通过从 n 中减去 100 来简化跳转表然后如果结果是上面的6 进入L2中的默认情况否
mp3 文件的时间长度

确定给定 mp3 文件的长度以秒为单位的最简单方法是什么不使用外部库高度赞赏Python源代码您可以使用pymad http spacepants org src pymad 它是一个外部库但不要陷入 Not Invented
Scala 中的地图内的地图

我有这个代码 val total ListMap String HashMap Int val hm1 new HashMap Int String val hm2 new HashMap Int Int insert values in
在 R 中查找矩阵的相邻元素

编辑非常感谢以下用户的巨大贡献以及 Gregor 的基准测试假设我有一个充满整数值的矩阵如下所示 mat lt matrix 1 100 10 10 我可以像这样创建每个元素的 x y 坐标列表 addresses lt expand
Flutter如何访问FCM backgroundHandler静态方法中的provider.of(context)？

我已成功设置后台通知并使用邮递员对其进行了测试一切都很好现在我需要在我的backgroundHandler 中访问Provider of context 它必须是没有上下文的静态方法我需要做的就是根据后台通知中的数据执行操作这是我初
在 Ubuntu 上通过 Python 使用 Access 数据库 (.mdb) [重复]

这个问题在这里已经有答案了我正在尝试使用 pyodbc 访问 Ubuntu 上的 mdb 到目前为止我的进展基于此链接查询使 MS Access 崩溃 https stackoverflow com questions 3064830
在 Ionic 应用程序中全屏横向播放视频

我在播放视频横向全屏模式时遇到问题请帮助我以横向全屏模式显示视频我使用以下代码在 Ionic 中查看模板
绘制 Matplotlib 等高线图的轴线或原点

我想画画x 0 and y 0等高线图中的轴使用白色如果这太麻烦了我想要一个白点来表示原点在哪里我的等高线图如下所示下面给出了创建它的代码 xvec linspace 5 5 100 X Y meshgrid xvec xvec
如何使用 OCMock 验证某个方法从未被调用？

在我的日常工作中我被宠坏了莫基托的never 确认 http mockito googlecode com svn tags latest javadoc org mockito Mockito html never 这可以确认模拟方法从
NSArray:lastObject 返回一个自动释放的对象吗？

我正在开发一个 iPhone 项目我想从 NSMutableArray 中检索一个对象从数组中删除该对象然后在以后使用它代码看起来像这样 NSMutableArray array fill the array NSObject ob
使用 STL 在 C++ 中处理大于 2 GB 的文件

我正在进行二进制文件处理在我的算法中我想知道实际类型pos type and off type 例如计算文件大小或查找给定位置时 tellg and seekg 当计算文件的大小时我只是static cast the pos type t
根据构建配置嵌入不同的框架

我有 4 种构建配置 Debug Release 白标调试白标发布 Debug and Release应该链接并嵌入我的自定义LightTheme framework而不是WhiteLabelTheme framework WhiteLa
在批处理脚本中查询注册表项

我使用以下代码来获取启动时运行的程序列表并将它们记录到文件中 for f skip 2 tokens 1 2 A in REG QUERY HKCU SOFTWARE Wow6432Node Microsoft Windows Curre
未记录的支持 Date.parse 格式？

MDN s 的文档Date parse https developer mozilla org en JavaScript Reference Global Objects Date parse says 参数 dateString一个字符
如何同时在2个不同的symfony2防火墙上进行身份验证？

我有一个包含 2 个区域的 Symfony 应用程序一个区域用于客户端从网页访问另一个区域用于来自 AJAX 和 Web 服务的 API 调用每个区域都由自己的防火墙保护 WEB 界面通过登录表单和 API 进行身份验证http ba
如何在视图集中添加自定义权限

创建模块时如何在 django Rest Framework 的视图集中添加除默认权限之外的自定义权限我有权限 fix an appointment 在下面的视图集中如何包含此权限拥有此权限的人只能进行创作我的views py文件
使用 Python 请求提取 href URL

我想使用 python 中的 requests 包从 xpath 中提取 URL 我可以获取文本但我尝试没有给出 URL 有人可以帮忙吗 ipdb gt webpage xpath xpath url text Text of the U

使用 Python 请求提取 href URL

使用 Python 请求提取 href URL 的相关文章

随机推荐

热门标签