Python BeautifulSoup 相当于 lxml make_links_absolute

2024-01-11

所以lxml有一个非常方便的功能：make_links_absolute：

doc = lxml.html.fromstring(some_html_page)
doc.make_links_absolute(url_for_some_html_page)

并且文档中的所有链接现在都是绝对的。 BeautifulSoup 中是否有一个简单的等效项，或者我只需要通过 urlparse 传递它并对其进行规范化：

soup = BeautifulSoup(some_html_page)
for tag in soup.findAll('a', href=True):
    url_data = urlparse(tag['href'])
    if url_data[0] == "":
        full_url = url_for_some_html_page + test_url

在我的回答中使用 python 提取网页上的 URL 列表的简单方法是什么？ https://stackoverflow.com/questions/4139989/what-is-a-simple-way-to-extract-the-list-of-urls-on-a-webpage-using-python/4140102#4140102我在提取步骤中顺便介绍了这一点；您可以轻松地编写一个方法来对汤进行操作，而不仅仅是提取它。

from urllib.parse import urljoin

def make_links_absolute(soup, url):
    for tag in soup.findAll('a', href=True):
        tag['href'] = urljoin(url, tag['href'])

（Python 2：from urlparse import urljoin.)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

lxml

Python BeautifulSoup 相当于 lxml make_links_absolute 的相关文章

LibreOffice 并行将 .docx 转换为 .pdf 效果不佳

我有很多 docx 文件需要转换为 pdf 将它们一一转换需要很长时间所以我编写了一个 python 脚本来并行转换它们 from subprocess import Popen import time import os os chdi
将 yerr/xerr 绘制为阴影区域而不是误差线

在 matplotlib 中如何将误差绘制为阴影区域而不是误差条例如而不是忽略示例图中各点之间的平滑插值这需要进行一些手动插值或者只是获得更高分辨率的数据您可以使用pyplot fill between https matpl
如何调整 matplotlib 单选按钮的大小和纵横比？

我已经尝试了几个小时来使简单的单选按钮列表的大小和纵横比正确但没有成功首先导入模块 import matplotlib pyplot as plt from matplotlib widgets import RadioButtons
Python re无限执行

我正在尝试执行这段代码 import re pattern r w w s re compiled re compile pattern results re compiled search COPRO HORIZON 2000 HOR p
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
使用 Python 3 动态插入到 sqlite

我想使用 sqlite 写入多个表但我不想提前手动指定查询有数十种可能的排列例如 def insert sqlite tablename data list global dbc dbc execute insert into tab
检查 python 中命令行参数的数量

我是蟒蛇新手还是把脚弄湿了我正在尝试做这样的事情 import sys if len sys argv lt 3 or lt len sys argv gt 3 print This script will compare two fi
为什么第二个 request.session cookies 返回空？

我想使用 requests Session post 登录网站但是当我已经登录主页然后进入帐户页面时看来cookies还没有保存因为cookies是空的而且我无法进入正确的帐户页面 import requests from bs4
使用 Pytest 的参数化添加测试功能的描述

当其中一个测试失败时可以在测试正在测试的内容的参数化中添加描述快速了解测试失败的原因有时您不知道测试失败的原因您必须查看代码通过每个测试的描述您就可以知道例如 pytest mark parametrize num1 num2
将 pandas 剪切操作转换为常规字符串

我明白了 pandas cut 操作的输出 0 0 20 1 0 20 2 0 20 3 0 20 4 0 20 5 0 20 6 0 20 7 0 20 8 0 20 9 0 20 如何将 0 20 转换为 0 20 我正在这样做 str
python celery -A 的无效值无法加载应用程序

我有一个以下项目目录 azima init py main py tasks py task py from main import app app task def add x y return x y app task def mul
如何在 Python 中的函数入口、内部和退出处进行日志记录

我希望能够使用 Python 日志记录工具在我的代码中进行简单且一致的日志记录我能够执行以下操作我希望所有现有未来的模块和函数都有输入和完成日志消息我不想添加相同的代码片段来定义日志记录参数如下所示don t want t
python 中的 h2o 框架子集

如何在 python 中对 h2o 框架进行子集化如果 x 是一个 df 并且 Origin 是一个变量那么在 pandas 中我们通常可以通过以下方式进行子集化 x x Origin AAF 但使用 h2o 框架会出现以下错误 H2O
在Python中读取tiff标签

我正在尝试用 Python 读取 tiff 文件的标签该文件是 RGB 的uint16每个通道的值我目前正在使用tifffile import tifffile img tifffile imread file tif 然而 img是一
时间序列数据预处理 - numpy strides 技巧以节省内存

我正在预处理一个时间序列数据集将其形状从二维数据点特征更改为三维数据点时间窗口特征在这样的视角中时间窗口有时也称为回顾指示作为输入变量来预测下一个时间段的先前时间步长数据点的数量换句话说时间窗口是机器学习算法在对
使用标签或 href 传递 Django 数据

我有一个包含链接的表当单击该链接进行更多操作时我想将一些数据传递给我的函数 my html table tbody for query in queries tr td value a href internal my func que
为什么在Python解释器中输入_会返回True？ [复制]

这个问题在这里已经有答案了我的翻译行为非常奇怪 gt gt gt True gt gt gt type True
Python守护进程：保持日志记录

我有一个将一些数据记录到磁盘的脚本 logging basicConfig filename davis debug log level logging DEBUG logging basicConfig filename davis er
基于值而不是类型的单次调度

我在 Django 上构建 SPA 并且有一个庞大的功能其中包含许多功能if用于检查我的对象字段的状态名称的语句像这样 if self state new do some logic if self state archive do s
使用 selenium 和 python 来提取 javascript 生成的 HTML？萤火虫？

这里是Python新手我遇到的是数据收集问题我在这个网站上当我用 Firebug 检查我想要的元素时它显示了包含我需要的信息的源然而常规源代码没有 Firebug 不会给我这个信息这意味着我也无法通过正常的 selenium

随机推荐

与方法组的委托实例分配相比

几年前根据 ReSharper 的一些建议我开始使用方法组语法最近我尝试了Clr堆分配分析器 https github com Microsoft RoslynClrHeapAllocationAnalyzer它标记了我在 lambd
如何将对象传递给脚本？

在下面的代码片段中如何将对象作为参数传递给脚本中的方法 var c new MyAssembly MyClass Description test var code using MyAssembly public class TestCl
psycopg2.extras.DictCursor 没有给我列名

我正在使用 psycopg2 访问 Postgres 数据库中的数据我使用 psycopg2 extras DictCursor 使用以下查询以类似字典的形式获取数据 try self con psycopg2 connect dbnam
无法在“FileMapping”处打开库

Cannot open a library at FileMapping from C Users Administrator AndroidStudioProjects FreshProject app libs xerceslmpl 2
-ffast-math (-ffinite-math-only) 和 glibc 2.31 的链接错误

最近 glibc 即 glibc 2 31 包含在 Ubuntu 20 04 中似乎删除了诸如 exp finite 使用gcc的选项编译时使用了这些函数 ffinite math only or ffast math 这会启用上述选项
Node.js 6 和匿名对象

有谁知道为什么从 Node js 6 0 开始console log有时会渲染带有前导的对象anonymous word anonymous val 123 这意味着什么以及如何应对我正在从我正在使用的一些库中获取对象这是 Node j
如何在弹出窗口打开时立即将选项卡焦点放在弹出窗口上，而不是将焦点放在先前选择的值上

我使用了自定义弹出模式来接收用户的确认消息这里我有一些基于焦点的输入字段如果必须从用户处获取任何验证确认消息则会打开弹出消息当弹出窗口打开时选项卡焦点将位于背景中已选择的值上而不是弹出窗口上如果我使用选项卡它将转到后台中的
Powershell - 一段时间后关闭表单

我有一个 power shell 表单提示用户是否想要推迟关闭时间关闭时间由另一个 ps 脚本作为参数给出该参数在初始脚本中计算我想在 30 分钟不活动后关闭表单我该怎么做 Powershell代码表格 creating the
如何限制Android模拟器上的互联网连接速度？

我需要测试应用程序是否可以在互联网连接速度较慢的情况下工作如何在Android模拟器上模拟慢速网络连接 For 安卓工作室项目您可以执行以下操作如果您需要临时更改网速请在模拟器工具栏上单击三个点设置转到Cellular选项卡并在那
Spring Boot中为静态资源设置setCachePeriod

我正在使用 Spring Boot 并且 static用作js和css等静态资源到目前为止一切顺利而我想设置这些文件的缓存头所以我尝试了以下方法 Configuration public class BaseMvcConfig ext
需要将对移动网站的访问限制为特定注册的移动设备

我进行了大量研究似乎找不到解决方案来限制仅允许以前注册的设备访问安全移动网站我已经有了安全登录但我们还必须确保只有注册的设备才能访问该网站我们不能让用户与他人共享登录信息并允许其他人登录并使用受保护的信息有办法做到这一点吗我尝试
错误未定义 [javax.persistence.EntityManagerFactory] 类型的合格 bean：预期有单个匹配 bean，但发现了 2 个

MySQL PostgreSQL 我想将相同的数据放入同名表中两个数据库都有相同的表 error WARN 2017 07 04 14 53 03 o s c s GenericApplicationContext Exception e
使用 JQuery / javascript 创建动态图像：我做错了什么？

请看一下以下代码为了便于阅读我删除了所有文档类型等我想代码是非常不言自明的 JavaScript 代码从下图中检索高度和宽度并创建两个新变量 newHeight 和 newWidth 它们缩小了原始值的 80 当文档加载时这两个新
使用 mvc4 中的 form.serialize() 发布包含 HttpPostedFileBase 文件以及一些参数的模型

我有一个包含一些字符串和 HttpPostedFileBase 属性的 ViewModel 当我使用下面的 ajax 调用将模型发布到控制器时 ajax url Url Action AddFeedback Mcq type post da
没有“SameSite”属性的 Cookie 将在不同的子域上发送

所以我读过Chrome 80 的 cookie 默认为 SameSite Lax https blog chromium org 2019 10 developers get ready for new html和你们其他人一样我现在正在
Stripe 抛出无效整数错误

我无法收取 49 99 美元的条纹费用我正在浏览以下链接但没有任何锻炼 Stripe Checkout 价格错误无效整数 https stackoverflow com questions 28025804 stripe checko
M1 芯片（Apple 芯片）模拟器上的 Android 工作室 Arctic Fox beta 3 无法启动：“AVD 'myAvdName' 的模拟器进程已终止。”

我的 MacBook Air M1 上安装了 Android studio 官方最新版和 Arctic Fox Beta 3 无法让模拟器在两个版本的 Android 上运行 AVD myavxname 的模拟器进程已终止我已确保使用其他
如何从 celery pprint 输出中删除时间戳？

运行 celeryworker 时每行输出pprint始终以时间戳为前缀并且也会被删除这使得它非常不可读 2015 11 05 16 01 12 122 WARNING Worker 2 2015 11 05 16 01 12 122
无法在 HttpResponseMessage 标头上设置 Content-Type 标头？

我正在使用 ASP NET WebApi 我正在我的一个控制器中创建一个 PUT 方法代码如下所示 public HttpResponseMessage Put int idAssessment int idCaseStudy strin
Python BeautifulSoup 相当于 lxml make_links_absolute

所以lxml有一个非常方便的功能 make links absolute doc lxml html fromstring some html page doc make links absolute url for some html p

Python BeautifulSoup 相当于 lxml make_links_absolute

Python BeautifulSoup 相当于 lxml make_links_absolute 的相关文章

随机推荐

热门标签