解析lxml中的html正文片段

2023-11-29

我正在尝试解析 html 片段：

<body><h1>title</h1><img src=""></body>

I use lxml.html.fromstring。这让我发疯，因为它不断剥夺<body>我的片段的标签：

 > lxml.html.fromstring('<html><h1>a</h1></html>').tag
 'html'
 > lxml.html.fromstring('<div><h1>a</h1></div>').tag
 'div'
 > lxml.html.fromstring('<body><h1>a</h1></body>').tag
 'h1'

我也尝试过document_fromstring, fragment_fromstring, clean_html with page_structure=False等等...没有任何作用。

我需要使用 lxml，因为我将 html 片段传递给 PyQuery。

我只是希望 lxml 不要弄乱我的 html 片段。可以这样做吗？

.fragment_fromstring()删除<html>也有标签；基本上，每当你这样做时not有一个 HTML 文档（带有<html>顶级元素和/或文档类型），.fromstring()回落至.fragment_fromstring()该方法删除了<html>和<body>标签，总是。

解决方法是告诉.fragment_fromstring()给你一个<body> parent tag:

>>> lxml.html.fragment_fromstring('<body><h1>a</h1></body>', create_parent='body')
<Element body at 0x10d06fbf0>

这不会保留原始的任何属性<body> tag.

另一种解决方法是使用.document_fromstring()方法，它将把你的文档包装在一个<html>标签，然后您可以再次删除该标签：

>>> lxml.html.document_fromstring('<body><h1>a</h1></body>')[0]
<Element body at 0x10d06fcb0>

This does保留属性<body>:

>>> lxml.html.document_fromstring('<body class="foo"><h1>a</h1></body>')[0].attrib
{'class': 'foo'}

使用.document_fromstring()第一个示例的函数给出：

>>> body = lxml.html.document_fromstring('<body><h1>title</h1><img src=""></body>')[0]
>>> lxml.html.tostring(body)
'<body><h1>title</h1><img src=""></body>'

如果您只想在存在的情况下执行此操作noHTML 标签，做什么lxml.html.fromstring()执行并测试完整文档：

htmltest = lxml.html._looks_like_full_html_bytes if isinstance(inputtext, str) else lxml.html._looks_like_full_html_unicode
if htmltest(inputtext):
    tree = lxml.html.fromstring(inputtext)
else:
    tree = lxml.html.document_fromstring(inputtext)[0]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

lxml

lxmlhtml

pyquery

解析lxml中的html正文片段的相关文章

更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
将 numpy 代码点数组与字符串相互转换

我有一个很长的 unicode 字符串 alphabet range 0x0FFF mystr join chr random choice alphabet for in range 100 mystr re sub W mystr 我想
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
设置 verify_certs=False 但 elasticsearch.Elasticsearch 因证书验证失败而引发 SSL 错误

self host KibanaProxy 自我端口 443 self user 测试 self password 测试我需要禁止证书验证使用选项时它与curl一起使用 k在命令行上但是在使用 Elasticsearch pytho
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
Werkzeug 中的线程和本地代理。用法

首先我想确保我正确理解了功能的分配分配本地代理功能以通过线程内的模块包共享变量对象我对吗其次用法对我来说仍然不清楚也许是因为我误解了作业我用烧瓶如果我有两个或更多模块 A B 我想将对象C从模块A导入到模块B 但我
如何检测元素内容何时发生变化

我正在寻找一种方法来监视元素内动态填充无页面重新加载内容以便我可以将类添加到另一个元素到目前为止我有这个 HTML div class message container div class messages error span
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
如何在php中使用preg添加html属性

我正在寻找在 php 中编写一个脚本来扫描 html 文档并根据它找到的内容向元素添加新标记更具体地说我是扫描文档并为每个元素搜索CSS标记 float right left 如果找到它它会添加align right left 基于它
Django - 提交具有同一字段多个输入的表单

预警我对 Django 以及一般的 Web 开发非常陌生我使用 Django 托管一个基于 Web 的 UI 该 UI 将从简短的调查中获取用户输入通过我用 Python 开发的一些分析来提供输入然后在 UI 中呈现这些分析的可视
在 Windows 上使用带有对数刻度的 matplotlib 时出现 Unicode 错误

我正在使用 python 2 6 和 matplotlib 如果我运行 matplotlib 库页面中提供的示例 histogram demo py 它工作正常我已经大大简化了这个脚本 import numpy as np import
禁用特定 div 上的 Tab 键

我有以下结构 div div Some content div div Some content div div 我想禁用 div2 上的 tab 键我的意思是按下 tab 键时 div2 的元素不会获得焦点有没有简单的方法可以使用
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
sqlite3从打印数据中删除括号

我创建了一个脚本用于查找数据库第一行中的最后一个值 import sqlite3 global SerialNum conn sqlite3 connect MyFirstDB db conn text factory str c con
HTML 输入 - 名称与 ID [重复]

这个问题在这里已经有答案了使用 HTML 时
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0
通过 Web 界面执行 python 单元测试

是否可以通过 Web 界面执行单元测试如果可以如何执行 EDIT 现在我想要结果对于测试我希望它们是自动化的可能每次我对代码进行更改时抱歉我忘了说得更清楚 EDIT 这个答案此时已经过时了 Use Jenkins https j
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r

随机推荐

系统找不到启动 Ruby 和 Rails 命令提示符时指定的路径

我一周前刚开始学习 Rails 直到今天一切正常现在当我启动 Ruby 命令提示符时它会显示 The system cannot find the path specified Under Rails Environment Conf
适用于所有浏览器的弹出框

我目前正在使用 window open url blur window focus 但这只能在 Chrome 中正常工作在 IE 中窗口在加载完成后会重新出现在 Firefox 中窗口根本不会下降别担心这个弹出窗口不会令人厌烦
来自非托管代码的 System.AccessViolationException？

我正在编写这个库它通过将由托管代码使用的媒体基础框架在 C CLI 中实现一些基本的音频播放器功能我可以很好地播放音频停止暂停等对于任何不熟悉 Media Foundation 的人媒体会话都会发布您可以处理通知的事件这是通过
9 补丁可绘制行为糟糕，奇怪的人工制品 - 这里出了什么问题？

所以我正在尝试 9 补丁图像我从一个 PNG 文件开始其中有一个带圆角的半透明正方形然后我创建了 9 patch 如下所示注意顶部和左侧的小点我认为这足以处理这个问题但是当将这个 9 补丁添加到 Eclipse 时我得到了奇
Objective C - 分配、复制、保留

我是 Objective C 的新手我有 C 的基础知识包括指针的概念我有两个基本问题有人可以用一些类比来解释分配复制和保留之间的区别吗如何处理返回指针变量的函数以及如何通过返回指针执行消息传递更改文档的更新答案这些信息现
windows下如何获取cpu的实际核心数？ [复制]

这个问题在这里已经有答案了我知道 std thread hardware concurrency 的存在但它返回虚拟核心的数量当其针对物理核心数量时该算法的工作效果最佳提高 5 10 我怎样才能在 Windows 上用 C 获得这
Out-Host 是否正在缓冲？

我有一个函数我在其中调用一个应用程序操作员该应用程序生成几行命令行输出下载一些文件并返回一个字符串 app exe Out Host var return var 看来控制台上出现了由app exe仅在那之后app exe终止
如何快速检查字符串中是否有正确的英文单词？ - Python

我在 pandas 数据框中有一列其中每个单元格都包含一串相当长的单词这些字符串来自 SQL 数据库包含非英语的单词和字母数字 ID 短语的混合并以空格分隔这些字符串最多可达 SQL 的最大字符数这也不是一个小数据框我有几百万
从 firebase 中删除项目而不会使应用程序崩溃

我是 android 新手我一直在玩this来自 firebase 的示例应用程序我想添加一个删除按钮发布详细活动它通过将 DatabaseReference mPostReference 设置为 null 来从数据库中删除当前正在查看
无法使用 cordova-plugin-statusbar 设置状态栏的颜色

我正在尝试更改离子应用程序中本机状态栏的颜色但无法使其工作我已经安装了 cordova plugin statusbar 并且安装得很好下面的代码可以完美运行 if StatusBar StatusBar hide 但尝试使用任何其他
IE8后退按钮和动态内容

我有一个页面它提取外部 JavaScript 文件然后该文件动态生成一些内容到该页面中基本上插入一些 DIV 和 Flash 对象当用户离开此页面然后按后退按钮时 Safari 和 Firefox 会显示生成的内容但 IE 8
javaFX Tableview 数据不可见

我尝试了所有方法来用数据填充 TableView 下一个代码在表中插入新行但数据未出现在表中我试图为此找到一个解释但没有成功请帮忙我不知道出了什么问题在控制器 java中 FXML private TableView
如何使 llvm jit 在 MSVC++ 中工作

看来 LLVM 中的 Kaleidoscopy 示例已经被破坏了至少在 MSVC x64 中已经被破坏了一段时间也许几个月出于同样的原因它在 MCJIT 和新的 Orc JIT 框架中不起作用 Get the address of
根据关联模型的总和对玩家进行排序

我有一个6500的数据库players每个玩家平均有15场比赛results Use case 我想生成一个玩家列表按以下顺序排序sum他们的prize金钱结果表中的一个字段我更喜欢它在某种范围内所以我还可以过滤玩家所在国家地区的
链接 PHP PDO 查询

我不确定链接是否是正确的术语但我要问的是是否可以进行类似于此 MySQLi 查询的 PDO 查询 sql mysqli fetch object db gt query SELECT username FROM member WHER
由于 JavaScript 中不保证对象中的属性顺序，JSON.stringify() 的实际行为如何？

Since JavaScript 中不保证对象中的属性顺序如何JSON stringify 实际上表现如何以下内容总是正确的同一对象吗 const o a 1 b 2 console log JSON stringify o JSO
ESRI：无法解析源映射

我在 Google Chrome 开发者控制台中收到此错误无法解析 SourceMap http localhost 15132 Scripts External igniteui css themes infragistics infr
https url 中的用户名和密码

考虑一下网址 https foo 电子邮件受保护上例中的用户名密码部分是否符合 URL 参数的条件如中所定义这个问题当您将用户名和密码放在主机前面时该数据不会以这种方式发送到服务器相反它会根据所使用的身份验证模式转换为请求标
如何用 SPS 和 PPS 数据填充 AVCodecContext 的“extradata”字段？

问题是这样的当解码 H264 流时ffmpeg 我可以获得SPS和PPS的原始数据但我不知道如何将它们填充到extradata现场AVCodecContext 没有extradata 我无法正确解码帧每次我打电话avcodec dec
解析lxml中的html正文片段

我正在尝试解析 html 片段 h1 title h1 img src I use lxml html fromstring 这让我发疯因为它不断剥夺我的片段的标签 gt lxml html fromstring h1 a h1 tag

解析lxml中的html正文片段

解析lxml中的html正文片段 的相关文章

随机推荐

热门标签

解析lxml中的html正文片段的相关文章