使用 DOM 解析 HTML 时保留文件偏移量？

2024-02-17

我要修改<img src="">格式不太畸形的 HTML 中的属性（WordPress 帖子）。我知道我可以采取简单的方法并使用正则表达式，但我担心穿着蓝色毛茸茸的衣服的人会在我睡梦中困扰我 https://meta.stackexchange.com/questions/67008/are-rumors-of-a-film-true-i-hope-so-by-golly/67041#67041.

如果我使用 DOM 解析器读取 HTML 并修改<img>标签，恐怕我无法完全按照原样重建帖子（仅通过我的修改），因为 DOM 解析器可能会进行过多的清理工作，并且可能会删除必要的数据。 SAX 解析器可能无法处理无效的 XML，因此这也不起作用。

那么，有没有一种中间方法，我可以使用 DOM 解析器，但它知道每个元素从哪里开始，这样我就可以从那里进行字符串替换或类似的操作？我知道 DOM 树中的某些节点不会存在于源文档中（<b>Some <i>bizarre</b> formatting</i>可能会触发这个），但这是否意味着它总是不可能的？我看到有一个DOMNode::getLineNo()功能 http://www.php.net/manual/en/domnode.getlineno.phpPHP 5.3 中添加的，但我使用的是 5.2.x。

如果 PHP 的 DOM 会写出“太干净”的结果，你could尝试基于字符串的简单HTMLDOM http://simplehtmldom.sourceforge.net/是否比较宽松。

然而，由于格式如您所显示的那样奇怪，我永远不会完全相信解析器能够“正确”地完成它。但尝试一下，也许它只是跳过这些东西。

DOM 库的DOMNode类有一个getLineNo() http://php.net/manual/de/domnode.getlineno.php方法。不过，我并不完全明白这是如何工作的，因为它没有提供与之相配的偏移量。不确定这是否对您的用例有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 DOM 解析 HTML 时保留文件偏移量？的相关文章

未捕获的异常“Google_IO_Exception”，消息为“HTTP 错误：无法连接”

我有一个任务查询运行一些从 gmail 邮箱检索数据的 php 代码直到上周五 2015 年 4 月 10 日它一直工作正常现在我收到以下错误日志 E 11 58 26 094 2015 04 15 200 3 38 KB 14
在 Woocommerce 购物车中设置最小小计金额

我正在尝试将最低订单金额设置为 25 美元到目前为止我找到了这段代码如果未达到最低限度它似乎可以阻止结账但它使用的小计包含税费我需要在总计中排除税费 add action woocommerce checkout process
获取点击的的DOM路径

HTML div class lol a class rightArrow href a div 伪代码 rightArrow click function rightArrowParents this dom dom is the pse
如何在html中制作多行类型的文本框？
Zend Framework Zend_Form 装饰器：位于按钮元素内部？

我有一个像这样创建的按钮元素 submit new Zend Form Element Button submit submit gt setLabel My Button submit gt setDecorators array Vie
为什么 PHP 中不允许“传统”类型提示？

刚刚发现类型提示 http php net manual en language oop5 typehinting phpPHP 中允许但不适用于整数字符串布尔值或浮点数为什么 PHP 不允许对整数字符串等类型进行类型提示从 P
如何使用 Google 帐户对我们网站中的用户进行身份验证

如何在我们的网站中使用 Google 帐户对用户进行身份验证我希望用户重定向到谷歌登录页面然后将他重定向到我的网站我想要这个 PHP 实现你要OAuth http code google com apis accounts docs
PHP cURL 在本地工作，在 AWS 服务器上出现错误 77

最新更新脚本作为管理员用户通过 SSH shell 作为 php script php 成功运行当由 nginx 用户运行时 curl 命令无法执行 https 请求所以我猜测这是nginx用户无法正确使用curl的问题我已经检查了
PHP - 扩展 __construct

我想知道你是否可以帮助我我有两个类一个扩展了另一个 B 类将由各种不同的对象扩展并用于常见的数据库交互现在我希望 B 类能够处理其连接和断开连接而无需来自 A 类或任何外部输入的指示据我了解问题是扩展类不会自动运行其 cons
如何在 WordPress 中按类别获取所有帖子

我想在 WordPress 中按类别获取帖子 args array post type gt project postslist get posts args 0 gt WP Post 对象 ID gt 421 post author gt
Laravel 5.4 升级 - 违反完整性约束 - 列不能为空

奇怪的是所有这些都在 5 2 中工作但我不知道可以改变什么来实现这一点下面是错误和正在插入的数组 SQLSTATE 23000 Integrity constraint violation 1048 Column gender can
在 Laravel 中动态设置数据库连接和语言

我有 3 个域指向同一个Laravel应用我想要的是每个人都连接到自己的数据库并根据 TLD 加载自己的语言文件我可以在哪个文件中设置这些设置我可以直接在配置文件中执行此操作或者可以在加载配置之前执行某些事件我拥有的是一个简短的函
Doctrine 1 和 Symfony 1 的多个主键？

我已经知道在 Symfony 1 和 Doctrine 1 中不可能使用多个主键但是你们知道有什么好的解决方法吗除了多对多关系之外原则 1 不适用于多列上的主键但如果你想使用多对多关系请像这样使用 BlogPost columns
PHP 错误：“无法通过引用传递参数 2”

我只是需要有关这个 PHP 错误的帮助我不太明白致命错误无法在第 13 行 web stud openup inactivatesession php 中通过引用传递参数 2
wordpress - 像 stackoverflow 中那样内嵌 ajax 注释

我有一个 WordPress 博客希望为人们提供与 stackoverflow 中添加评论相同的用户体验有很多评论 ajax 插件但我找不到一个可以使用的插件它允许您在主页上内联进入并添加评论而无需先深入到单独的单个帖子页面任
使用 PHP 和 OAuth 访问 SkyDrive

我想使用 PHP 访问 skyDrive 我想检索文件和文件夹列表下载上传和删除文件我有一个 microsoft dev clientID 和 clientSecret 有人可以帮助我开始使用 OAuth 连接到 skyDrive 并
HTML 代码中的 PHP [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我用 HTML 代码编写了 PHP div div 但这出现在输出页面中 else print 我怎样才能让PHP执行你的文件有一个 p
合并 url 中的 2 个输入值

我有这样的形式
如何在 Carbon Laravel 中添加日期和另一个日期？

在我的 laravel 项目中我想将日期时间增加到前一个日期时间这是我的代码 expire order 0 gt expire date new Carbon now gt addMonths 6 这两行的结果是 2018 01 28
如何在数据列表 HTML PHP 中设置选择

您好我想知道是否有一种方法可以在数据列表中设置选定的值我想要这样的东西

随机推荐

如何将字符串从函数传递到主函数？

我尝试寻找解决方案但未能找到是否可以返回字符串我想将一个字符串从下面的函数传递回 main 我想通过listofdeatils string 这是我的代码 include
如何使用 Fetch 发布 x-www-form-urlencoded 请求？

我有一些参数想要以表单编码的方式 POST 到我的服务器 userName email protected cdn cgi l email protection password Password grant type password 我
如何链接winsock.lib？

在我的 C 课程中我使用套接字我在链接时遇到一些错误因为在我看来库 Winsock lib 丢失了我包括这些 ifdef WIN32 include
Pro JavaScript 程序员面试问题（含答案）[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
重定向到登录页面时正确的 HTTP 状态代码是什么？

当用户未登录并尝试访问需要登录的页面时重定向到登录页面的正确 HTTP 状态代码是什么我问是因为没有一个W3C 规定的 3xx 响应代码 http www w3 org Protocols rfc2616 rfc2616 sec10 h
插入表..在链接服务器上执行不起作用

这有效返回结果集 exec select col count 1 from test dbo Table1 with nolock at svrA 当我尝试将结果集插入表中时 insert into rowcount sub tablen
如何在 IIS 7 中配置 Http 处理程序？

这就是我想做的我创建了一个类库项目这有一个类实现 IHttpHandler 接口让我们将该类命名为 ZipHandler 让我们假设命名空间是 Zip 我希望每当任何 Http 请求提供 zip 文件我的 ZipHandler
PHP 有类似 ruby gem 的打包器吗？

我是 PHP 程序员了解 Rails Ruby 宝石捆绑器 http gembundler com 非常好的安装依赖项的工具 php有类似的东西吗也许某些php框架有这样的工具关于gem捆绑器的说明 Bundler 在应用程序的整个生
MalformedInputException 与 Files.readAllLines()

我正在迭代一些文件准确地说是 5328 个文件这些文件是平均 XML 文件最多 60 200 行它们首先通过简单的方法进行过滤isXml源文件解析路径 Files walk Paths get home me development
如何使用 codeigniter 查询获取每个产品的平均评分？

我有评级表其中对用户给出的每个产品进行评级我正在检索所有评级记录但同时我想根据每个产品获得平均评级但我无法获得输出 Query this gt db gt select ratings this gt db gt select se
Python：名称解析；函数 def 的顺序

我有一个非常简单的例子 usr bin env python a 1 NameError name a is not defined b 1 NameError name b is not defined c 1 NameError nam
Segue 未获取选定的行号

我正在将数据从表视图控制器传递到详细视图我尝试使用indexPath row直接在我的prepareForSegue方法但是它显示错误使用未解析的标识符 indexPath 因此在搜索网络后我设置了变量indexOfSelecte
如何在 Android 版 Eclipse 中启用 LogCat/Console？

在 Android 中编写一个简单的程序时我错误地关闭了 LogCat 窗口我想知道如何再次显示它在 Eclipse 中转到窗口 gt 显示视图 gt 其他 gt Android gt Logcat Logcat 只是模拟器或设备
Excel VBA 在表格下方添加数据时扩展表格

我在 Excel 中有一个表格当用户在表格后添加数据时该数据不属于该表格我创建了一个可以执行来扩展表的代码代码如下 Sub ExtendTableToLastRow Sheets Update Select If ActiveShe
如何使用 Woocommerce WC_AJAX 类

我正在开发一个基于 Wordpress WooCommerce 的商店我使用ajax来调用数据但我是通过 wp admin admin ajax php 在 function php 文件中使用我自己的函数来完成此操作昨天我在 woo
ruby：“p *1..10”中的星号是什么意思

the line p 1 10 做完全相同的事情 1 10 each x puts x 这将为您提供以下输出 ruby e p 1 10 1 2 3 4 5 6 7 8 9 10 例如在使用 textmate 时这是一个很好的快捷方式
如何在ListView中正确使用TextSwitcher？

My TextSwitcher对于每条记录ListView应显示第一个值 text1 然后是另一个值 text2 然后再次首先值依此类推仅当以下情况时才会发生text2不是空的否则text1应始终显示没有任何更改和动画我已经创建了
log4j2.xml中每个包的Log4J不同日志级别

我有一个 Java Web 应用程序log4j2 xml我需要为每个包设置不同的级别例如 com myexample firstmodule 这应该是INFO level com myexample secondmodule 这应该是TR
如何在 Python 中停止打印 OpenCV 错误消息

Same as 这个问题在这里 https stackoverflow com questions 17567808 how to suppress opencv error message 17575610 17575610 除了 Pyt
使用 DOM 解析 HTML 时保留文件偏移量？

我要修改 img src 格式不太畸形的 HTML 中的属性 WordPress 帖子我知道我可以采取简单的方法并使用正则表达式但我担心穿着蓝色毛茸茸的衣服的人会在我睡梦中困扰我 https meta stackexchange com

使用 DOM 解析 HTML 时保留文件偏移量？

使用 DOM 解析 HTML 时保留文件偏移量？ 的相关文章

随机推荐

热门标签

使用 DOM 解析 HTML 时保留文件偏移量？的相关文章