PHP - 读取和修复大型无效 XML 文件

2024-02-20

我必须读取一些相当重的 XML 文件（200 MB 到 1 GB 之间），其中一些文件是无效的。让我举一个小例子：

<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:g="http://base.google.com/ns/1.0" version="2.0">
  <item>
    <title>Some article</title>
    <g:material><ul><li>50 % Coton</li><li>50% Lyocell</li></g:material>
  </item>
</rss>

显然，有一个缺失</ul>中的结束标签g:material标签。此外，开发这种饲料的人应该已经附上g:material内容进入CDATA，他们没有......基本上，这就是我想做的：添加这个缺失的CDATA部分。

我尝试使用 SAX 解析器来读取此文件，但读取时失败</g:material>标签自</ul>标签丢失。我尝试过使用 XMLReader 但遇到了基本相同的问题。我可能可以使用 DomDocument::loadHtml 做一些事情，但是这个文件的大小与 DOM 方法并不真正兼容。您知道如何简单地修复此提要，而无需购买大量 RAM 来让 DomDocument 工作吗？谢谢。

如果文件太大而无法使用Tidy http://www.php.net/manual/en/book.tidy.php扩展，您可以使用整洁的 CLI 工具 http://linux.die.net/man/1/tidy使文件可解析。

$ tidy -output my.clean.xml my.xml

之后，XML 文件格式正确，因此您可以使用 XMLReader 来解析它们。由于 tidy 添加了“缺失”的 (X)HTML 部分，因此原始文档的代码位于元素内部。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PHP - 读取和修复大型无效 XML 文件的相关文章

理想的 PHP 会话大小？

我有一个 PHP 表单抵押应用程序大约有 400 个字段该网站的流量会很低对于进入 MySQL 数据库的 400 个字段理想的会话大小是多少 In php ini我要设置什么我应该设置我缺少的任何内容吗会话的大小没有限制但
在Windows上安装php Composer时出现错误

在安装 Composer 以使用 Laravel 框架时我遇到了一些错误 Download failed file get contents SSL operation failed with code 1 OpenSSL Error m
如何解析cURL返回的header？

我正在尝试使用 cURL 与 API 进行通信其中一种方法要求我传递ININ ICWS CSRF Token标题即WAhtYWxoYXlla1dBY2NvUkRJWCQxZmUxZWFhZS0xZTE0LTQyNGYtYjdhZS0zN
如何使用 jquery ajax 将锚点的值发送到 php

我正在尝试使用 jquery 将几个锚点的值发送到 php 文件但我没有从 php 脚本中得到回调 div class result div a href value class star Star 5 a a href value cl
重定向而不是 404 错误页面 - 状态代码不起作用 (Nginx)

我目前正在迁移到 nginx 服务器我尝试将其放入名为的 404 ErrorDocument 中404 php 如果我现在尝试访问http mydomain com 404 php 这按预期工作它将我重定向到 Google 但是一旦我尝
Saxon XSLT 转换：转换期间失败时如何关闭输出流

我想对多个输出文件进行 XSLT 转换我在那里使用了 xsl 结果文档当转换失败时应删除所有输出文件但是如果由 xsl result document 创建的文档生成失败我的程序将无法再删除该文档我认为原因是 xsl resu
为什么 SORT_REGULAR 在 PHP 中产生不一致的结果？

我正在开发一个类它使 PHP 中的数组排序变得更容易并且我一直在使用 SORT 常量但是行为或SORT REGULAR 默认排序类型似乎有所不同具体取决于您在数组中添加项目的顺序此外我找不到任何模式来解释为什么会出现这种情况
$_REQUEST、$_GET、$_POST 哪一个最快？

这些代码中哪一个会更快 temp REQUEST s or if isset GET s temp GET s else temp POST s REQUEST http php net manual en reserved variabl
如何使用 RewriteRule 来为 PHP 修改 $_SERVER['REQUEST_URI'] ？

有了这个 htaccess RewriteEngine On RewriteRule foo foo 1 here I tried L PT C etc RewriteRule index php L 我已经尝试了第一个 RewriteRu
在 php 和 mysql 中使用 utf8mb4

我读过 mysql gt 5 5 3 完全支持每个可能的字符如果您使用编码utf8mb4对于某个表列http mathiasbynens be notes mysql utf8mb4 http mathiasbynens be note
使用 DateTime 类计算日期差异时出错

我正在尝试使用 DateTime 类 php gt 5 3 来计算 2 个日期的差异手册中的示例简单明了我尝试了该示例并且效果很好但如果改变开始和结束日期就会出现问题 this gt start date 2011 03 01 th
PHP 中的抽象类是什么？

PHP 中的抽象类是什么如何使用抽象类是至少包含一个抽象方法的类该方法中没有任何实际代码只有名称和参数并且已被标记为抽象这样做的目的是提供一种模板来继承并强制继承类实现抽象方法因此抽象类是介于常规类和纯接口之间的东西此外
如何在 WordPress/WooCommerce 3+ 中向评论表单添加自定义字段

我正在尝试在产品评论中添加电话字段 WooCommerce 3 针对未注册用户来宾电话号码只能由管理员在管理面板中看到电话字段需要填写 Required 我尝试了这段代码但这不起作用 function true phone nu
如何缓存 twitter api 结果？

我想缓存 twitter api 结果的结果并将其显示给用户缓存结果的最佳方法是什么我正在考虑根据时间限制将结果写入文件可以吗还是应该使用任何其他方法最重要的是理想的缓存时间是多少我想显示来自 twitter 的最新内容但
PHP函数返回值到html标签

我想获取函数的返回值并将其显示到特定的id 在我的 Class php 中我有一个名为 login 的函数用于验证密码是否正确不正确
除括号之间的内容外，所有内容均小写

考虑以下字符串 LoReM FOO IPSUM dolor BAR Samet fooBar 我正在寻找一种方法来小写所有内容除了 brackets 之间的内容应该被忽略所以期望的输出是 lorem FOO ipsum dolor BA
Jython 和 SAX 解析器：允许的实体不超过 64000 个？

我做了一个简单的测试xml saxJython 中的解析器在处理大型 XML 文件 800 MB 时遇到以下错误 Traceback most recent call last File src project xmltools py li
PHP 中的坏词过滤器？

我正在用 PHP 编写一个坏词过滤器我在数组中有一个坏词列表方法 clean text 的写法如下 public static function cleanse text originalstring if self is sorted
在java中创建一个XML树并将其转换为json对象

我尝试创建也能够转换为 json 的树但对于只有一个xpath 当我尝试实现多个 xpath 时我无法获得所需的输出这里我分享一下我的实现 private static Document addElemtbypath List
在 PHP 命令行上显示完整的堆栈跟踪

Problem 我的 PHP 堆栈跟踪缩写为 Stack trace 0 www html table app create php 128 SoapClient gt call call Array 1 www html table ap

随机推荐

NSManagedObject 子类和 setValuesForKeysWithDictionary：

我正在初始化一个NSManagedObject子类使用 void setValuesForKeysWithDictionary NSDictionary keyedValues 我还故意给它未定义的键这当然should抛出异常所以我已
如何从 url 列表创建 Dask DataFrame？

我有一个 URL 列表我很想将它们读取到 dask 数据框中立刻但看起来像read csv不能使用星号http 有什么办法可以实现这一点吗这是一个例子 link http web mta info developers data d
设计和单元测试跨平台应用程序

我正在开发一个为 Windows 构建的项目当前并将在未来为 darwin 构建以下是一个快速概述文件1 go package management type Manager interface Action1 file2 wind
将 NaN 移至各自行的末尾

我有一个像这样的数据框 0 1 2 0 0 0 1 0 2 0 1 NaN 1 0 2 0 2 NaN NaN 2 0 我想要得到的是 Out 116 0 1 2 0 0 0 1 0 2 0 1 1 0 2 0 NaN 2 2 0 NaN
只有 NSMutableArray 的第一个对象存储在 NSUserDefaults 中

我正在尝试存储 UILocalNotification 队列来解决极限问题 https stackoverflow com questions 14689661 cordova ios limit for local notificatio
Ruby/Rails 中的“Ago”日期/时间函数

我想知道 Rails 中是否有一种方法可以计算时间戳例如半分钟前 2 分钟前 1 天前等类似于 twitter 实时日期戳的东西我想知道 Ruby Rails 是否有用于此类日期时间转换的内置函数您可以使用 10 minutes a
bitbake中SRC_URI和FILESEXTRAPATHS_prepend的区别

为什么我们需要给出文件路径SRC URI即使我们将文件路径包含在FILESEXTRAPATHS prepend多变的例如 SUMMARY Simple Hello application LICENSE MIT LIC FILES CHK
hashmap键集自动排序

HashMap
为什么 -compile(export_all) 是不好的做法？

所有的erlang书籍似乎都说export all是不好的做法但没有给出理由最后大多数模块将大部分时间都花在了compile export all 上因为不断更新模块列表以删除辅助函数是很麻烦的这是不好的做法吗因为我应该关心我向
如何既保存两台相机的数据又不影响其拍照速度？

我正在使用多光谱相机来收集数据一种是近红外光另一种是彩色光不是两台相机而是一台相机可以同时获取两种不同类型的图像我可以使用一些 API 函数例如 J Image OpenStream 两部分核心代码如下所示一个用于打开两个流
PostgresQL SQL：将结果转换为数组

查询如下 SELECT i adgroup id i category id FROM adgroupcategories br WHERE i adgroup id IN SELECT i adgroup id FROM adgroupu
将数据帧写入 postgres 数据库

我想将 pandas 数据帧写入 postgres 表我按如下方式连接到数据库 import psycopg2 import pandas as pd import sqlalchemy def connect user password
React 模块解析失败：意外的标记 (1:48)

有人能帮我吗我只是创建反应应用程序然后立即启动它然后我收到了类似这样的错误我对 webpack 不太了解 CMD src index js 1 48 Module parse failed Unexpected token 1 48
重置 Keras 层中的权重

我想重置随机化 Keras 深度学习模型中所有层的权重原因是我希望能够使用不同的数据分割多次训练模型而不必每次都进行缓慢的模型重新编译灵感来自这次讨论 https github com fchollet keras pull
UNIX 中“./”和“sh”的区别

有时我发现很少有脚本是通过 sh 命令执行的有时是通过命令执行的我无法理解它们之间的确切区别请帮助我 sh file在新的 shell 进程中执行 shell 脚本文件 file在当前 shell 进程中执行 shell 脚本文件
命令行终端上的乘法

我正在使用串行终端为我们的实验室实验提供输入我发现使用 echo 5X5 只返回一个字符串 5X5 有没有执行乘法运算的命令是的您可以使用bash 的内置算术扩展 https www gnu org software bash man
如何解决“不支持关键字：‘元数据’”？

我无法连接到 SQL Server 我的项目的连接字符串是
使用图权重提升深度优先访问者最小生成树

我想从具有边权重的顶点创建最小生成树并以深度优先顺序遍历图我可以构建图表和最小生成树但我无法编写自定义访问者 include
WinHttpSendRequest 失败并显示 ERROR_WINHTTP_SECURE_FAILURE

以编程方式与网络进行通信不是我的专业领域但我设法通过从网上找到的示例中剪切和粘贴代码来创建 read web page 函数并且该代码已经连续好几个月每天正常运行碰巧的是我工作时的主 Windows 10 电脑坏了在等待维修时我
PHP - 读取和修复大型无效 XML 文件

我必须读取一些相当重的 XML 文件 200 MB 到 1 GB 之间其中一些文件是无效的让我举一个小例子

PHP - 读取和修复大型无效 XML 文件

PHP - 读取和修复大型无效 XML 文件 的相关文章

随机推荐

热门标签

PHP - 读取和修复大型无效 XML 文件的相关文章