我需要将来自外部源的 XML 文档加载到 PHP 中。 XML 没有声明它的编码并且包含非法字符,例如&
。如果我尝试直接在浏览器中加载 XML 文档,我会收到类似“在文本内容中发现无效字符”的错误,并且在 PHP 中加载文件时也会收到很多警告,例如:xmlParseEntityRef: no name in Entity
and Input is not proper UTF-8, indicate encoding ! Bytes: 0x9C 0x31 0x21 0x3C
.
很明显,XML 的格式不正确,并且包含应转换为 XML 实体的非法字符。
这是因为 XML 提要由许多其他用户提供的数据组成,并且显然在我获取它之前没有对其进行验证或重新格式化。
我已经与 XML 提要的供应商交谈过,他们说他们正在尝试让内容提供商对其进行整理,但这似乎很愚蠢,因为他们应该首先验证输入。
我基本上需要修复 XML,纠正任何编码错误并将任何非法字符转换为 XML 实体,以便在使用 PHP 的 DOMDocument 函数时出现 XML 加载问题。
我的代码目前如下所示:
$feedURL = '3704017_14022010_050004.xml';
$dom = new DOMDocument();
$dom->load($feedURL);
显示编码问题的示例 XML 文件(点击下载):feed.xml
包含尚未转换为 XML 实体的字符的 XML 示例:
<?xml version="1.0"?>
<feed>
<RECORD>
<ID>117387</ID>
<ADVERTISERNAME>Test</ADVERTISERNAME>
<AID>10544740</AID>
<NAME>This & This</NAME>
<DESCRIPTION>For one day only this is > than this.</DESCRIPTION>
</RECORD>
</feed>