VTD-XML 似乎破坏了 XML 文档中的转义字符串

2024-06-28

我正在研究 XML 数据集（DrugBank 数据库可用）here http://www.drugbank.ca/downloads）其中某些字段包含转义的 XML 字符，例如“&”等。

为了使问题更加具体，下面是一个示例场景：

<drugs>
    <drug>
        <drugbank-id>DB00001</drugbank-id>
        <general-references>
            # Askari AT, Lincoff AM: Antithrombotic Drug Therapy in Cardiovascular Disease. 2009 Oct; pp. 440&#x2013;. ISBN 9781603272346. "Google books":http://books.google.com/books?id=iadLoXoQkWEC&amp;pg=PA440.
        </general-references>
        .
    </drug>
    <drug>
    ...
    </drug>
    ...
</drugs>

由于整个文档很大，我解析如下：

VTDGen gen = new VTDGen();
try {
    gen.setDoc(Files.readAllBytes(DRUGBANK_XML));
    gen.parse(true);
} catch (IOException | ParseException e) {
    SystemHelper.exitWithMessage(e, "Unable to process Drugbank XML data. Aborting.");
}
VTDNav nav = gen.getNav();
AutoPilot pilot = new AutoPilot(nav);
pilot.selectXPath("//drugs/drug");
while (pilot.evalXPath() != -1) {
    long fragment = nav.getContentFragment();
    String drugXML = nav.toString((int) fragment, (int) (fragment >> 32));
    System.out.println(drugXML);
    finerParse(drugXML); // another method handling a more detailed data analysis
}

当我测试时finerParse使用示例 xml 的方法（从相同数据复制粘贴的片段），效果很好。但是当从上面的代码调用时，它失败并显示错误消息Errors in Entity: Illegal entity char。将输入打印到finerParse（即drugXML字符串），我注意到字符串&pg=PA440原始 xml 中的内容更改为“&pg=PA440”。

为什么会发生这种情况？我所做的就是使用一个非常知名的解析器来解析它。

P.S. I have找到了一个替代解决方案，我只是将 VTDNav 作为参数传递给finerParse而不是首先获取内容字符串并传递该字符串。但我仍然很好奇上述方法出了什么问题。

使用 vtdNav.toRawString() 而不是 vtdNav.toString() 问题应该消失......让我知道它是否有效。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

xml

escaping

vtdxml

VTD-XML 似乎破坏了 XML 文档中的转义字符串的相关文章

将 for 循环转换为 concat String 为 lambda 表达式

我有以下 for 循环它迭代字符串列表并将每个单词的第一个字符存储在StringBuilder 我想知道如何将其转换为 lambda 表达式 StringBuilder chars new StringBuilder for String
使用 Apache Commons File Upload 解析 multipart/form-data

Apache Commons File Upload 包是否提供了流解析的通用接口multipart form data块通过InputStream 附加Array
读取时 R 中的内存错误.xlsx

我正在使用以下 R 代码也利用 Java 参数来增加内存 library xlsx options java parameters Xmx1g library XLConnect NiVe lt read xlsx version1 xl
Amazon SQS 旧配置文件格式警告

我正在将消息发布到 Amazon SQS 队列启动时我在日志中收到以下警告 http nio 9090 exec 2 BasicProfileConfigLoader The legacy profile format requires
EventQueue.invokeLater vrs SwingUtilities.invokeLater

有人可以强调这两者之间的差异以及两者都是必需的实例吗我有一个可以互换使用两者的应用程序但想知道其中一个是否比另一个更好显然他们都接受Runnable object 对我来说我想我可以使用我喜欢的那个为什么这两个相似的功能在不同的类
在准备好的语句中使用“like”通配符

我正在使用准备好的语句来执行 mysql 数据库查询我想实现基于某种关键字的搜索功能为此我需要使用LIKE关键字我知道的就这么多我以前也使用过准备好的语句但我不知道如何使用它LIKE因为从下面的代码中我将在哪里添加 keyword
Android - 更改 ImageButton 上的发送图标的颜色

如何更改发送图标的默认颜色ImageButton
请求的操作：声明您的广告 ID 权限

今天我收到这封电子邮件去年 7 月我们宣布了广告政策变更以帮助加强安全和隐私我们对使用的标识符添加了新的限制针对儿童的应用程序当用户选择删除他们的广告 ID 以选择退出个性化广告如果满足以下条件开发人员将收到一串零而不是
信用卡号应该存储为字符串还是整数？

是啊只是想想而已我应该将在我的网站上输入的信用卡号存储为字符串还是整数我的意思是它们由数字组成这让我认为它是一个整数但我不对它们进行数学运算所以也许字符串更合适编辑所以我必须在加密之前存储在某个时刻输入的数字我可能应该更
Android 上为什么会出现线程泄漏？

我在 Android 应用程序中注意到每次退出主屏幕时堆大小泄漏都会增加 ByteArrayOutputStream 的量我能做到的最好的办法就是添加 this mByteArrayOutputStream null 在的最后r
在 DAO 中反映继承关系最有效的方法是什么？

使用 MVC 结构和业务对象 http en wikipedia org wiki Business object DAO http en wikipedia org wiki Data access object建筑学对于任何正常的业务
如何在类图中对自定义异常关联进行建模？

Reading here http www jguru com faq view jsp EID 62790 似乎使用泛化来建模自定义异常类很常见它没有提到的是我如何对与可能引发自定义异常的类的关联进行建模请注意我并不是在问如何在引发
使用 Maven 时如何在 Tomcat 7.0 中将上下文路径设置为根（“/”）

我有一个maven项目 pom xml包含tomcat插件
如何安装“Android 支持库”以将 Gluon Mobile 应用程序部署到 Android？

我想使用 Gluon Mobile 框架开发一个 Android 应用程序我在 Netbeans IDE 中安装了 Gluon 插件创建了一个示例项目并成功构建了它现在我想将该应用程序部署到 Android 设备我指的是在线文档 1
查询 XmlDocument 而不会出现“命名空间前缀未定义”问题

我有一个 Xml 文档它定义并引用了一些命名空间我将其加载到 XmlDocument 对象中据我所知我创建了一个 XmlNamespaceManager 对象用于查询 Xpath 问题是我收到命名空间 my 未定义的 XPath
异常中的错误代码与异常层次结构

您认为在异常中使用错误代码来指定错误类型可以吗请看一下这段代码 public class MyException extends Exception public static final String ERROR CODE INVALI
Java 错误：默认构造函数未定义隐式超级构造函数

我有一些简单的 Java 代码其结构与此类似 abstract public class BaseClass String someString public BaseClass String someString this someSt
使用 Appengine 进行多线程处理

既然Appengine不允许java多线程那么我们如何将现有的多线程代码迁移到该平台呢例如我有以下代码 Thread t new Thread public boolean alive true public void run whil
可选的比较器

I have abstract class OptionalComparator
XSL - 如何将第一个字母大写

我有以下 xml

随机推荐

IntelliJ、Akka 和配置文件

使用时akka http akka io 我放置akka conf in src main resources 当我run通过 sbt akka conf被正确识别但当我运行 IntelliJ 时却没有即使在gen idea 实现这一目
围绕 glutMainLoop 执行程序的其余部分？

我目前正在开发一个项目其中有一个 android 应用程序我在 PC 上的 OpenGL 窗口中编写了控件和对象我已经让 OpenGL 窗口执行我想要的操作并且我从 Android 设备获取了数据以流式传输到终端但是我需要将数据传
如何知道我正在使用 ndk-build 构建哪个 API 级别？

我试图更好地理解使用 ndk build 时 api 级别的选择是如何工作的我知道我可以明确设置APP PLATFORM in 应用程序 mk 否则 ndk build 将针对清单中指示的 apiandroid minSdkVersion
尝试计算盒子的分数时小数精度损失

我有一个场景我有一个包含 3 个罐头的标准盒子出于显示和查询的目的我必须以其标准配置的十进制数量进行报告不可能说1盒3罐 1盒2罐等等例如最初我会有1盒3罐然后我移除 1 个罐子结果是0 66 循环盒 3 罐然后我再移除 1
在会话中检索并保存 gridview

当我在文本框中写入我的名字时我有一个用于搜索的页面例如它将搜索并在 GridView 中显示结果我正在使用一个EntityDataSource with a QueryExtender所以我没有用C 编写任何代码问题是在 Gri
使用 toYaml 进行 helm 模板化

我有values yml 文件它接受具有以下格式和默认值的端口列表 Ports number 443 protocol http 输出用作输入的端口列表的脚本给出了以下格式 port list get ports sh output 80
在我自己的自定义 appSettings 上使用 foreach 所需的代码

我搜索了该网站但没有找到我想要的内容接近但没有雪茄基本上我想要一个像这样的配置部分
有没有文档描述 Clang 如何处理过多的浮点精度？

当唯一允许使用的浮点指令是 387 指令时几乎不可能以合理的成本提供严格的 IEEE 754 语义当人们希望让 FPU 工作在完整的 64 位有效数上时这尤其困难以便long double类型可用于扩展精度通常的解决方案是以
我可以通过 ssh 将 ssh 用户名与 git 的提交关联起来吗？

我正在尝试通过 ssh 设置共享 git 存储库将用户公钥复制到authorized keys 我真的希望 ssh key 中的用户名成为存储库中提交历史记录的一部分这样用户 joe 就不能将他的名字设置为 kate 我们需要某种责
如何清除Android应用程序中的所有活动

我的应用程序有许多可以按任何顺序调用的活动活动历史示例 A gt B gt C gt D gt A gt B gt E 现在在活动 E 中我正在注销设备注销用户并删除他们可能已下载到 SD 卡的任何数据期望的行为是应用程序重
使用 C 与 OpenMP 求和

我已经尝试并行化这段代码大约两天了但一直出现逻辑错误该程序是使用非常小的 dx 之和来求积分的面积并计算积分的每个离散值我正在尝试使用 openmp 来实现这一点但实际上我没有使用 openmp 的经验我需要你的帮助实际目标是
javascript - 全局变量不起作用

我想保存一个变量以便多个函数可以使用它我按照 w3schools 的指示进行操作但不起作用我是不是忘记了什么先感谢您 var name document getElementById name value function com
将 bash 脚本转换为 python（小脚本）

我有一个在 Linux 环境中使用的 bash 脚本但现在我必须在 Windows 平台上使用它并且希望将 bash 脚本转换为可以运行的 python 脚本 bash 脚本相当简单我认为我尝试通过 google 转换它但无法成功
Python 中的 ZeroMQ 和多个订阅过滤器

我想使用一个套接字使用 Python 中的 ZeroMQ 订阅多个过滤器 sock setsockopt zmq SUBSCRIBE first filter sock setsockopt zmq SUBSCRIBE second fil
使用 Choco 建模网球比赛 (CSP)

我正在尝试用 Choco 建模一个问题以获得网球赛事或任何运动中可能的比赛组合我尝试这样做的方式如下 Set of timeslots when the event is held i e 10am 10pm int nTimesl
将 XML 文件导入 SQL Server（不使用 BULK）

我正在尝试将数据从 XML 文件导入到数据库中我使用了一个测试脚本BULK INSERT 但是当我在实时数据库上进行测试时权限BULK被禁用尝试 1 BULK INSERT XMLTable FROM C Radu test xml
使用 dplyr::mutate 重新编码而不在函数中工作

我正在尝试使用dplyr mutate across 重新编码 a 中的指定列tbl 单独使用它们效果很好但我无法让它们在函数中工作 library dplyr library tidyr df1 lt tibble Q7 1 1 5 Q
elasticsearch，是否可以更新嵌套对象而不更新整个文档？

我正在使用嵌套对象索引一组文档将它们想象为论坛帖子该嵌套对象是与该帖子相关的用户我的问题是用户字段可能会更新但由于帖子没有更改因此它们不会重新索引并且用户嵌套对象变得过时有没有办法更新嵌套对象而无需再次重新索引整个文档或者唯
在android中将SQLite数据库导出到csv文件

我正在尝试将 SQLite 数据作为目录中的 CSV 文件导出到 Android 中的 SD 卡所以我尝试了下面的方法显然它只显示打印出来的文本数据库的第一个表日期项目金额货币在我的 DBHelper java 中我定义了该
VTD-XML 似乎破坏了 XML 文档中的转义字符串

我正在研究 XML 数据集 DrugBank 数据库可用 here http www drugbank ca downloads 其中某些字段包含转义的 XML 字符例如等为了使问题更加具体下面是一个示例场景

VTD-XML 似乎破坏了 XML 文档中的转义字符串

VTD-XML 似乎破坏了 XML 文档中的转义字符串 的相关文章

随机推荐

热门标签

VTD-XML 似乎破坏了 XML 文档中的转义字符串的相关文章