在 XML 中保留原始换行符类型（\r 与 \r\n）

2023-12-28

我有一个应用程序，我想在其中使用 XML 文件来存储：(1) 文档的原始文本，以及 (2) 使用字符偏移量“指向”原始文本的多个实体。例如。：

<Document>
  <OriginalText>This is a test</OriginalText>
  <Word start_offset="0" end_offset="4" id="w1"/>
  <Word start_offset="6" end_offset="7" id="w2"/>
  <Word start_offset="8" end_offset="9" id="w3"/>
  <Word start_offset="10" end_offset="14" id="w4"/>
</Document>

但是，我担心一个潜在的问题——我无法控制输入文档的内容，因此它可能包含“\n”或“\r\n”换行符。然而，XML 规范 [1] 指出：

XML 处理器的行为必须像标准化外部的所有换行符解析的实体（包括文档实体）在输入之前解析，通过翻译两个字符序列 #xD #xA 以及任何后面不跟有 #xA 的 #xD 到单个 #xA 字符。

即，在应用程序看到 XML 文件之前，换行符会被标准化。不幸的是，在我看来，这可能会消除字符偏移。例如，在偏移量标准化之前位于偏移量 173 的字符在偏移量标准化之后可能位于偏移量 168 处。我的问题：

我是否正确解释了 XML 规范？
我认为仅对换行符进行编码（即将 \r 替换为）并不能解决问题，因为编码的字符将在 XML 处理器标准化换行符之前被替换。那是对的吗？
有人可以推荐一个好的解决方案吗？我考虑过的一个解决方案是将 \r 字符替换为其他字符（空格或某些“特殊”字符），否则在规范化过程中会被删除；但如果可能的话，我不想修改原始文档文本。另一种可能的解决方案是对原始文档进行编码（例如使用 base64 或 uuencode），但我真的不想这样做，因为这会使 XML 文件更难以阅读和使用。

（使用字符偏移量来指向文档并不是可以更改的设计决策，因为我需要与使用字符偏移量来指向文档文本的其他工具集成。）

[1] http://www.w3.org/TR/REC-xml/#sec-line-ends http://www.w3.org/TR/REC-xml/#sec-line-ends

我对您引用的规范部分的理解是，所有typed（文字）CR字符被替换并且它们在解析之前被替换。因此任何CR表示为字符引用不会被替换为LF因为应该进行更换解析之前（或者它应该像在解析之前完成一样工作）并且字符引用被转换为字符数据在 XML 解析期间。请注意，还CRs in CDATA部分被替换，但话又说回来，字符引用CDATA部分不会被解析为它们引用的实际字符。

因此，如果将换行符序列化为字符引用，则应该能够按原样保留换行符。但是，请注意：我不认为所有 XML 工具都遵守此约定。另外你可能会失去CR如果解析后的 XML 被发送到另一个工具，该工具再次解释内容。

另外，按字符位置索引数据对我来说听起来很脆弱。请考虑您是否可以找到另一种方法来标记或分段您的数据。如果您需要坚持使用基于字符位置的索引，我建议以某种方式规范化文本数据。毕竟，换行并不是唯一可能的故障点。其他包括例如重音字符和连字。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xml

newline

在 XML 中保留原始换行符类型（\r 与 \r\n）的相关文章

在 Android 中存储和访问 XML 的最佳方式是什么？

虽然我意识到资源本身是在 XML 文件中定义的但如果我有一个我希望使用的自己类型的 XML 文件我是否应该将它们存储在 res xml 中有没有更好的方法来做到这一点例如使用资产然后将它们加载为二进制文件以供另一个 XML 库解析
JAXB 不会解组接口列表

看来 JAXB 无法读取它所写的内容考虑以下代码 interface IFoo void jump XmlRootElement class Bar implements IFoo XmlElement public String y p
Java 中的 XPath 节点集

我在 eclipse 中有这段代码 NodeSet nodes NodeSet xPath evaluate expression inputSource XPathConstants NODESET 它给我 NodeSet 上的编译时错误
将维基百科中的表格加载到 R 中

我正在尝试从以下 URL 将最高法院法官表加载到 R 中 https en wikipedia org wiki List of Justices of the Supreme Court of the United States http
Dispatcher-servlet 无法映射到 websocket 请求

我正在开发一个以Spring为主要框架的Java web应用程序特别使用Spring core Spring mvc Spring security Spring data Spring websocket 像这样在 Spring 上下文
PHP 换行符 (\n) 不起作用

由于某种原因我无法使用 n使用 PHP 输出到文件时创建换行符上面只写着 n 到文件我尝试使用 n 同样它只写 n 如预期但我一生都无法弄清楚为什么在字符串中添加 n 不会创建新行我也尝试过 r n但它只是附加 r n 到文件中的
SimpleXML插入处理指令（样式表）

我想集成一个XSL文件在一个XML给我的字符串php CURL命令我试过这个 output XML gived me by curl option hotel simplexml load string output hotel gt a
如何更新 PHP 中 xpath 的版本？ [复制]

这个问题在这里已经有答案了可能的重复 XPath 2 0 和或 XSLT 2 0 是否会在 PHP 中实现 https stackoverflow com questions 2085632 will xpath 2 0 and or
如何使用 XmlSerializer 在大文档中插入节点

我有一个很大的 XML 文档我想使用XmlSerializer类来插入新元素其内容来自使用 xsd exe 生成的 NET 类实例这是问题的后续如何使用 XmlSerializer 反序列化大型文档中的节点 https stackov
如何在 C# 中应用 XSLT 样式表

我想使用 C 将 XSLT 样式表应用到 XML 文档并将输出写入文件我在这里找到了一个可能的答案 http web archive org web 20130329123237 http www csharpfriends com A
xmlns 元素的顺序重要吗

我不知道如何在 google 中搜索此内容但是 xmlns 元素的问题在 XML 文件中重要吗我正在 ASP NET VB 中使用 XMLWriter 创建一个 XML 文件并且尝试匹配我提供的示例
如何找到 AS3 中 xml 子级的数量

所以现场文档说这是在 XML 对象上调用 length 对于 XML 对象此方法始终返回整数 1 length XMLList 类的方法返回一个对于 XMLList 对象值为 1 仅包含一个值我在 xml 上调用它如下所示
InflateException 膨胀类 android.support.design.widget.CoordinatorLayout 时出错

E AndroidRuntime 致命异常 main 进程 com atech a business PID 30662 java lang RuntimeException 无法启动活动 ComponentInfo com atech a
阅读 Stack Overflow RSS 源

我正在尝试获取未回答问题的列表the feed https stackoverflow com feeds 但我在阅读时遇到困难 const string RECENT QUESTIONS https stackoverflow com f
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
xml:space="preserve" 对 XML 属性之间的空间有影响吗？

我知道 a b b a 不同于 a b b a 然而又怎样呢 a b b a
如何使用 RSA-SHA1 算法对 xml 元素进行签名？

我需要使用 RSA SHA1 算法签署并最终验证 XML 文档的节点之一 w3 org 链接 https www w3 org TR xmlsec algorithms RSA SHA1 网址 http www w3 org 2000 0
使用浏览器转换XML时是否可以通过URL向XSLT传递参数？

当使用浏览器 Google Chrome 或 IE7 转换 XML 时是否可以通过 URL 将参数传递给 XSLT 样式表 example data xml
Android 中的列表（特别是 RecyclerView 和 CardView）如何工作

请原谅我问这个问题但我是 Android 开发新手尽管我正在尝试了解developer android com 网站上的基础知识但大多数示例即使他们说它们是为 Android Studio 构建的尚未设置为使用 Gradle 因此
在 Java 中通过 XSLT 分解 XML

我需要转换具有嵌套分层表单结构的大型 XML 文件

随机推荐

oracle将数字转换为日期sql

我正在尝试转换一个数字 yyyymmdd 迄今为止 mm dd yyyy 例如 20150302 gt 03 02 2015 你可以试试这个 select to date 20150302 yyyymmdd from dual or sel
多对多 Spring Data JPA 关系中的额外列，变化最小

我需要更改项目的模型现在我们有两个具有双向多对多关系的类这意味着在关系表中现在需要向关系添加额外的信息我的问题是唯一的方法是为关系创建一个类例如使用与已存在的关系表相同的名称创建一个类我这么问是因为如果我们需要改变项目中的
有没有办法在 Visual Studio 中自动更新已安装的 NuGet 包？

正如标题所示我想知道是否有一种方法可以在包源中出现新版本时自动更新已安装的 NuGet 包该用例是一个将某些公司策略代码分析签名等应用于我们的项目的包一旦该包更新我希望能够为此包配置自动更新我确实知道 NuGet 有一个包恢
Python 列表是否保证其元素保持插入的顺序？

如果我有以下Python代码 gt gt gt x gt gt gt x x 1 gt gt gt x x 2 gt gt gt x x 3 gt gt gt x 1 2 3 Will x保证永远是 1 2 3 或者临时元素的其他顺序是否可
Xpath选择多个标签

我想要使用 PHP DOMXPath 查询的多个标签 td 和 th 我该怎么做您可以使用联盟运营商这是一个例子 doc new DOMDocument doc gt loadHTML table tr th table head
使用自动滚动向面板添加控件 (c#)

我有一个带有属性的面板AutoScroll true 通过动态地将其他控件添加到面板而不滚动一切正常 void addControl int top 13 this Controls Count cmdSet Height ucComma
如何定义 R 函数的参数类型？

我正在编写一个 R 函数并且我想确保我的 R 函数的参数属于某个类例如矩阵做这个的最好方式是什么假设我有一个函数 foo 它计算矩阵的逆 foo lt function x I want to make sure x is of
名称冲突的类的构造函数

我正在使用 clang 使用 c 14 方言编译我的代码举个例子 class x int i public x int i this gt i i void x void f class x my x Do something here
jboss 7.1 xalan 问题？

我正在尝试在 JBoss7 上创建基于 Apache Jena 的应用程序 Apache Jena 使用 Xalan 2 11 0 JBoss 7 附带 2 7 1 当我尝试调用该应用程序时出现异常其根源是 org apache xer
记录函数闭包

例如假设我的包中有一个函数闭包 f function x x x g function y x lt lt y h function x list g g h h l f 5 l g 10 l h 什么是正确的在官方CRAN http
JFactory导入失败

我正在尝试为 Android 应用程序制作一个登录系统该系统可与我的 2 5 Joomla 网站一起使用我试图通过制作一个 Joomla 插件来做到这一点 Android 应用程序将发布数据发送到 php 文件然后该文件对用户进行身份
减少 Swing 应用程序中耦合的设计模式

大家好我目前正在开发 Java Swing 应用程序并且正在寻找一些指导该应用程序相当小但我注意到随着代码库变得越来越大我的对象图中存在大量耦合我对 Swing 比较陌生但我已经编程了足够长的时间知道它的发展方向我遇到的
Django 中间件并获取视图名称？

我正在尝试用 Django 编写我的第一个中间件 class RefreshBalance def process view self request view func view args view kwargs pass 我想检测视图是
volatile int 比 AtomicInteger 快吗

我目前正在做一个示例练习我发现一个奇怪的观察结果如果我用易失性程序替换 AutomicInteger 则运行速度会更快注意我只进行读操作 code import java util ArrayList import java uti
如何访问 Backbone 视图中的父元素？

在 Backbone 模型视图中似乎 this el parent 不起作用从视图中选择父元素的最佳方法是什么我正在使用设置 eltagName li 为了景观默认情况下 Backbone 分配一个空的div到你的视图中你无法访问
如何使用opencv python解决theta迷宫？

I have to find shortest path from the center of the maze to the outermost circle I have to solve this problem using open
检查 WHERE 子句中参数是否为 NULL

我在执行一个存储过程时遇到了麻烦该过程需要永远执行它相当大我可以理解我需要一些时间但这个持续了将近 20 分钟经过一些调试和研究后我注意到替换这部分WHERE clause p DrumNo IS NULL OR T ORDER
获取不同项目及其数量的列表

我有一个对象它有很多属性但唯一需要担心的两个是 myobject ID这是一个int myobject Names这是一个HashSet 然后我有一个List这些对象看起来与此类似 List
如何从 Jupyter Notebook 中的 .py 文件调用函数？

我不想在每个 Jupyter Notebook 文件中编写相同的函数如果我只需要编辑一次函数而不需要在每个 ipynb 文件中进行编辑那就更容易了问题是如果我编辑 py 文件我必须重新启动内核这将重新启动一切有什么方法可以简单
在 XML 中保留原始换行符类型（\r 与 \r\n）

我有一个应用程序我想在其中使用 XML 文件来存储 1 文档的原始文本以及 2 使用字符偏移量指向原始文本的多个实体例如

在 XML 中保留原始换行符类型（\r 与 \r\n）

在 XML 中保留原始换行符类型（\r 与 \r\n） 的相关文章

随机推荐

热门标签

在 XML 中保留原始换行符类型（\r 与 \r\n）的相关文章