我必须比较不同版本的 HTML 页面的格式和文本更改。不幸的是,创建它们的人/公司使用某种 HTML 编辑器,每次都会重新包装所有 HTML(并添加大量空格),这使得很难区分它们。因此,我正在寻找一种工具(最好是 Java 库),它可以重新格式化我的 HTML,从而删除所有无关紧要的空格和换行符。
这意味着,在
<h1>First Headline</h1> <h2>Second headline</h2>
之间的空间</h1>
and <h2>
应该被删除,但在
<b>formatted</b> <i>text</i>
空格可能不会被删除。我不在乎<pre>
, <textarea>
or <script>
块,也不是关于可以改变行为的 CSS 空白属性 - 我只是在寻找一种去除大部分不必要的空白的解决方案(最好保留太多的空白而不是太少)。
(我已经折叠多个空格并在标签之前重新添加换行符而不是空格,以使文本更具可读性 - 但仍然有太多的情况,例如标题或表格单元格/行之间的新换行符破坏了我的简单“解决方案” .)
JTidy http://jtidy.sourceforge.net/可能在这里有用。它是一个 HTML 解析器,可以解析 HTML(并且可以容忍格式错误的 HTML)并将 HTML 呈现为 DOM,并且您可以覆盖其中的写入以删除您不感兴趣的任何内容。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)