正则表达式去除 HTML 标签

2024-03-20

我有这个 HTML 输入:

<font size="5"><p>some text</p>
<p> another text</p></font>

我想使用正则表达式删除 HTML 标签,以便输出为:

some text
another text

谁能建议如何使用正则表达式来做到这一点?


既然你问了,这里有一个快速而肮脏的解决方案:

String stripped = input.replaceAll("<[^>]*>", "");

(Ideone.com 演示 http://ideone.com/uKePKb)

不过,使用正则表达式来处理 HTML 是一个非常糟糕的主意。上面的 hack 不会处理类似的事情

  • <tag attribute=">">Hello</tag>
  • <script>if (a < b) alert('Hello>');</script>

etc.

更好的方法是使用例如Jsoup https://jsoup.org。要从字符串中删除所有标签,您可以执行以下操作Jsoup.parse(html).text().

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

正则表达式去除 HTML 标签 的相关文章

随机推荐