从向量中删除带有标签的数据

2024-02-20

我有一个包含 html 标签的字符串向量,例如

  abc<-""welcome <span class=\"r\"><a href=\"abc\">abc</a></span> Have fun!""

我想删除这些标签并获得以下向量

e.g

       abc<-"welcome Have fun"

Try

> gsub("(<[^>]*>)","",abc)

这意味着“将 的内容,直到没有任何内容”

你不能只是做gsub("<.*>","",abc)因为正则表达式是贪婪的,并且 .* 将匹配文本中的最后一个 > (并且您会在示例中丢失“abc”)。

如果您的标签中有 >,则此解决方案可能会失败 - 但<foo class=">" >合法的?毫无疑问,有人会提出另一个答案,其中涉及使用重量级 XML 包解析 HTML。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从向量中删除带有标签的数据 的相关文章

随机推荐