使用 Nokogiri（而不是 Tidy）清理 HTML

2023-12-28

The tidygem 不再维护，并且存在多个内存泄漏问题。

有些人建议使用Nokogiri。

我目前正在使用以下方法清理 HTML：

Nokogiri::HTML::DocumentFragment.parse(html).to_html

不过我有两个问题：

Nokogiri 删除了DOCTYPE
有没有一种简单的方法可以强制清理后的 HTML 具有html and body tag?

如果您正在处理完整的文档，您需要：

Nokogiri::HTML(html).to_html

这将迫使html and body标签，并引入或保留DOCTYPE:

puts Nokogiri::HTML('<p>Hi!</p>').to_html
#=> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"
#=>  "http://www.w3.org/TR/REC-html40/loose.dtd">
#=> <html><body><p>Hi!</p></body></html>

puts Nokogiri::HTML('<!DOCTYPE html><p>Hi!</p>').to_html
#=> <!DOCTYPE html>
#=> <html><body><p>Hi!</p></body></html>

请注意，不保证输出在语法上有效。例如，如果我提供了一个损坏的文档，该文档撒谎并声称它是 HTML4.01 严格的，Nokogiri 将输出具有该 DOCTYPE 但没有所需的文档<head><title>...</title></head>部分：

dtd = '<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">'
puts Nokogiri::HTML("#{dtd}<p>Hi!</p>").to_html
#=> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
#=>  "http://www.w3.org/TR/html4/strict.dtd">
#=> <html><body><p>Hi!</p></body></html>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ruby

nokogiri

tidy

使用 Nokogiri（而不是 Tidy）清理 HTML 的相关文章

用一种方法进行 Ruby 选择和拒绝

是否有任何内置方法可以结合以下功能Enumerable select 找到该块等于 true 的所有内容和Enumerable reject 找到该块中所有等于 false 的内容就像是 good bad list magic meth
黄瓜测试java例子？

我想尝试使用黄瓜测试的示例应用程序黄瓜测试可以仅使用 ruby 完成也可以使用 java 完成请帮我举一个示例谢谢您可以查看我们在我们这里编写的一个简单示例来演示 cucumber jvm https github com gph
为什么 Google 的自定义搜索 API 提示我在使用 Ruby 客户端时缺少访问令牌？

我正在尝试使用Google 的自定义搜索 API http code google com apis customsearch v1 using rest html通过Google API Ruby 客户端 http code google
在 Ruby 中，围绕子方法执行块的最佳方法是什么？

我有一个父类 class Base def my method block method do EXECUTE WHATEVER S IN THE CHILD VERSION OF my method HOW TO DO end end d
捆绑安装到开发

由于某种原因当我跑步时bundle install它安装到生产中 Your bundle is complete It was installed into RAILS ENV production Arrrghh 我如何切换回开发 No
从 ruby 脚本运行另一个 ruby 脚本

在 ruby 中是否可以指定使用与运行原始脚本相同的 ruby 解释器来调用另一个 ruby 脚本例如如果 a rb 运行 b rb 几次是否可以替换 system ruby b rb foo bar 与类似的东西 run ruby
factory_girl + rspec 似乎并没有在每个示例后回滚更改

类似于这里描述的问题 http rpheath com posts 411 how to use factory girl with rspec http rpheath com posts 411 how to use factory g
在 (Mac)Vim 中查看 ri 时摆脱 ANSI 转义字符

我在 gvim 和 MacVim 中查看 ri 文档时遇到问题在两者上都尝试过一些 ri 文档包含在终端窗口中查看时看起来不错的文本装饰但在 gvim MacVim 中查看时包含 ANSI 转义字符例如以下 ri 片段来自 ri
rspec 测试 has_many :through 和 after_save

我有一个我认为相对简单的has many through与连接表的关系 class User lt ActiveRecord Base has many user following thing relationships has ma
从 Ruby on Rails 3.2.6 中的 Paperclip 生成的文件中删除问号

我正在使用 Paperclip FFMPEG 将视频文件上传到我的开发环境并最终在我的项目投入生产时上传到本地服务器视频上传时默认文件名如下 system modelnames paperclipnames mynewfile mp4
如何检查用户电子邮件的唯一性并将结果传递给 jQuery？

我有这个问题我正在控制器中检查用户电子邮件并发送 json 成功响应如果已获取并添加输入的 css 样式我还需要阻止提交并添加一些消息这是我的检查电子邮件操作使用本文 http paydrotalks com posts 45
Rails 未定义“2013-03-06”的方法“strftime”：字符串

我收到错误 2013 03 06 的未定义方法 strftime 字符串当尝试使用 strftime 从字符串 2013 03 06 正常显示日期 2013 年 6 月星期日 3 日或类似的日期时在我的 index html erb
实施单表继承后，Rails 路由损坏

我已经为 person 类实现了单表继承 class Person lt ActiveRecord Base end class Teacher lt Person end class Student lt Person end class
从标签中提取 HTML5 数据属性

我想从标签中提取所有 HTML5 数据属性就像这个 jQuery 插件 http www orangesoda net jquery dataset html 例如给定 span class highlight Joe Bloggs s
ruby on Rails“usr/bin/env：‘ruby2.3’：没有这样的文件或目录”

我打字时遇到问题bundle exec rake db migrate在终端上然后我收到了类似 usr bin env ruby2 3 No such file or directory 的结果我遇到了同样的问题但是运行时 rails
为什么我不能“string”.print()？

我的理解print 在 Python 和 Ruby 以及其他语言中它是字符串或其他类型上的方法因为它的语法非常常用打印嗨 works 那么为什么不呢 hi print 在 Python 中或 hi print在红宝石工作当你
供用户使用的 Rails 模型结构

我是 Rails 新手正在开发我的第二个 Rails 应用程序该应用程序将为用户提供不同的角色但某些用户将具有多个角色该网站的每个用户都将是艺术家一些用户将担任主持人的角色我将如何构建这个在我使用的一些 PHP 应用程序中只
在出错之前如何检查 nilClass 的未定义方法？

我目前正在使用以下内容 20 p Status p 但是我仍然收到以下错误 ActionView TemplateError undefined method status for nil NilClass on line 20 of a
如何在 Ruby 2.0 中使用调试器？

我知道调试器 gem 不会也永远不会与 ruby 2 0 per 兼容正式支持ruby 2 X https github com cldwalker debugger issues 47 issuecomment 44027702 Ruby
检查数组元素的大小是否相同

有没有最好最有效的方法来检查数组元素的大小是否相同 1 2 3 4 5 gt false 1 2 3 4 5 6 gt true 我有什么 def element of same size arr arr map size uniq si

随机推荐

在扭曲协议中定期运行函数

我正在寻找一种方法来定期通过连接到 TCP 端口的所有客户端发送一些数据我正在看扭曲的Python 我知道reactor callLater 但是我如何使用它定期向所有连接的客户端发送一些数据数据发送逻辑位于Protocol类中由反应
AbstractDataTable fireTableDataChanged() 不刷新jtable

我在向 jtable 添加数据时遇到困难它首先从集合中加载数据使用 jtextfield 添加新数据当然数据已添加到调试过的集合中但我无法在 jtable 中显示新添加的日期我已经尝试了所有可能的方法但无法成功下面的代码是我工作
为样式表创建有效的条件注释，不会出现“虚假注释”验证器错误

我的 head 标签中有以下内容
启动画面不会将焦点返回到主窗体

我大家目前我在使用启动画面时注意力不集中我使用的是 VS2008 带有 NET Framework 2 0 另外我已将我的项目与 VisualBasic dll 链接起来因为我使用 ApplicationServices 来管理我
该页面的状态信息无效并且可能已损坏

在 Internet Explorer 中浏览我的 asp net 页面时我收到以下错误在 Firefox 或 Mozilla 中一切正常我尝试了不同的方法因为我认为 VIEWSTATE 存在以下问题
哪些 C++0x 标头应该定义 nullptr？

现在 C 0x 即将到来我一直在尝试它特别是使用 nullptr 我无法弄清楚如果需要使用它应该包含哪些标准头文件任何帮助表示赞赏不需要标头它是一个内置关键字 lex nullptr 2 14 7 指针文字 lex nullpt
可以索引子查询吗？

我有一个表和一个查询如下所示有关工作示例请参阅此SQL小提琴 http sqlfiddle com 2 762a82 13 SELECT o property B SUM o score1 w score FROM o INNER J
最长匹配子串

如何在 varchar 变量中搜索最长的匹配项例如表 GOB 的条目如下 magic word prize sh 0 20 sha 0 40 shaz 0 60 shaza 1 50 我想编写一个 plpgsql 函数它在其他参数中接
在Github上，将PR合并到不同的分支

假设有人在 Github 上向 public master 提交了一个 PR 有没有办法将该 PR 合并到不同的分支中否则看起来我必须合并到 public master 中然后将其向后合并到开发登台分支中这就像让人们做一个修补程序
线程并获取连接电话的 COM 端口

我有以下代码 using System using System Collections Generic using System ComponentModel using System Data using System Drawing
如何使用python绘制彩色扇形？

我需要可视化传感器的视场因此我需要使用 python matplotlib 绘制一个扇区并用颜色 alpha Use a 楔形艺术家 http matplotlib org api artist api html matplotlib
将大型 CSV 从 Cloud Storage 导入 App Engine 数据存储区

我有一个大的 CSV 文件大约 1 GB 大并且想要在数据存储中创建实体每行一个实体该 CSV 文件当前驻留在 Google Cloud Storage 中有没有一种干净的方法来做到这一点我可以在网上找到的所有示例似乎都依赖于本
DataTriggerBehavior 不适用于 Enum？

我正在尝试使用DataTriggerBehavior来自行为 SDK 但它似乎不适用于枚举否则我做错了什么您可以假设DataContext对于这些例子来说是这样的 INotifyPropertyChanged已实现但我不打算在这里展示
即使服务帐户具有“所有者”权限，也会引发权限不足的错误

In 谷歌云平台我创建了一个服务账户并分配了OWNER and 服务帐户参与者 role 当我运行下面的命令时 gcloud container clusters get credentials travis test zone us ce
我有一些关于 WebView 的问题

我无法正确使用WebView 当我运行我的应用程序时出现使用什么窗口和按钮浏览器 Chrome 排序单击取消时没有任何反应我的代码没有错误我真的不知道如何正确使用WebView 请帮我使用什么窗口 https i st
Redis 流水线执行顺序

我正在使用 rub redis gem 想知道我是否这样做例如 redis pipelined do REDIS del users current user id i unread REDIS lpush users current u
如何附加到切片指针接收器

我有一个切片的类型别名当切片是指针接收器时我希望能够附加到切片或切片中的过滤器 package main import fmt type itself string func h itself appendToItself test
需要同意才能将文件的所有权转让给其他用户 [Google Drive API]

我有一个与 1 个用户所有者 Gmail 帐户和第二个用户作者 Google 服务帐户如 iam gserviceaccount com 共享的 Google 表格文件我使用此函数由用户 2 从用户 1 复制表并再次使复制文件的
管理 JavaScript 应用程序的时区和 DST 问题

我正在尝试创建一个调度应用程序前端 UI是使用JavaScript开发的后端是一个 ASP NET Web Api 应用程序使用 MSSQL 服务器作为数据库从 UI 中用户将安排一个可以每天每周每月运行的作业每个作业最多可
使用 Nokogiri（而不是 Tidy）清理 HTML

The tidygem 不再维护并且存在多个内存泄漏问题有些人建议使用Nokogiri 我目前正在使用以下方法清理 HTML Nokogiri HTML DocumentFragment parse html to html 不过我有两

使用 Nokogiri（而不是 Tidy）清理 HTML

使用 Nokogiri（而不是 Tidy）清理 HTML 的相关文章

随机推荐

热门标签