在 R 中解析 HTML 文件

2023-12-21

我想从网站读取 HTML 文件。具体来说，我想从 gutenberg.org 阅读 HTML 格式的书籍。每章的标题用标签“h2”标记，每章的内容在“h2”之后的段落标签“p”中。使用 XML 包，我可以获得每个标签的值或完整的 HTML 代码。

以下是使用 George Elliot 的 Middlemarch 的示例代码：

library(XML)

doc.html = htmlTreeParse('http://www.gutenberg.org/files/145/145-h/145-h.htm',
                         useInternal = TRUE)
doc.value <- xpathApply(doc.html, '//h2|//p', xmlValue)
doc.html.value <- xpathApply(doc.html, '//h2|//p')

doc.value 包含一个列表，其中每个元素都是标签的内容，但我不知道是 h2 标签还是 p 标签。另一方面，doc.html.value 包含一个列表，其中包含每个标签的 html 代码。这为我提供了它是“h2”还是“p”标签的信息，但它还包含许多我不需要的额外代码（如样式信息等）。

我的问题：是否有一种简单的方法可以仅获取标签的类型和标签的值，而不获取与其关联的其他信息？

查看文档xmlValue表明还有另一个函数，其名称为xmlName，它仅提取标签的名称。使用这两个，可以计算出你想要的：

doc.html.name.value <- xpathApply(doc.html, '//h2|//p', function(x) { list(name=xmlName(x), content=xmlValue(x)); })

> doc.html.name.value[[1]]
$name
[1] "h2"

$content
[1] "\r\nGeorge Eliot\r\n"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 R 中解析 HTML 文件的相关文章

如何使用autoconf重新生成配置文件？

我使用 autoconf 重新生成配置文件它有效但是当我执行生成的配置文件时 configure 有一些错误消息例如 configure line 3713 syntax error near unexpected token bla
R data.table 多个条件连接

我设计了一种解决方案用于从两个单独数据表的多个列中查找值并添加基于新列的值计算多个条件比较代码如下它涉及在计算两个表中的值时使用 data table 和联接但是这些表没有联接在我正在比较的列上因此我怀疑我可能无法获得 da
无限水平滚动图像循环？

所以我试图在我的网站上创建一个无限滚动动画但我一直在努力原始教程在这里使用 6 张图像最后重复 4 张图像以实现无缝过渡 https designshack net articles css infinitephotobanner
底部带有三角形的 div 和背景图像

我想做一个div 有一个底部的三角形但我需要三角形上的背景图像为了出现我尝试使用伪元素 after 但它不起作用 homebg after content position absolute top 100 left 0 right 0
HTML5 视频自动播放功能在 fullpage.js 中不起作用

我的 HTML5 视频自动播放不起作用
如何在R中匹配具有相同主键的两个表中的数据

我有两个表其中包含有关人员的数据 df1 lt data frame id c 113 202 377 288 359 name c Alex Silvia Peter Jack Jonny 这为我提供了 id name 1 113 Al
根据属性值使用 xslt 合并两个元素

这是我的源文件的样子
在具有子项的“contenteditable”div 中设置插入符位置

我有一个这样的 HTML 结构 div This is some plain boring content div 我还有这个函数允许我将插入符位置设置到 div 中我想要的任何位置 Move caret to a specific po
XML 创建 - 错误：带有替代方案的重载方法构造函数 UnprefixedAttribute

scala gt val count 7 count Int 7 将其放入 XML 属性中会出现错误 scala gt val x
检查 XML 元素是否存在

如何验证 XML 文件中是否存在特定元素假设我有一个不断变化的 XML 文件我需要在读取解析它之前验证每个元素是否存在 if doc SelectSingleNode mynode null 应该这样做显然其中 doc 是您的 X
空间数据xyz到矩阵

我有一个大数据框 100 000 行其中包含 LON LAT VALUE 我想将其转换为矩阵 EPSG 中的坐标 3035 我使用以下命令尝试了 reshape2 包 acast df lon lat value var value 效果
zsh：未找到命令：使用 Big Sur Mac 的终端上的 R

我从官方 cran 网站安装了 R 我可以从 Rstudio 运行 R 但是当我尝试从终端使用 R 时我得到以下结果 base ege Eges MBP R zsh command not found R base ege Eges MB
在 Chrome 中为

我已经看到这个问题多次出现但没有任何明确的解决方案我正在加载一个简单的视频
仅在 Chrome 上我收到此错误：Uncaught TypeError: Illegal constructor [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案当我在 Chrome 上加载 jQuery 时我会收到此错误 Uncaught TypeError Illegal constr
MSMQ接收和删除

是否有任何选项可以在读取消息后将其从 MSMQ 中删除比如接收删除可以作为原子操作运行吗听起来您想查看下一条消息然后在处理完成后接收它 Message message Queue Peek Queue ReceiveById me
使用 # 时锚点标签在 Chrome 中不起作用

这是我在页面上使用的代码 li a href explore Sound Sound a li 在所有页面上出现的菜单中 a a 在我想要链接的页面上我尝试过使用 id 将内容添加到标签中但仅在 Chrome 中浏览器不会向下滚动到该
嵌套 DIV 的类似斑马的 CSS 样式

我嵌套了 DIV 元素但我不知道嵌套的级别我需要每个都有与其父级不同的背景创建类似斑马的颜色我只使用两种背景深色和白色效果需要类似于在容器中设置奇数和偶数子级的样式但在我的例子中子级是嵌套的我可以使用每个嵌套元素的规则来做
将两个数字相加将它们连接起来而不是计算总和

我将两个数字相加但没有得到正确的值例如做1 2返回 12 而不是 3 我在这段代码中做错了什么 function myFunction var y document getElementById txt1 value var z do
使用 File API polyfill 读取数据 URL

我正在尝试使用文件 API 库 https github com mailru FileAPI https github com mailru FileAPI 作为不支持文件 API 的浏览器的后备以便将文件作为数据 URL 读取并将其传
通过 R 中的数据子集执行计算

我想对数据框的 PERMNO 列中的每个公司编号进行计算其摘要可以在此处查看 gt summary companydataRETS PERMNO RET Min 10000 Min 0 971698 1st Qu 32716 1st Qu

随机推荐

使用 cxf 和 java 第一种方法编写异步服务

我需要使用 cxf 和 java 第一种方法创建一个异步 Web 服务但我无法找到任何可以告诉我如何执行此操作的网络资源网站吗您能告诉我如何使用 CXF 和 java 第一种方法编写异步 Web 服务吗 Thanks Shekhar
FMDB开放数据库

我正在尝试打开资源中项目中的数据库问题是好像找不到数据库文件我尝试使用完整路径它有效但这不是一个好的解决方案我现在想知道如何打开它我正在使用这段代码 db FMDatabase databaseWithPath bbdd sql
htaccess 从 url 中删除字符并重定向

我想脱衣来自网址例子 mysite com something想要重定向到mysite com something 通过启用 mod rewrite 和 htaccesshttpd conf然后将此代码放入您的 htaccess und
Select2：如何防止标签排序

当用户选择许多项目标签时它们会自动按字母顺序排序如何使用Select2 4 0防止自动排序并保留用户的顺序 Update 提到的可能的重复问题适用于旧版本的 Select2 v3 我询问版本 4 它与旧版本不同并且提到的答案不
flake8 抱怨过滤器子句中的布尔比较“==”

我在 mysql 数据库表中有一个布尔字段 table model class TestCase Base tablename test cases obsoleted Column obsoleted Boolean 要获取所有未过时测试
本地修改数据的 Firebase 同步：处理错误和全局状态

我有两个相关问题Firebase 网络平台 https www firebase com docs web s 将本地修改的数据同步到服务器 https www firebase com docs web guide offline cap
不可变的@ConfigurationProperties

Spring Boot 是否可以拥有不可变最终字段 ConfigurationProperties注解下面的例子 ConfigurationProperties prefix example public final class My
在xml中引用xsd时xsl转换问题

我对 XSL 相当陌生需要有关转换问题的帮助我有一个由 XSD 描述的 XML 文件我使用 XSL 文件将 XML 转换为 HTML 我想在 XML 文件中引用 XSD 但是当我这样做时 XML 不会被转换 XML 示例
您可以将宽度应用于 :before/:after 伪元素 (content:url(image)) 吗？

这是我最近的问题的补充是否可以使用伪元素使包含元素环绕绝对定位元素如clearfix https stackoverflow com questions 14977324 is it possible to use pseudo ele
Android：进度对话框在加载时更改 ProgressDialog.setMessage()

我希望有人可以帮助我弄清楚如何仅使用一个虚拟计时器来更改进度对话框中的设置消息对话框该虚拟计时器通过字符串数组或任何其他方式循环例如在加载时它可以说正在加载 gt 构建 gt 渲染 gt 等就像一个 1 2 秒计时器这只是为了我
为什么 DYLD_LIBRARY_PATH 没有在这里传播？

我有一个简单的 C 程序我试图运行该程序该程序与我之前构建的 Boost Thread 库的版本链接我似乎无法理解运行时库路径在 OS X 上的行为方式由于我的 Boost 库没有RPATH 相对安装名称 https develop
printf 双精度数的舍入行为

有人可以解释这种行为吗我很清楚浮点数的机器级表示这似乎与 printf 及其格式有关这两个数字都用浮点表示法精确表示检查乘以 64 给出一个整数 include
如何将音频文件从android客户端发送到servlet服务器

我想将音频文件 mp3 文件从 android 客户端发送到 servlet 服务器并将其保存在某个位置如果我在该位置播放保存的 mp3 文件它应该可以播放我的问题是有没有办法将 mp3 文件直接从客户端发送到服务器并在 servle
防病毒软件正在阻止 nodemailer - 错误：证书链中的自签名证书

我正在使用 Nodemailer 发送电子邮件但我的防病毒软件阻止了 Nodemailer 当我关闭防病毒软件时发送电子邮件没有问题有没有可能的方法使用nodemailer发送电子邮件而不禁用防病毒软件 const transport
是否可以开发具有蓝牙功能的 iOS 应用程序？

以下情况可能吗假设我有一个具有蓝牙功能的秤当我打开它时它会通过 BT 发送重量从技术上讲是否可以开发一款与体重秤配对并从中接收数据的 iOS 应用程序据苹果公司称技术问答 QA1657 使用外部带蓝牙的配件框架设备 http
如何在 JavaScript 中围绕折线绘制多边形？

我想围绕折线绘制一个多边形在我的例子中折线是 Google 地图方向我需要在 Google 地图画布内显示其周围的多边形 First 对于偏移我使用 JavaScript Clipper 库我有以下折线路线我使用 Clippe
在php中将地球公里转换为弧度

我正在尝试将地球公里转换为弧度我知道这个问题已经在其他地方得到了回答但所有这些答案似乎都没有正确回答到目前为止我所做的是 radians km 6371 6371 is the radius of earth in Km 它是否正确
当数据库提供 ID 时添加新的 Ember.js 对象/记录

我正在尝试 Ember js Node js 和 MongoDB 我的思路基于 Ember 网站上的精彩视频使用 Node js Express 和 MongoDB 创建 REST API 我在 Ember js 方面遇到了障碍试图让我
Django：如何重写authenticate()方法？

我用的是自定义的User 我有一个email verified该用户的字段我希望当用户登录时如果此字段为false 我做不到views py因为用户可以从各种来源登录 Django 站点也可以从 REST API 登录整个目的是避免
在 R 中解析 HTML 文件

我想从网站读取 HTML 文件具体来说我想从 gutenberg org 阅读 HTML 格式的书籍每章的标题用标签 h2 标记每章的内容在 h2 之后的段落标签 p 中使用 XML 包我可以获得每个标签的值或完整的 HTML

在 R 中解析 HTML 文件

在 R 中解析 HTML 文件 的相关文章

随机推荐

热门标签

在 R 中解析 HTML 文件的相关文章