R - 从 URL/HTML 对象/HTML 响应写入 HTML 文件

2024-03-20

我想使用 R 中的 URL 保存 HTML 文件。我尝试在使用后保存响应对象GET and read_html的功能httr and rvest分别打包到网站的 URL 上，我想保存的 HTML。但这并不能保存网站的实际内容。

url = "https://facebook.com"
get_object = httr::GET(url); save(get_object, "file.html")
html_object = rvest::read_html(url); save(html_object, "file.html")

这些都无法将实际网站的正确输出（即 .html 文件中的网页的 HTML 内容）保存在 HTML 文件中。

Use str(object)弄清楚你正在做什么。在这两种情况下，您都试图将非文本写入文本文件。

以下是如何获取文本并使用两个库编写它......

url = "https://facebook.com"

library(httr)
get_object = GET(url)
cat(content(get_object, "text"), file="temp.html")

library(rvest)
html_object = read_html(url)
write_xml(html_object, file="temp.html")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Web

rvest

httr

R - 从 URL/HTML 对象/HTML 响应写入 HTML 文件的相关文章

REST API 与 Web API

我是构建 HTTP API 的初学者我似乎对 REST API 和 Web API 之间的区别感到困惑我在网上读到更多相关内容困惑似乎越来越多我猜菲尔丁有与此链接相同的问题http roy gbiv com untangled 20
允许获取请求但仅在我的域中？

在我的网站上我可以使用 GET 请求触发某些操作例如隐藏或删除评论的功能我不是很担心但如果有人使用 img src url 设计攻击来删除评论或电子邮件那会很烦人有办法防止这种情况吗我使用 httponlycookies 作为
如何使用 rvest R 从谷歌新闻中获取头条新闻？

我想使用 R 中的 rvest 从谷歌新闻中获取头条新闻到目前为止我已经做到了这一点 library rvest url read html https www google com search hl en tbm nws authus
VM1550 installHook.js:1860 在控制台中记录为双行

我正在使用反应应用程序并构建一个简单的应用程序当我使用 console log 方法在控制台上记录某些内容时控制台上会出现第二条日志它似乎来自第 1860 行的文件名 installHook js 我已经尝试过寻找它但我没有找到我
如何判断是哪个控件导致ViewState加载失败？

我的页面面临 Viewstate 加载问题页面有一个登录工具来登录管理员和非管理员用户当非管理员用户登录页面并单击启用了自动回发的复选框时会出现奇怪的行为错误详情如下后来我发现在左侧的导航面板中承载链接侧边栏如下图所示 Se
使用Rvest登录网站抓取时出现403错误

我试图在需要登录的网站上抓取页面但不断收到 403 错误我已经修改了我网站的这两篇文章中的代码使用rvest或httr登录网页上的非标准表单 https stackoverflow com questions 28418770 usi
用于网站的 Git / 接收后 / 测试站点和生产站点的分离

我使用 Git 来管理网站的源代码和部署目前测试站点和实时站点在同一个机器上运行关注此资源http toroid org ams git website howto http toroid org ams git website how
清除 Laravel 队列缓存而不重新启动

在我的应用程序中每个客户都有一种复杂的类我们在其中为该特定客户进行一些搜索和替换我运行队列工作人员每天与 eBay 同步以便每个客户进行某种搜索和替换问题是 Laravel 队列会缓存代码很长一段时间如果我想去更改任何客户类文件
从 Unity WebGL 调用 Angular2 函数

目前我正在使用 Angular2 版本 2 1 2 和 Unity 可视化工具使用 Unity 5 5 构建我需要做的是从 Unity 到 Angular2 进行通信我正在使用类似于下面的代码 public void GetBill
在 html 中创建子页面 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案假设我有一个网站http www example com http www example com 如何为此页面创建更多子页面即 w
HTML if 语句在 CDN 失败时加载本地 JS/CSS

当从 CDN 或任何外部服务器加载 CSS JS 文件时有可能即使概率很低由于外部故障而丢失该文件在这种情况下 html 页面将因缺乏适当的 CSS 和 JS 而被损坏有没有一种实用的方法可以在 CDN 故障时加载本地版本 IF
asp.NET 2.0网站无法访问App_Code中的类

将我的网站部署到服务器后我在访问课程时遇到问题请注意这是一个网络Site不是网络应用错误是编译器错误消息 CS0246 找不到类型或命名空间名称 Order 是否缺少 using 指令或程序集引用版本信息 Microsoft N
Django - 缺少 1 个必需的位置参数：'request'

我收到错误 get indiceComercioVarejista 缺少 1 个必需的位置参数要求当尝试访问 get indiceComercioVarejista 方法时我不知道这是怎么回事 views from django ht
如何保护我的网站免遭 HTTrack 或其他软件的翻录？

我最近获得了批准的网站模板主题森林 http themeforest net 我的网站流量过多并注意到我在 Themeforest 上的演示被 HTTrack 等某些软件破坏如果这种情况持续下去该产品的销量最终可能会下降那么有什么
为什么使用HTTP协议时需要指定端口号？

即使我们使用HTTP协议为什么还需要用IP地址指定端口号例如 http xyz 8080 这到底是什么意思我们已经知道在使用 HTTP 时请求将在端口 80 上提供服务那么为什么我们要显式指定端口呢 HTTP 的默认端口为 80
如何防止桌面浏览器（Chrome、Safari）缩放网页

我尝试使用以下元视图端口标记来防止浏览器缩放但这不起作用我知道这是可能的因为我的缩放在此网站上被阻止未来主义 xyz http futurism xyz 该网站的视口标签是这样的
IIS 8 HTTPS/需要 SSL 导致超时错误

尝试通过 IIS 8 通过 SSL 发布网站但出现超时错误任何帮助表示赞赏采取的步骤已验证该网站可以通过 HTTP 访问 http xxx xxx xxx xxx有效此时使用 IP 地址如果重要的话 IIS gt 服务器证书 g
powershell Invoke-WebRequest WebSession 不起作用

我无法让以下代码工作它似乎已登录但随后返回带有 response 的登录页面我猜这与回发有关有办法解决这个问题吗谢谢 login Invoke WebRequest Uri http www sqlpass org UserLog
给定数十亿个 URL，如何确定重复内容 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我在一次编程面试中被问到这个问题我在下面详细描述了这个问题这是一个开放式问题给定数十亿个 URL 深层链接我如何对哪些 URL
如何从文件系统访问 api window.showDirectoryPicker() 获取选定的目录路径

当我选择一个文件夹时我确实得到了 dirHandle 但无法弄清楚什么属性或方法将为我提供完整路径 const dirHandle await window showDirectoryPicker 所以类似 let path dirHan

随机推荐

最好的 SQL Server 性能优化技术是什么？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我始终采取的方法是首先使用最少的索引集部署数据库然后根据性能要求添加更改索引这种方法效果相当好但是它仍然没有告诉我可以在哪里
Rails 4.0 的自定义错误处理

我正在使用 Ruby 2 0 和 Rails 4 0 构建 Ruby on Rails api 我的应用程序几乎只是一个 JSON API 因此如果发生错误 500 404 我想捕获该错误并返回格式良好的 JSON 错误消息我试过了thi
子集化 data.frame 时的 NA 会发生一些意想不到的事情

考虑以下代码当你没有明确测试NA在您的情况下该代码将在稍后您的数据发生更改时失败 gt A toy example gt a lt as data frame cbind col1 c 1 2 3 4 col2 c 2 NA 2 3 c
如何使 MapView 对象透明（alpha）？

All 我需要在 MapView 对象上显示信息那里没有问题问题是有时 MapView 对象显示的地图详细信息在视觉上与我的叠加数据相竞争因此我想做的是提供一种通过使用 alpha 通道在视觉上缩小 MapView 对象的方法
如何自动检测用户的时区？

您好我正在创建一个网络应用程序如果用户注册我们将显示创建日期为此我们在我的sql表中使用当前时间戳它显示服务器时间但我们不知道如何根据用户时区转换时间因为我们不是获取用户所在国家地区任何人都可以帮我解决它吗提前致谢使
“return 0”和“exit (0)”之间的区别[重复]

这个问题在这里已经有答案了有什么区别吗return 0 and exit 0 在函数中使用时如果是我应该什么时候使用return 0 or exit 0 在一个函数中 return退出该函数同时exit退出程序 In main函数执
backbone.js 收集事件

我开发了一个 jquery 和backbone js 网络应用程序一个组件有一个 html 表该表后面是一个backbone js 集合该集合中的任何更改都会导致 html 表的更新所以我写 this collection bind
UITableView重新加载数据

我正在为 iPhone 制作一个基于导航的应用程序我的视图控制器之一如下所示 interface NewComputerViewController UIViewController
什么时候会使用 BRICK 权限？

在Android中曾经有一个名为BRICK http developer android com reference android Manifest permission html BRICK可用于潜在地禁用该设备除了将其视为都市神话
除 None 之外的任何类型的 Mypy 注释[重复]

这个问题在这里已经有答案了我怎样才能注释一个类型除了None 换句话说这个类型是Any但不是None 你可以做Union int str 但排除None来自那个工会
Scala Futures 如何与 flatMap 链接在一起？

我正在 Scala 中首次使用 Futures 并且正在研究使用 flatMap 组合器的示例我一直在关注这个讨论 http docs scala lang org overviews core futures html http doc
当构建系统已引用 System.Core 时，添加对 System.Core 的引用

即使项目已生成 Visual Studio Intellisense 也无法识别动态关键字我尝试添加对System Core来解决问题我收到此错误无法添加对 System Core 的引用该组件是已经被构建系统自动引用我注意到我
从 Eclipse 和命令行运行时，BufferedImage 字节具有不同的字节顺序

我试图转换一个BufferedImage s byte 从 32 位 RGBA 到 24 位 RGB 根据这个答案 https stackoverflow com a 9470843 2581401最快的方式获得byte 从图像中可以看出
AWS - 对预检请求的响应未通过访问控制检查：请求的资源上不存在“Access-Control-Allow-Origin”标头

我对 AWS 还很陌生所以请耐心等待我目前正在制作一个具有上传照片功能的网络应用程序我想将这些照片保存在 S3 存储桶中并将对它们的引用保存在我的数据库中我目前正在遵循本指南 http docs aws amazon com sd
生成所有可能的字符串组合

我正在尝试生成字符串的所有可能组合例如对于以下列表 a1q5z H9 b1q5z H9 c1q5z H9 d1q5z H9 a2q5z H9 等我不想做很多嵌套循环而是想用 MODULO 尝试一些聪明的东西但碰壁了这是我想出的 J
NHibernate Session.SetReadOnly

我面临着其他人已经在 SO 上发布的同样问题在从数据库读取对象时 NHibernate 会更新所有对象因为数据库中一个字段的值不正确详细来说新添加的日期列在所有行中都包含 1 1 0001 因此在映射时 NHibernate 会替换
jQuery URL 分割和抓取

所以我有一个 URL 并且我知道如何从 URL 获取 GET 但我的 URL 是http www example com edit 2695 有没有办法抓取网址并在之后吐出部分我想要编辑和 ID 您可以使用此代码 var url http
Django 时间问题

我在 django 中的应用程序需要告诉用户操作发生的时间除了询问用户他她所在的时区之外我是否可以在客户端生成时间在我的脑海中是否有一个与时区无关的时间的特定表示 unix时间然后我可以简单地将其粘贴到html中并让客户端浏览
如何为该月中的几天提供后缀？

我需要一个函数在显示等文本时返回几天的后缀th in Wednesday June 5th 2008 它只需要处理数字 1 到 31 不需要错误检查和英语这是一个也适用于更大数字的替代方案 static const char dayS
R - 从 URL/HTML 对象/HTML 响应写入 HTML 文件

我想使用 R 中的 URL 保存 HTML 文件我尝试在使用后保存响应对象GET and read html的功能httr and rvest分别打包到网站的 URL 上我想保存的 HTML 但这并不能保存网站的实际内容 url ht

R - 从 URL/HTML 对象/HTML 响应写入 HTML 文件

R - 从 URL/HTML 对象/HTML 响应写入 HTML 文件 的相关文章

随机推荐

热门标签

R - 从 URL/HTML 对象/HTML 响应写入 HTML 文件的相关文章