Puppeteer：如何使用 chrome 无头浏览器 api 下载文件？

2024-03-23

使用 Puppeteer，如何让无头 chrome 浏览器下载文件（或发出额外的 http 请求并保存响应）？

你可以使用这个代码

const axios = require('axios');
const fs = require('fs');

const response = await axios({
  method: 'GET',
  url: href,
  responseType: 'stream',
})
const writer = fs.createWriteStream(path.resolve(`${__appRootDir}/public/${fileName}`))
response.data.pipe(writer)
writer.on('finish', async () => {
  try {
    console.log('File downloaded');
    await browser.close()
  } catch (error) {
    console.error('Error in finish callback:', error);
  }
});

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

webscraping

googlechromeheadless

puppeteer

Puppeteer：如何使用 chrome 无头浏览器 api 下载文件？的相关文章

如何在Scrapy中迭代div？

这可能是一个非常微不足道的问题但我是 Scrapy 的新手我试图找到问题的解决方案但我只是看不出这段代码有什么问题我的目标是废弃给定网站上的所有歌剧节目每个节目的数据都位于一个具有 row fluid row performanc
使用 BeautifulSoup 抓取网页中的链接标题和 URL

我有一个流行文章的网页我想抓取每个引用网页的超链接及其所显示文章的标题我的脚本所需的输出是一个 CSV 文件其中在一行中列出了每个标题和文章内容因此如果该网页上有 50 篇文章我想要一个包含 50 行和 100 个数据点的文件
美丽汤无法“获取”完整网页

我正在使用 BeautifulSoup 来解析来自的一堆链接但它并没有提取我想要的所有链接为了尝试找出原因我将 html 下载到 web page html 并运行 soup BeautifulSoup open web page ht
在需要身份验证的地方使用 BeautifulSoup

我正在使用 BeautifulSoup4 和 Python 请求为公司项目抓取 LAN 数据由于该网站有登录界面因此我无权访问数据登录界面是一个弹出窗口不允许我在没有登录的情况下访问页面源或检查页面元素我得到的错误是这样的访问错
Puppeteer 页脚仅显示在最后一页

我的 Puppeteer 的 footerTemplate 参数有问题页脚仅显示在文档的最后一页我希望它显示在文档的每一页上嗯页脚也许我没有正确使用参数这是我的 Puppeteer pdf 生成 const browser aw
如何抓取 javascript 哈希链接内容？

您好我对使用 Puppeteer 进行网页抓取有点陌生目前我面临下一个问题在我尝试提取信息的网站中我有一个带有典型 js 分页的引导表例如以下示例 https getbootstrap com docs 4 1 component
当使用客户端函数填充 DOM 时，如何等待从 puppeteer 中的 page.evaluate 函数加载所有图像

我试图让代码执行等待所有图像加载之前木偶师截屏当调用 initData 函数时我的 DOM 会被填充该函数是在客户端 js 文件中定义的延迟或超时是一种选择但我确信必须有一种更有效的方法来做到这一点 async dataObj g
使用 ImportXml 在 Google Sheets 中抓取图像

我正在使用 Google Sheets 尝试从房地产网站上抓取图像以将其显示在单元格中以及房产详细信息旁边我已经能够使用一个简单的示例证明这是可能的但是当我尝试制定 xpath 查询来抓取我需要的特定图像时我不断收到错误作为一个工
在单词后获取文本——R Webscraping

几周前这里有人帮助我极大地获得了名人数据库中所有链接的列表我能够运行此代码并获得以下输出 library purrr library rvest url base lt https www nndb com lists 494 0000
R 中的网页抓取表

完全菜鸟试图抓取此页面上的表格我所能做的最远的是加载 rvest 包我的问题是我找不到合适的元素我通过检查器尝试的元素是 table w782 comm lsjz 但它返回长度为0的列表并在 html table 之后执行 gt
VBA - 从 Internet Explorer 的框架通知栏中选择另存为

我正在尝试通过以下方式下载另存为的文件框架通知栏的互联网浏览器然而经过大量搜索后我只找到了点击解决方案save在框架通知栏上到目前为止我一直在尝试另存为示例站点上的文件 http www tvsubtitles net subti
如何在 Python 中使用 Selenium 运行无头 Chrome？

我正在尝试使用 selenium 进行一些操作我真的希望我的脚本能够快速运行我认为使用无头 Chrome 运行我的脚本会使其速度更快首先这个假设是否正确或者我是否使用无头驱动程序运行我的脚本并不重要我希望无头 Chrome 能够
R 在 readHTMLTable 调用维基百科时崩溃

尝试抓取维基百科页面类似的事情我之前已经做过很多次了 library XML myURL lt http en wikipedia org wiki List of US Open MenUs Singles champions y lt
抓取多个帐户，即多次登录

我可以成功抓取单个帐户的数据我想在一个网站上抓取多个帐户这意味着多次登录如何管理登录注销您可以在每个帐户会话中使用多个 cookiejar 并行抓取多个帐户请参阅 cookiejar 请求元密钥http doc scrapy o
从 Puppeteer 中的 page.evaluate 获取元素？ [复制]

这个问题在这里已经有答案了我正在与Node js and 傀儡师第一次找不到输出值的方法page evaluate到外部范围我的算法 Login Open URL Get ul 循环每个li然后点击它等待innetHTML要设置并添
网页抓取（R 语言？）

我想获取中间栏中的公司名称this http www consumercomplaints in bysubcategory mobile service providers page 1 html页面以蓝色粗体书写以及登记投诉者的位置
如何像在浏览器中一样检索准确的 HTML

我正在使用 Python 脚本来呈现网页并检索其 HTML 它适用于大多数页面但对于其中一些页面检索到的 HTML 不完整我不太明白为什么这是我用来废弃此页面的脚本由于某种原因每个产品的链接不在 HTML 中 Link http
在浏览器中打开的 .mhtml 文件中填写输入

我想对 mhtml 文件运行 e2e 测试即填写表格在 mhtml 文件上查看和提取数据效果非常好但我无法填写任何内容input字段既不是手动也不是通过木偶操作者你可以用这个试试 mhtml 文件 https gist githu
Puppeteer 的行为与开发者控制台不同

我正在尝试使用 Puppeteer 提取此页面的标题 https www nordstrom com s zella high waist studio pocket 7 8 leggings 5460106 https www nords
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext

随机推荐

使用 PhpUnit 时 Composer 无法加载加载器

我正在尝试将 PhpUnit 与 Composer 一起使用为了这个目的我做了 1 将 phpunit 添加到 req Composer 部分 require php gt 5 3 0 require dev phpunit phpuni
在sql server 2008中将varchar转换为十进制

我将此数据作为 varchar 00072330 如何将其转换为 SQL Server 2008 中类似 723 30 的小数尝试这个 declare data as varchar 8 set data 00072330 print c
VS2015 或 NP++ 中的多行正则表达式

我需要在多个文件中替换以下模式 this dialogs 当我设置时这工作正常single line在这里标记 https regex101 com r dF2yG3 2 https regex101 com r dF2yG3 2 但是我无
python创建DDE服务器并不断发送数据

我正在尝试用 python 编写一个 DDE 服务器它需要将不断变化的字符串发送到作为 DDE 客户端连接的程序连接到 DDE 服务器的程序使用以下 DDE 设置来连接服务 Orbitron 主题 Tracking 项目 Tracki
在额外维度上扩展 NumPy 数组

在额外维度上扩展给定 NumPy 数组的最简单方法是什么例如假设我有 gt gt gt np arange 4 array 0 1 2 3 gt gt gt shape 4 gt gt gt expand np arange 4 0 6
有没有办法增加 Google Chrome 中 localStorage 的大小以避免 QUOTA_EXCEEDED ERR: DOMException 22

我编写了一个网络应用程序允许您将图像存储在 localStorage 中直到您点击保存因此如果信号较差它可以离线工作当 localStorage 达到 5MB 时 Google Chrome 会在 javascript 控制台日
在 Python 3 中查找网站中最常见的单词 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我需要使用 Python 3 代码查找并复制在给定网站上出现超过 5 次的单词但我不知道该怎么做我已经浏览了有关堆栈溢出的档案但
JQuery 在事件上加载脚本（点击）

selector click function here I would like to load a javascript file let s say js script on click event js 这有可能吗我不确定但我记
我可以在ironpython中使用命名参数和可选参数吗

我希望在ironpython中加载 net dll 但是 net dll 中的静态函数之一有一些命名参数和可选参数比如绘制重量 w 高度 h 面积 1 我只能使用完整的参数吗完全支持命名参数和可选参数 NET 长期以来一直支持 VB
为什么在非 ARC 环境中的属性上使用关键字“strong”？

我刚刚开始使用 Xcode 4 2 和 iOS5 进行开发创建空的选项卡式应用程序项目后我注意到属性上使用了新的关键字 strong 我继续读下去这个帖子 https stackoverflow com questions 670102
HTML 'class' 元素属性可以包含换行符吗？

HTML5 元素的 class 属性可以包含换行符吗规范中是否允许并且浏览器支持它吗我问这个问题是因为我有一些代码可以动态地将各种类插入到元素中这创建了一个很难管理的很长的行通常我会使用变量构建类值但我使用的 CMS 要求模板条件
Thread.start() 和 Thread.run() 有什么区别？

为什么我们称start 方法该方法又调用run method 我们不能直接打电话吗run 请举例说明有什么区别不你不能调用run就会执行run 方法在同一个线程中无需启动新线程
模板函数的模板参数

我刚刚发布了一个skiplist容器库 Sun 编译器对此有抱怨 template
canvas getContext("2d") 返回 null

我已经尝试了几种不同的方法但我一直遇到同样的错误我之前已经将图像加载到画布上但自从几天前更新了 Safari 以来我遇到了错误我将发布我目前拥有的内容但我尝试使用 jQuery html 的 onLoad 属性等来实现 var
Array 和 ArrayCollection(Flex) 的区别

数组和数组集合有什么区别首先 ArrayCollection是为Flex框架设计的它的作用就像一个Proxy对于给定的Array实例这意味着它可以侦听对源代码所做的修改Array并在发生这种情况时自行更新它还包含框架特别需要的附加方
“开始..提交；” SQLite 失败

我正在尝试学习如何使用BEGIN COMMIT在 SQLite 中我正在尝试这段代码 BEGIN INSERT INTO fields VALUES field1 COMMIT 但它失败了 Error near INSERT syntax
如何在一个视图控制器中使用两个 UIPickerView？

我有两个UIPickerControllers 在一个视图控制器中我可以让一个工作但是当我添加第二个时我的应用程序崩溃了这是我用于一个选择器视图的代码 import UIKit class RegisterJobPosition U
Tensorflow - eval() 错误：您必须为占位符张量提供一个值

我尝试使用 eval 来了解每个学习步骤中发生的情况但是如果我在 tf matmul 操作上使用 eval 那么我会收到错误You must feed a value for placeholder tensor 如果我删除了 eval
如何合并两个具有相同键名的字典[重复]

这个问题在这里已经有答案了我是Python新手正在尝试编写一个函数来合并Python中的两个字典对象例如 dict1 a 1 b 2 dict2 b 3 c 4 我需要生成一个新的合并字典 dict3 a 1 b 2 3 c 4 函数
Puppeteer：如何使用 chrome 无头浏览器 api 下载文件？

使用 Puppeteer 如何让无头 chrome 浏览器下载文件或发出额外的 http 请求并保存响应你可以使用这个代码 const axios require axios const fs require fs const resp

Puppeteer：如何使用 chrome 无头浏览器 api 下载文件？

Puppeteer：如何使用 chrome 无头浏览器 api 下载文件？ 的相关文章

随机推荐

热门标签

Puppeteer：如何使用 chrome 无头浏览器 api 下载文件？的相关文章