Puppeteer - 如何获取当前页面（应用程序/pdf）作为缓冲区或文件？

2024-06-25

使用 Puppeteer (https://github.com/GoogleChrome/puppeteer https://github.com/GoogleChrome/puppeteer），我有一个页面是申请/pdf. With headless: false，页面是通过 Chromium PDF 查看器加载的，但我想使用 headless。如何下载原始 .pdf 文件或将其用作另一个库的 blob，例如 (pdf-parsehttps://www.npmjs.com/package/pdf-parse https://www.npmjs.com/package/pdf-parse)?

由于 Puppeteer 目前不支持通过无头模式导航到 PDF 文档page.goto() https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md#pagegotourl-options因为上游问题 https://bugs.chromium.org/p/chromium/issues/detail?id=761295，您可以使用page.setRequestInterception() https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md#pagesetrequestinterceptionvalue启用请求拦截，然后就可以监听'request' https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md#event-request事件并在使用请求客户端获取PDF缓冲区之前检测资源是否为PDF。

获得PDF缓冲区后，可以使用request.abort() https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md#requestaborterrorcode要中止原始 Puppeteer 请求，或者如果请求不是 PDF，您可以使用request.continue() https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md#requestcontinueoverrides正常继续请求。

这是一个完整的工作示例：

'use strict';

const puppeteer = require('puppeteer');
const request_client = require('request-promise-native');

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();

  await page.setRequestInterception(true);

  page.on('request', request => {
    if (request.url().endsWith('.pdf')) {
      request_client({
        uri: request.url(),
        encoding: null,
        headers: {
          'Content-type': 'applcation/pdf',
        },
      }).then(response => {
        console.log(response); // PDF Buffer
        request.abort();
      });
    } else {
      request.continue();
    }
  });

  await page.goto('https://example.com/hello-world.pdf').catch(error => {});

  await browser.close();
})();

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Puppeteer - 如何获取当前页面（应用程序/pdf）作为缓冲区或文件？的相关文章

客户端 GitHub 身份验证

我正在使用 Javascript 对 GitHub 进行基本身份验证例如以下 shell 命令从 Github 获取令牌 curl i u uaername password k d scopes repo https api gith
使用 mongoDB 插入子文档

我收集了以下文件 id 2 workspace name 1 widgets name 2 widgets name 3 widgets name 4 widgets 我怎样才能插入 id 1 blabla blabla 在小部件中的
禁用拉斐尔论文上的浏览器上下文菜单

我有一篇拉斐尔论文定义为R1 Raphael 0 0 800 600 我想在本文中禁用上下文菜单以便我可以捕获鼠标右键单击事件我没有这样的Raphael someDiv 800 600 禁用 div 的 oncontextmenu 属性
通过标记或JS强制下载

假设我在 CDN 来自 Rackspace 的云文件上有一个文件以及一个包含该文件链接的静态 html 页面有什么方法可以强制下载此文件以防止它在浏览器中打开例如 mp3 我们可以让我们的服务器读取该文件并将相应的标头设置为 he
`forEach` 函数中的 `return` 关键字是什么意思？ [复制]

这个问题在这里已经有答案了 button click function 1 2 3 4 5 forEach function n if n 3 it should break out here and doesn t alert anyth
为什么 jQuery 对损坏标记的解释与浏览器不同？

我之前已经回答过这个问题 https stackoverflow com a 19101905 1253312 但我并不完全理解why答案是正确的答案的要点 p p function jqrender html a href http w
同心放射圆 d3

我有一个等距值的数组我用它来绘制同心圆我想使用一种散发效果本质上是一旦最外面的圆的值超过最大值就将其删除并在中心添加一个新的圆来补偿我不确定如何操作数据集来删除和添加新圆圈
在 Bootstrap 选择器上使用 jQuery 取消选择选项

我对一些 UI 元素使用 Bootstrap SelectPicker 它允许用户选择多个选项并将其呈现在段落标签中的屏幕上他们还应该能够删除选定的选项这是我的代码用于将选定的选项渲染到屏幕上以便每个选项旁边都会显示一个 X 单击它
重复 Pinterest Facebook 邀请功能

I m trying to duplicate Pinterest s Invite Friends functionality In case you haven t seen what it looks like it looks li
JQuery mouseover 函数多次触发

我很长时间以来一直使用这种方法来为整个类按钮等设置事件 div bigButton mouseover function this style backgroundColor dfdfdf 然而在进行一些测试时我刚刚注意到当将鼠标
LightningChart JS - LineSeries / Progressive X 的损坏

我在使用 LightningChart 时遇到了一个有趣的问题它似乎会破坏或以其他方式减少我的数据具体取决于它与图表的 DateOrigin 的距离我的数据是每秒 1000 个样本我试图一次显示 1 2 周的数据我正在使用 Cha
在 ReactJS 中更改 URL onClick

在我的项目中我有一个TabComponent它显示 3 个选项卡首页热门全部现在我正在使用context反应维持 activetab它存储当前选项卡 toggleTab改变的方法activetab using setState 选
脚本不会从nodejs应用程序中的ejs文件运行

我正在尝试使用nodejs express mysql和ejs让网页显示图表但我显然不明白ejs javascript等是如何工作的我需要运行一个脚本来设置图表来自 Chart js 模块但它不会输出任何类型的图表我尝试过的将
过滤数据表中的行

我目前的 JQuery 插件 DataTables 工作正常并且我在页面顶部插入了一个按钮来进一步过滤列表我还使用了 DataTables 内置的搜索栏我希望按钮向下过滤表格并只显示包含特定值的行下面是我一直在做的事情但似乎没有
在 JavaScript/CoffeeScript 中确定一个数组是否包含另一个数组的内容

在 JavaScript 中如何测试一个数组是否包含另一个数组的元素 arr1 1 2 3 4 5 8 1 10 2 3 4 5 9 function name arr1 gt true 没有 set 函数可以执行此操作但您可以简单地执
在 Nodejs、pg-promise 中重建连接

在使用建立主副本 postgres 连接的场景中pg promise 有没有办法在副本中断的情况下重建这些连接而不是做process exitCode 1 在通过 initOptions 传递的错误函数中并在服务启动时仅重建工作连接
如何从 Instagram 的 media_preview 原始数据重新创建预览？

如果您从 Instagram 的 API 获取 JSON 数据您会发现media previewkey 其值是一些 Base64 编码的数据它看起来确实像一些非常小的预览二进制数据也许是压缩的 Take 这个帖子 https www
Javascript - HTML Canvas 上的 Gecko 边框半径自适应（CSS border-radius）

我试图弄清楚如何将 border radius css 属性的行为重现到 HTML 画布中所以我已经在 J avascript 中做了一些事情以便使用特定的半径对于每个角来计算给定形状的正确边界如果需要的话这是上一个问题 Gec
NodeJS 生成用于签名和验证消息的有效 PEM 密钥

Context 来自关于 Node v10 9 0 的 TLS SSL 的 NodeJS 文档 2018 年 8 月 https nodejs org api tls html tls tls ssl concepts https node
在 OpenShift 上部署 Create React App：EACCES：权限被拒绝，打开 '/home/node/app/.eslintcache'

我正在尝试使用 Dockerfile 在 OpenShift 上部署 Create React App webapp OpenShift 构建成功完成当我访问路线时我可以看到应用程序运行 1 秒然后屏幕上出现此错误 Failed to

随机推荐

为什么 Javascript 不支持lookbehind断言？

最近我意识到因有些尴尬正则表达式lookbehind assertions were not可能在Javascript 这种看似常见的断言不存在的事实原因是什么我意识到也许有其他方法可以实现同样的目标 https stackove
将字符串转换为可绘制对象

我想发出一个通知在状态栏中显示一个图标到目前为止一切顺利但实际上我希望这个图标是一个 3 个字符的字符串所以我的问题是有没有办法将我的字符串转换为Drawable将其显示为状态栏中的图标编辑我最近发现了一个具有类似功能的应用程
生成所有尺寸的android图标[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想知道是否有任何工具可以生成所有尺寸的 android 图标如 hdpi lpdi xxhdpi
有没有办法让 saveAll() 删除无关的对象？

我的主机对象有许多与其关联的选项对象在编辑表单中用户可以选择取消选择选项并保存新的关联集这是通过对发布的数据使用 saveAll 来实现的结果是主机主对象已更新更新先前关联和新关联中包含的选项关联对象并且将创建未
Objective-C 中的前向声明枚举

我在 Objective C 程序中的枚举可见性方面遇到问题我有两个头文件其中一个定义了typedef enum 另一个文件需要使用typedef d type 在直C中我会简单地 include另一个头文件但在 Objective
如何消除错误服务无效请检查您的设置并尝试

我一直在努力工作一切都很顺利只是突然间当我尝试构建我的项目时我在 xCode 中收到以下错误 1 在构建时的警报框中服务无效请检查您的设置并重试 0xE8000022 只需重新启动您的 iPod 或 iPhone 即可
const_cast 的奇怪行为[重复]

这个问题在这里已经有答案了考虑以下代码我声明了一个新的引用端通过 const cast 将其分配给 a 值然后我只需增加参考值打印地址和值 include
如何在iis上部署React Next.JS？

我有一个带有 Next Js 的 React Web 应用程序我想将其上传到我的 IIS ftp 上我应该复制 next 文件夹吗如果是为什么我在这种情况下会出错错误截图您可以在服务器上创建一个本地主机并将请求重定向到该本地主机
splice() 不更新 knockout.js 中数组的项目顺序

继之前的帖子 https stackoverflow com questions 10258086 how do i swap two items in an observablearray关于如何更新数组的顺序我遵循 Michael B
getMacAddress() 在 Android 11 中返回 null？如何获取Android 11的mac地址？

try List
在php中将png合并到多边形上

我很困惑我尝试简单地绘制一个多边形并放在上面就像一个带有透明度的 png 图层一样没有任何成功一次背景是黑色的一次多边形变得不可见这是我的 php 代码 header Content type image png The png
使用 pandas 覆盖 Excel 列同时保持格式

我正在使用一个 xlsx 文件如下所示我之前的任务是修改名为 Entry 1 和 Entry 2 的列我已将这些列存储在原始数据帧的单独切片中以便更好地概览我将让您快速浏览一下该切片的外观 gt gt gt slice df lo
将 \n 替换为 Sublime Text 中的实际新行

我该如何更换 n在 Sublime Text 中真正的编辑器显示新行如下所示 foo nbar becomes foo bar 当我查看编辑器中的文件时 Turn on Regex Search and Replace icon mos
将布尔值转换为整数值php

PHP 是否有任何内置函数可以接受布尔值并返回其等效整数 0 代表假 1 代表真当然您可以轻松创建一个函数来执行此操作我只是问 PHP 内部是否有内置函数我已经尝试过了intval 并将其投射到 int 但它们不起作用在 TRUE
ReSharper 和 Rational Team Concert (RTC) - 它们配合得很好吗？

我最近加入了一个小型开发团队该团队正在考虑新的版本控制系统由于它是大型组织的一部分因此我们很可能采用 Rational Team Concert 的公司标准我建议他们应该选择更简单的东西但我可能不会如愿我主要担心它无法与 ReS
Python Celery - 通过 pid 查找任务

也许是一个非常简单的问题我经常看到我的系统上运行着一个celery任务进程但我在使用时却找不到celery task control inspect s active 方法通常这个进程会运行几个小时我担心它是某种僵尸通常它也会消耗
递归分层父子

我有一个来自数据库的项目集合该数据库具有parentid值或空这是我的班级设计 public class Item public int id get set public string Name get set public int
从父节点读取特定叶/子节点的 Firebase 规则

我的 firebase 数据库看起来像这样 students firebase key 1 Name blah blah Address blah blah Roll No blah blah Marks Sub1 blah Sub2 bl
asp.net MVC - 如何通过不同的存储库类共享 SqlConnection 的同一实例

我正在使用 MVC5 和普通 ADO NET 创建一个新项目只是作为学习练习我需要创建一个存储库用于注册一个模型其中包含几个也需要同时创建的相关对象以及这些对象反过来可能需要插入其他对象我能想到的最简单的解决方案是拥有一个庞大的方
Puppeteer - 如何获取当前页面（应用程序/pdf）作为缓冲区或文件？

使用 Puppeteer https github com GoogleChrome puppeteer https github com GoogleChrome puppeteer 我有一个页面是申请 pdf With headless

Puppeteer - 如何获取当前页面（应用程序/pdf）作为缓冲区或文件？

Puppeteer - 如何获取当前页面（应用程序/pdf）作为缓冲区或文件？ 的相关文章

随机推荐

热门标签

Puppeteer - 如何获取当前页面（应用程序/pdf）作为缓冲区或文件？的相关文章