Puppeteer：从使用延迟加载的页面中抓取整个 html

2024-03-29

我正在尝试获取使用延迟加载的网页上的整个 html。我尝试过的是一直滚动到底部，然后使用 page.content()。我还尝试在滚动到底部后滚动回页面顶部，然后使用 page.content()。两种方法都会抓取表格的一些行，但不是全部，这是我的主要目标。我相信该网页使用了react.js 的延迟加载。

const puppeteer = require('puppeteer');
const url = 'https://www.torontopearson.com/en/departures';
const fs = require('fs');

puppeteer.launch().then(async browser => {
    const page = await browser.newPage();
    await page.goto(url);
    await page.waitFor(300);

    //scroll to bottom
    await autoScroll(page);
    await page.waitFor(2500);

    //scroll to top of page
    await page.evaluate(() => window.scrollTo(0, 50));

    let html = await page.content();

    await fs.writeFile('scrape.html', html, function(err){
        if (err) throw err;
        console.log("Successfully Written to File.");
    });
    await browser.close();
});

//method used to scroll to bottom, referenced from user visualxcode on https://github.com/GoogleChrome/puppeteer/issues/305
async function autoScroll(page){ 
    await page.evaluate(async () => {
        await new Promise((resolve, reject) => {
            var totalHeight = 0;
            var distance = 300;
            var timer = setInterval(() => {
                var scrollHeight = document.body.scrollHeight;
                window.scrollBy(0, distance);
                totalHeight += distance;

                if(totalHeight >= scrollHeight){
                    clearInterval(timer);
                    resolve();
                }
            }, 100);
        });
    });
}

我在这方面不太擅长，但经过长时间的搜索后，我发现一种解决方案可以为我的要求提供良好的结果。这是我用来处理延迟加载场景的代码片段。

const bodyHandle = await page.$('body');
const { height } = await bodyHandle.boundingBox();
await bodyHandle.dispose();
console.log('Handling viewport...')
const viewportHeight = page.viewport().height;
let viewportIncr = 0;
while (viewportIncr + viewportHeight < height) {
await page.evaluate(_viewportHeight => {
window.scrollBy(0, _viewportHeight);
}, viewportHeight);
await wait(30);
viewportIncr = viewportIncr + viewportHeight;
}
console.log('Handling Scroll operations')
await page.evaluate(_ => {
window.scrollTo(0, 0);
});
await wait(100);  
await page.screenshot({path: 'GoogleHome.jpg', fullPage: true});

由此我什至可以截取长截图。希望对你有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

javascript

nodejs

webscraping

puppeteer

Puppeteer：从使用延迟加载的页面中抓取整个 html 的相关文章

Bootstrap 3 + 选择 + jquery 验证丢失格式

我有下面的代码http jsfiddle net emamut CBjmj 4 http jsfiddle net emamut CBjmj 4 validator setDefaults ignore hidden not select
Next.js 使用 getServerSideProps 如何将属性从页面传递到组件？

我正在尝试获取coingecko api访问比特币的实时价格我正在尝试将 getServerSideProps 的返回道具传递给我的
如何在 JavaScript 中通过方括号访问私有字段

这段代码的工作原理 class Test field get field return this field 但如果我想计算字段名称我必须使用方括号但它不起作用 class Test field get field return this
单击单选按钮时事件触发的顺序是什么？

我知道这在浏览器之间是不同的例如如果我将一个函数附加到单选按钮的 onclick 和 onchange 事件然后单击它 Chrome 会触发 onchange 然后触发 onclick 而 Firefox 则会执行相反的操作是否有任何
如何在输入Bootstrap Datepicker中仅显示年份？

我使用以下代码仅显示年份 datepicker datepicker viewMode years minViewMode years 但输入以格式显示 dd mm yyyy 由于我没有格式我该如何解决这个问题 yyyy 尝试这个 dat
全局注册vue组件

我有一个使用 vue cli 创建的 vue 应用程序我正在创建一些组件我想像这样使用它们
jQuery 可以改变 css 样式定义吗？（不是每个元素的单独CSS）

我还没有看到任何文档说 jQuery 可以更改任何 CSS 定义例如更改 td padding 0 2em 1 2em to td padding 0 32em 2em 但要么必须更改整个样式表要么更改每个元素的类要么更改每个元素的
使用 Node.js 从 URL 读取内容

我正在尝试使用 Node js 从 URL 读取内容但我似乎得到的只是一堆字节我显然做错了什么但我不确定是什么这是我目前拥有的代码 var http require http var client http createClient
RegEx 从 CSS 背景样式中提取 URL

我有一个这种形式的字符串 url http www example com imgs backgrounds bg80 jpg repeat scroll 10 0 transparent 这是来自某个元素的 CSS 样式该元素目前在页面
当使用客户端函数填充 DOM 时，如何等待从 puppeteer 中的 page.evaluate 函数加载所有图像

我试图让代码执行等待所有图像加载之前木偶师截屏当调用 initData 函数时我的 DOM 会被填充该函数是在客户端 js 文件中定义的延迟或超时是一种选择但我确信必须有一种更有效的方法来做到这一点 async dataObj g
Mocking/Stubbing Mongoose 模型保存方法

给定一个简单的 Mongoose 模型 import mongoose Schema from mongoose const PostSchema Schema title type String postDate type Date de
jquery 是否有 .toggle() 的替代方案[重复]

这个问题在这里已经有答案了目前根据 Jquerysite http api jquery com category deprecated deprecated 1 8 toggle 在 1 8 版本后已被弃用那么有没有 toggle 的
如何包含和使用 math.js

我正在尝试使用 math js http mathjs org docs reference functions inv html http mathjs org docs reference functions inv html 但我不知
Node.js 管道化 HTTP 客户端代理？

Node js 中内置的 HTTP 客户端似乎不支持管道请求 https stackoverflow com a 5776649 362536 然而我突然想到也许可以创建一个Agent https nodejs org api http
使用默认参数解构 falsy 和 null

我试图了解如何使用默认参数来解构虚假值和空值以下是我运行过的一些示例 1 const person email email protected cdn cgi l email protection const email person e
如何在 Javascript 函数中处理箭头键和 <（大于）？哪个事件和哪个代码（charCode 与 keyCode）？

我该如何处理箭头键和
如何使我的滚动到顶部按钮动画流畅

我的页面上有一个滚动到顶部按钮但是当我单击它时它不会滚动到顶部它只是直接带我到顶部就像我加载了一个新页面一样但我需要的是滚动动画 javascript window onscroll function scrollFunction
使用 ImportXml 在 Google Sheets 中抓取图像

我正在使用 Google Sheets 尝试从房地产网站上抓取图像以将其显示在单元格中以及房产详细信息旁边我已经能够使用一个简单的示例证明这是可能的但是当我尝试制定 xpath 查询来抓取我需要的特定图像时我不断收到错误作为一个工
如何格式化数字？ [复制]

这个问题在这里已经有答案了我想使用 JavaScript 格式化数字例如 10 gt 10 00 100 gt 100 00 1000 gt 1 000 00 10000 gt 10 000 00 100000 gt 100 000 0
JavaScript 节点列表

有没有办法连接 2 个 document getElementsByTagName 调用返回的 2 个 NodeList 比如说我有以下代码 var inputs documentElement getElementsByTagName

随机推荐

如何将之前的时间戳保存到 Firebase FireStore

我想将旧数据从不同系统迁移到 firestore 下面的命令保存当前时间戳 firebase firestore FieldValue serverTimestamp 我想存储旧的值有什么办法可用吗 firebase firestore
LSH 是将向量转换为汉明距离的二进制向量吗？

我读了一些关于 LSH 的论文我知道它用于解决近似 k NN 问题我们可以将算法分为两部分给定一个向量D尺寸其中D是大的任何值用一组翻译它N where N lt
具有相同范围和离线 access_type 的第二次授权具有意外的权限对话框

如果我在身份验证 URL 中指定 access type offline 并且用户尝试第二次身份验证我会收到一个框显示正在请求离线访问我本以为它已经被授权所以不需要额外的权限有任何想法吗 Edit 更多信息第一次它没有提到用户需
如何在等高线图上绘制具有条件的数组？

我使用下面的代码绘制了 GPP 的全球地图 lon 和 lat 都是 netCDF4 属性形状分别为 144 和 90 而 gpp avg 是一个 numpy 数组形状为 90 144 import numpy as np import
如何：使用 maven2 进行数据库版本控制？

我正在寻找任何用于版本控制数据库更改的 Maven 插件有一些插件为此任务提供一些支持 Maven LiquiBase 插件 http www liquibase org manual maven Maven 数据库迁移插件 http c
.Rmd 文件打开时完全是空的

在 RStudio 3 3 2 中打开 rmd 文件时它们显示为完全空的如果我使用记事本打开或在另一台计算机上打开则会有文本到底是怎么回事有问题的 RMD 文件 https drive google com open id 0B
iOS - 恢复自动续订订阅

我正在实施自动更新订阅我有以下问题订阅内容过期后用户还能恢复吗如果是这样我如何验证它们并让它们下载 Look at 恢复自动续订订阅 https developer apple com library ios documentat
模板类中的模板函数

我有这个代码 template
继续断言测试用例

上次我使用 testcafe 时我意识到这个伟大框架中缺少我的功能该功能类似于尽管出现了断言但仍继续执行特定测试的其余部分更准确地说我描述了我缺少此类功能的原因假设您正在测试 Web 应用程序例如要在其中输入合同日期的 We
正则表达式 - 时间验证 ((h)h:mm)

d 1 2 0 5 0 9 是我所拥有的这将分钟限制为 00 59 然而它并不将时间限制在 0 到 12 之间为了相似性和统一性如果可能的话我想单独使用 RegEx 来完成此操作此外我希望第一个数字是可选的即接受 09 30
如何在单独的dll项目中配置WCF

我正在开发一个 Web 应用程序 ASP NET 3 5 它将使用许多 Web 服务我为每个 Web 服务创建了一个单独的 dll 项目这些项目包含服务引用和客户端代码但是调用网站必须具有
检查字符串是否包含日文/中文字符

我需要一种方法来检查字符串是否包含Japanese or Chinese text 目前我正在使用这个 string match u3400 u9FBF 但它不适用于以下示例 or 你能帮我吗 Thanks 通常用于中文和日文文本的 Uni
redirect_uri 的参数值无效

当我尝试通过网络在 Google Plus 中验证我的应用程序时出现错误错误无效请求 redirect uri 的参数值无效缺少权限 MY APP oauth2callback 我按照说明做了一切 https developers
如何 git svn 仅获取具有特定模式的分支/标签？

我想使用 git svn 查看 Boost 库并且只想查看从版本 1 35 开始的主干和标签即 tags release Boost 1 35 及更高版本我的配置如下 svn remote svn ignore paths tags
MonoTouch.Dialog：UISearchBar 颜色

在 3 月 31 日发布的 MonoTouch Dialog 中我们无法设置UISearchBar现在不再这样了因为有一个带有硬编码颜色的新容器对象有没有更简单的方法来改变颜色UISearchBar 作为解决方法我使用它知道 UI
无法更改样式：使用 getelementsbyclassname 显示

document getElementByClassName xyz style display none 我无法隐藏课程内容 document getElementsByClassName返回一个类似数组的对象您可以为此使用以下脚本 d
如何减少Flutter的build_runner构建时间

我的项目变得非常大每次运行 build runner 都会花费太多时间来构建我减少构建时间的想法是仅构建实际需要构建的文件这些文件是我当前功能目录的文件有没有办法只为单个文件夹或单个文件运行 build runner 您可以在 bu
Android 中的语音通话录音应用

我想做一个录音通话的应用程序可以吗我期待 Android 领域经验丰富的人提供一些适当的指导我在android中看到了android media MediaRecorder类我需要使用那个类吗感谢致敬帕瓦蒂卡玛隆抱歉开发人
右值到左值转换 Visual Studio

在 Visual Studio 2012RC 中存在一些非标准扩展例如这段代码编译 include
Puppeteer：从使用延迟加载的页面中抓取整个 html

我正在尝试获取使用延迟加载的网页上的整个 html 我尝试过的是一直滚动到底部然后使用 page content 我还尝试在滚动到底部后滚动回页面顶部然后使用 page content 两种方法都会抓取表格的一些行但不是全部这是我的

Puppeteer：从使用延迟加载的页面中抓取整个 html

Puppeteer：从使用延迟加载的页面中抓取整个 html 的相关文章

随机推荐

热门标签