获取 Puppeteer 中 XPath 的所有链接（暂停或不起作用）？

2024-01-06

我需要使用 XPath 选择页面上的所有链接，然后我的 Puppeteer 应用程序才能单击并执行一些操作。我发现该方法（下面的代码）有时会卡住，我的爬虫会暂停。是否有更好/不同的方式从 XPath 获取所有链接？或者我的代码中是否存在不正确的内容并且可能会暂停我的应用程序的进度？

try {
  links = await this.getLinksFromXPathSelector(state);
} catch (e) {
  console.log("error getting links");
  return {...state, error: e};
}

其中调用：

async getLinksFromXPathSelector(state) {
 const newPage = state.page
 // console.log('links selector');
 const links = await newPage.evaluate((mySelector) => {
   let results = [];
   let query = document.evaluate(mySelector,
     document,
     null, XPathResult.ORDERED_NODE_SNAPSHOT_TYPE, null);
   for (let i=0, length=query.snapshotLength; i<length; ++i) {
     results.push(query.snapshotItem(i).href);
   }
   return results;
 }, state.linksSelector);
  return links;
}

XPath 位于state.linksSelector.

您可以使用page.$x() https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md#pagexexpression计算 XPath 表达式并获得ElementHandle https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md#class-elementhandle大批。可能适合使用page.waitForXPath() https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md#pagewaitforxpathxpath-options事先确保将 XPath 字符串指定的元素添加到 DOM 中。

然后你就可以通过ElementHandle https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md#class-elementhandle数组元素通过page.evaluate() https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md#pageevaluatepagefunction-args并返回一个包含以下内容的数组href https://developer.mozilla.org/en-US/docs/Web/HTML/Element/a#attr-href每个元素的属性值。

const xpath_expression = '//a[@href]';
await page.waitForXPath(xpath_expression);
const links = await page.$x(xpath_expression);
const link_urls = await page.evaluate((...links) => {
  return links.map(e => e.href);
}, ...links);

console.log(link_urls);

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

获取 Puppeteer 中 XPath 的所有链接（暂停或不起作用）？的相关文章

如何检测不渲染 .png 透明的浏览器

我有这段代码可以根据一周中的某一天渲染图像但在 IE6 及更低版本以及可能其他一些浏览器中它不会呈现 png 不透明度所以我想稍微改变一下这样它就会检测到不渲染 alpha 透明度的浏览器并告诉他们加载这个图像 img horar
如何将元素的每个单词包装在span标签中？

div date contents filter function return this nodeType 1 wrap span span 我是新手认为代码可以解决问题但它将所有内容都包含在 span 像这样 div class d
如何延迟 NavLink 的反应？

Delay e gt e preventDefault setTimeout gt e unpreventDefault make this work 500 render
带有非字符串值的 AWS S3 x-amz-meta 错误：InvalidHeader 和 InvalidParameterType

尝试使用node js AWS sdk时s3Client upload带有元数据的可选参数 const AWS require aws sdk const s3Client new AWS S3 params Key key secret
JQuery 可排序嵌套可排序 div

这个问题与这个有关Nest jQuery UI 可排序 https stackoverflow com questions 19129476 nest jquery ui sortables 但我无法解决我的问题问题是我有一个包含项目的
Backbone.js 与 Google 地图 - 有关此问题和侦听器的问题

我有一个为 Google Maps v3 创建的模块我正在尝试将其转换为 Backbone js 视图构造函数到目前为止这是我的视图模块我将解释代码后遇到的问题 pg views CreateMap Backbone View ex
如何在WebBrowser控件中注入Javascript？

我试过这个 string newScript textBox1 Text HtmlElement head browserCtrl Document GetElementsByTagName head 0 HtmlElement scrip
从 url 角度加载模板并在 div 内编译

由于我是 Angular JS 的新手我想知道如何加载外部模板并将其与一些数据一起编译到目标中div 例如我有这个模板
动态地将 .on() 方法与事件映射绑定

我使用此语法来确保事件绑定动态添加li元素 ul list on click li function do something 我尝试使用这样的事件映射来存档相同的内容 ul list hammer css hacks false on s
如何按值删除数组中的多个项目？

我正在尝试做一个removeAll 函数它将删除具有该特定值而不是索引的数组的所有元素当我们对循环进行任何更改时棘手的部分就出现了索引往往会移动使其很难像我们想要的那样工作并且每次更改时都重新启动循环这在大数组上效率非常低
apollo 客户端从存储中删除而不发生突变

我需要通过 id 从本地存储中删除一条记录而不使用突变因为服务器不支持突变我尝试像这样手动访问商店 delete this apolloClient store getState apollo data 1112 这会删除记录但是
Material.Angular.io mat-autocomplete [displayWith] 函数更新范围变量

我遇到了一个问题我可以在实例化 mat autocomplete 的组件控制器中访问本地声明的变量我面临的问题是局部变量被困在这个范围内我无法更新它们有关更新 mat autocomplete 范围变量的任何想法或想法最终我要做的
Jquery获取每个div的子子div并将信息抓取到数组中

我有一些看起来像这样的 html div div class sub main div div
select 元素是否具有标准值属性？

这是一个简单的问题但我找不到任何参考资料所以就在这里假设我有一个选择元素
未处理的承诺拒绝：Zone.js 检测到 ZoneAwarePromise `(window|global).Promise` 已被覆盖

我尝试将 Angular2 快速入门代码合并到我当前的 webpack 构建中似乎有些东西正在覆盖zone js抛出此错误的承诺根据我见过的大多数 stackoverflow 帖子 zone js文件需要在任何可能包含承诺的文件之后加载
React TypeError：x 不是函数

我在子组件中从父组件调用函数 booksRefresh 但出现错误类型错误 booksRefresh 不是函数我不知道为什么因为 booksRefresh 是一个函数有人可以帮我解释为什么会出现这个错误吗这是我的代码 import
需要根据用户选择有条件地渲染具有 X 行数的部分

我有一个反应组件其中包含一个下拉列表其中的选项包括none 1 5 and 13 根据用户选择的数字我需要渲染一个部分其中包括许多行每个行都有字段名称和下拉列表如果用户不选择任何一个我需要整个附加配置部分消失新部分中的每个下
如何使用 HTML5 Javascript Canvas 获取三个碰撞形状的交集并删除不碰撞的部分？

我最近专门针对 KonvaJs 发布了类似的问题here https stackoverflow com questions 64603077 how can i get the intersection of three shapes c
不要在查询字符串 stringify 中对 url 进行编码

有什么选择吗qs stringify那将not对网址进行编码 node gt var qs require querystring undefined gt qs stringify url http domain com url http
将一维数组转换为二维数组[重复]

这个问题在这里已经有答案了我正在开发一个程序我必须将文本文件中的值读入一维数组我已经成功获取该一维数组中的数字 m1 1 2 3 4 5 6 7 8 9 但我希望数组是 m1 1 2 3 4 5 6 7 8 9 您可以使用此代码 co

随机推荐

迭代 std::list 时擦除

如果我使用的是iterator in a for循环我用erase在迭代器的当前迭代中 for 循环应该继续良好并访问其余的list元素根据我的阅读情况应该是这样并且是一个主要的区别特征list vs deque or vector
快速过滤元组数组

我有一个命名元组数组我想根据元组数组的元素值对此数组应用过滤器 typealias Section sectionName String sectionInputs Input var defaultSectionsData Sectio
Numpy Vector (N,1) 维度 -> (N,) 维度转换

我有一个关于 N 维数组和 N 1 维数组之间转换的问题例如 y 是 2 维 A np array 1 2 3 4 x np array 1 2 y np dot A x y shape Out 6 2 但下面将显示 y2 为 2 1 维
根据 xml 模式验证 xml 文件

这是关于根据 XML 模式例如 schemafile xsd 验证 XML 文件例如 marshalledfile xml 我们使用 jaxb 将 java 对象编组到 xml 文件中最好的方法是什么有人可以举一个简单的例子来说明如
MySQL行子查询比较问题

我有一个小的 mysql 表 MySQL 版本 5 6 23 Field Type Null Key Default Extra id int 6 unsigned NO PRI NULL auto increment dividends
如何恢复Android Fragment视图状态

我有申请titles片段和contents屏幕上的片段当用户单击标题片段中的项目时将创建相应的片段并将其插入到框架中并且所选标题在标题片段中突出显示交易完成fragment addToBackStack 所以当用户点击BACK键恢
如何开始构建 VSTi 插件？

我想知道构建 VSTi 插件的确切方法是什么我不希望在短短几周内编写下一个 Massive 因为我不了解 DSP 也没有非常基本的编程技能我确信这可能高于我目前的水平但我认为如果我给自己设定一个我非常感兴趣的高目标我就会成长为一名程
Facebook Graph API：在调用 FB.init() 之前调用 FB.login()

我正在尝试在我的网站上使用新的 Facebook Graph API 这就是我所拥有的页面上的某处
如何在 Javascript 中映射替换字符（类似于 Perl 中的“tr”函数）？

我一直在试图弄清楚如何将字符串中的一组字符映射到另一组类似于trPerl 中的函数 I found 这个网站显示了 JS 和 Perl 中的等效功能 http www lemoda net perl perl js perl js html
使用 api.rpc. payment.queryFeeDetails 获取外部费用

我想用api rpc payment queryFeeDetailsAPI 调用 https polkadot js org docs substrate rpc queryfeedetailsextrinsic bytes at bloc
Android NDK 在 CallObjectMethod 调用 getSystemService 中崩溃

这是我问的另一个问题的后续 Android 从JNI获取MEID https stackoverflow com questions 11643498 android get meid from jni 我正在尝试获取 Android 手机
访问Python列表中的元素

我的答案列表如下 answers defaultdict
在 R 中使用 tryCatch() 在循环中分配错误值

我正在努力了解 R 中 tryCatch 的说明我正在尝试捕获股票的收盘价案例 2 好案例 TickersJuly2 独特的价格与股票代码关系情况 1 坏情况 TickersJuly1 FABU 收盘价是 CETX 的重复对于 FA
以编程方式估计 Android 手机电池耗尽的时间

因此有一些方法可以通过监听器获取当前的电池电量但是这些可以为您提供手机当前电池状态的值但无法指示电池耗尽的速度有多快慢有什么方法可以估计电池耗尽之前的剩余时间你能做任何知道电压是多少的事情吗或者也许可以监控一段时间内电池消耗的
android recyclerview加载更多按钮[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有教程示例包含带有 recyclerview 的加载更多按钮我需要在 recyclerview
控制鼠标键盘Golang？

如何在操作系统 X11 级别上控制检索设置鼠标位置并触发键盘事件这与中的功能类似Java 中的机器人类 http docs oracle com javase 7 docs api java awt Robot html 我知道很可能不
如何在AppBundle中添加视图？

我正在尝试在 symfony3 中进行实验我试图在谷歌上搜索它但我没有找到他们明确的答案这是 symfony 中的默认控制器 class DefaultController extends Controller Route name
Anaconda navigator 和 activate.bat 在 Windows 中出现空格问题

最近我突然开始遇到 Anaconda 提示符和使用 VS Code 启动 jupyter 实例的问题存在访问被拒绝错误但即使作为管理员我也收到一个错误该错误提示我路径中存在空格问题我从来没有遇到过这个问题并且 anacon
discord.py 中的 Cog 和 Extension 有什么区别？

在discord py文档中有扩展 https discordpy readthedocs io en stable ext commands extensions html https discordpy readthedocs io
获取 Puppeteer 中 XPath 的所有链接（暂停或不起作用）？

我需要使用 XPath 选择页面上的所有链接然后我的 Puppeteer 应用程序才能单击并执行一些操作我发现该方法下面的代码有时会卡住我的爬虫会暂停是否有更好不同的方式从 XPath 获取所有链接或者我的代码中是否存在不正

获取 Puppeteer 中 XPath 的所有链接（暂停或不起作用）？

获取 Puppeteer 中 XPath 的所有链接（暂停或不起作用）？ 的相关文章

随机推荐

热门标签

获取 Puppeteer 中 XPath 的所有链接（暂停或不起作用）？的相关文章