使用 Puppeteer 抓取 Google 搜索结果链接

2023-12-31

下面是我尝试用于 Google 网络抓取的代码。当我传递特定请求时，它不会返回链接列表。我不明白是什么原因造成的。有人可以帮忙吗？

const puppeteer = require("puppeteer");

const searchGoogle = async (searchQuery) => {
  /** by default puppeteer launch method have headless option true*/
  const browser = await puppeteer.launch({
    headless: false,
  });
  const page = await browser.newPage();
  await page.goto("https://www.google.com/");
  await page.type('input[aria-label="Search"]', searchQuery);
  await page.keyboard.press("Enter");

  /** waitfor while loding the page, otherwise evaulate method will get failed. */
  await page.waitFor(5000);
  const list = await page.evaluate(() => {
    let data = [];
    /** this can be changed for other website.*/
    const list = document.querySelectorAll(".rc .r");
    for (const a of list) {
      data.push({
        title: a
          .querySelector(".LC20lb")
          .innerText.trim()
          .replace(/(\r\n|\n|\r)/gm, " "),
        link: a.querySelector("a").href,
      });
    }
    return data;
  });

  await browser.close();
};
module.exports = searchGoogle;

await page.waitFor(5000);在这种情况下会导致竞争条件。如果页面在 5 秒内未加载，您可能会得到漏报。如果页面加载速度超过 5 秒，那么您就无缘无故地浪费了时间。仅选择任意延迟作为最后的手段，或者它是应用程序逻辑的预期部分。

更好的方法是使用page.waitForSelector https://devdocs.io/puppeteer/#pagewaitforselectorselector-options or page.waitForNavigation https://devdocs.io/puppeteer/#pagewaitfornavigationoptions.

其次，我没有看到选择器的结果.rc .r。我不确定 Google 的 CSS 选择器有多稳定，但是.LC20lb目前粗略看来是安全的。

把它放在一起给出：

const puppeteer = require("puppeteer"); // ^19.6.3

let browser;
(async () => {
  const searchQuery = "stack overflow";

  browser = await puppeteer.launch();
  const [page] = await browser.pages();
  await page.setRequestInterception(true);
  page.on("request", request => {
    request.resourceType() === "document" ? 
      request.continue() : request.abort();
  });
  await page.goto("https://www.google.com/", {waitUntil: "domcontentloaded"});
  await page.waitForSelector('input[aria-label="Search"]', {visible: true});
  await page.type('input[aria-label="Search"]', searchQuery);
  await Promise.all([
    page.waitForNavigation({waitUntil: "domcontentloaded"}),
    page.keyboard.press("Enter"),
  ]);
  await page.waitForSelector(".LC20lb", {visible: true});
  const searchResults = await page.$$eval(".LC20lb", els => 
    els.map(e => ({title: e.innerText, link: e.parentNode.href}))
  );
  console.log(searchResults);
})()
  .catch(err => console.error(err))
  .finally(() => browser?.close());

输出（您的输出可能会有所不同，具体取决于运行脚本时 Google 显示的内容）：

[
  {
    title: 'Stack Overflow - Where Developers Learn, Share, & Build ...',
    link: 'https://stackoverflow.com/'
  },
  {
    title: 'Stack Overflow - Wikipedia',
    link: 'https://en.wikipedia.org/wiki/Stack_Overflow'
  },
  {
    title: 'Stack Overflow Blog - Essays, opinions, and advice on the act ...',
    link: 'https://stackoverflow.blog/'
  },
  {
    title: 'The Stack Overflow Podcast - Stack Overflow Blog',
    link: 'https://stackoverflow.blog/podcast/'
  },
  {
    title: 'Stack Overflow | LinkedIn',
    link: 'https://www.linkedin.com/company/stack-overflow'
  }
]

另一种方法是将搜索词编码为 URL 查询参数并直接导航到https://www.google.com/search?q=your+query+here，避免导航和潜在的选择器事故。

与许多抓取任务一样，由于目标是从文档中获取简单的 href，因此您可以尝试切换到fetch/cheerio并使用静态 HTML。在我的机器上，以下脚本的运行速度比具有两次导航的 Puppeteer 快约 5 倍，比直接导航到搜索结果的 Puppeteer 快约 3 倍。

const cheerio = require("cheerio"); // 1.0.0-rc.12

const query = "stack overflow";
const url = `https://www.google.com/search?q=${encodeURIComponent(query)}`;

fetch(url, { // Node 18 or install node-fetch
  headers: {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",
  }
})
  .then(res => res.text())
  .then(html => {
    const $ = cheerio.load(html);
    const searchResults = [...$(".LC20lb")].map(e => ({
      title: $(e).text().trim(),
      link: e.parentNode.attribs.href,
    }));
    console.log(searchResults);
  });

也可以看看使用 Puppeteer 单击第一个 Google 搜索结果上的元素 https://stackoverflow.com/questions/64470495/click-an-element-on-first-google-search-result-using-puppeteer/67523820#67523820.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Puppeteer 抓取 Google 搜索结果链接的相关文章

Razorpay 支付集成 -> 我如何检测关闭按钮 X 附近的 razorpay 模型

我在 CI 框架中使用 Razorpay 当用户在没有付款的情况下关闭时创建 razor 支付模型然后对于取消订单我希望通过状态更改为已取消来触发查询那么我怎样才能检测到这一点我已经在使用 by click jQuery 点击关闭
MongoDB：如何在更新之前对查询进行排序

我正在编写一个 Meteor Node js 应用程序它在后端使用 MongoDB 在我的代码中的某个时刻我需要更新specific集合中的文档我需要使用 Mongo 的 update 方法但我在传递正确的复杂的查询以缩小到该特
在 MongoDB 中对 Null 值进行最后排序

我使用以下查询根据名为 sortIndex 的字段按升序填充 MongoDB 中的项目有时数据库中的项目没有 sortIndex 字段通过以下查询具有 null sortIndex 的项目显示在顶部我想知道如何让它们显示在底部我
由于运行 Javascript，Firefox 选择下拉列表不断刷新/恢复为默认选项 - AngularJS

我正在 AngularJS 中构建一个应用程序但在使用 Firefox 时无法选择下拉菜单当我单击选择菜单并将鼠标悬停在选项上时它会将所选选项从光标悬停的选项重置为默认第一个选项当选项数量很大时选择正确的选项变得非常困难该应用
一种用javascript创建随机噪声背景图像（png）的方法？

YouTube的新布局添加了我非常喜欢的背景随机噪声在其他网站上看到了几乎完全相同的效果所以我计划在我的网页原型中使用相同的技术或者至少在其中使用这个技巧我的工具箱以供将来使用图片是这样的取自http g raphaeljs
错误 [ERR_UNSUPPORTED_DIR_IMPORT]：尝试在本地启动 Nodejs 应用程序时导入目录

我在尝试将我的应用程序部署到 Heroku 时陷入了一个循环我的进口声明例如import cors from cors 由于无法在 Common JS 中加载 ES6 模块错误似乎阻止了应用程序在生产环境中启动在本地运行得很好
如何以编程方式确定 HTML 对象可以侦听哪些事件？

我一直在查看developer mozilla org 和Apple 开发文档上的文档但我找不到解释是否可以通过编程方式确定特定HTML 标记是否支持给定事件监听器的文档就像我知道的那样
chrome.extension.getBackgroundPage() 函数示例

我正在开发一个需要在后台运行的小型 Chrome 扩展但是我知道当我使用弹出窗口时这是不可能的经过一番阅读后似乎最好的选择是创建popup js为了运行background js using chrome extension get
npm i 导致许多 ERESOLVE 问题

我收到此错误npm i npm ERR code ERESOLVE npm ERR ERESOLVE unable to resolve dependency tree npm ERR npm ERR Found email protect
在 X 轴刻度上渲染 HTML

我想在 D3 图表的 x 轴上渲染 HTML 基本上我希望轴上的每个标签都是到数据中另一列的超链接我试过了 x domain data map function d return a href d Name a 但它根本不起作用我得到
Vim、Javascript、DoctorJS (jsctags) 和 Taglist（源代码浏览）

我已经安装了DoctorJS http doctorjs org 之前jsctags 试图为 Vim 获得一些好的源代码浏览标签列表使用Taglist http www vim org scripts script php script
Javascript TypeError：无法读取未定义的属性“indexOf”

在此代码中我想从cart products array var cart products 17 1 19 1 18 1 var product 17 each cart products function key item if ite
让屏幕阅读器读取使用 JavaScript 添加的新内容

加载网页时屏幕阅读器例如 OS X 中的屏幕阅读器或 Windows 上的 JAWS 中的屏幕阅读器将读取整个页面的内容但是假设您的页面是动态的当用户执行操作时新内容就会添加到页面中为了简单起见假设您在某个位置显示一条消息
使用 multer 上传来自不同字段的多个文件？

如何让 multer 接受来自多个文件类型字段的文件我有以下代码使用 node js 中的 multer 上传单个文件 var storage multer diskStorage destination function req fi
如何检查令牌过期和注销用户？

当用户单击注销按钮时他她可以自己注销但是如果令牌过期他她就无法注销因为在我的应用程序中令牌在服务器端和前端都使用当用户单击注销按钮时如果令牌有效则服务器和浏览器中的令牌都会被清除当用户未注销并且他她的令牌过期但未在浏
Mongodb 的 Mongoose 与 Mongoose

我正在学习 NodeJ 要从 NodeJS 连接并使用 MongoDB 我看到很多使用 Monk 或 Mongoose 的示例这两个库等效吗它们具有相同的功能还是都有特定的用途作为 NodeJS 的初学者我应该使用哪个以下是使用
访问影子 DOM 中的元素

是否有可能查找 Shadow DOM 中的元素与蟒蛇硒示例用例我有这个input with type date
ng-show 令人不安的 div 布局 - angularJS

我在用ng show notesOpened 如果notesOpened 变量为true 则隐藏div 然而当隐藏时它会扰乱布局有没有办法让 ng show 的行为与 css 属性相同visibility hidden 以便被隐藏的
使用 JavaScript 和 HTML 打印表情符号

为什么这有效 p x1f604 p 而这并没有 document getElementById emoji innerHTML String fromCharCode parseInt 1f604 16 JS 术语中的 char 实际上是一
如何在 Firefox 插件上使用 jQuery 1.5.2+？

首先我创建了一个接收参数并返回 jQuery 的函数例如 function getjQuery window jquery code window return window jQuery 但后来我收到了一封评论电子邮件他们告诉我必须

随机推荐

在 Rails 资源管道中使用字体

我在 Scss 文件中配置了一些字体如下所示 font face font family Icomoon src asset url icoMoon eot iefix font format embedded opentype asse
ffmpeg 转换 x264 [错误]：大小为 769152 的 malloc 失败

我正在尝试将从 Android 智能手表 mp4 格式录制的视频转换为可在所有浏览器上播放的格式 mp4 从智能手表录制的视频未在浏览器中播放所以我使用 ffmpeg 将其转换为可播放的 mp4 格式但有时它会显示错误x264 er
keras中的加权mse自定义损失函数

我正在处理时间序列数据输出未来 60 天的预测数据我目前使用均方误差作为我的损失函数结果很糟糕我想实现一个加权均方误差使得早期的输出比后来的输出重要得多加权均方根公式因此我需要某种方法来使用索引迭代张量的元素因为我需要同时
Angular4 的 Wysiwyg 编辑器 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有人知道与 Angular 4 兼容的免费 Wysiwyg 编辑器吗 Froala 似乎不错但不幸的是
观察事件以隐藏闪亮的操作按钮

在我的 Shiny 应用程序中我试图包含显示或隐藏操作按钮的逻辑具体取决于 ui R 中是否定义了另一个用户输入由于应用程序中存在其他一些复杂性我无法使用 uiOutput renderUI 功能来执行此操作我的方法是为输入创建一
未能延迟初始化集合

我正在为我的数据库开发一个安静的网络服务我正在使用 jpa 从数据库和 spring 中检索数据以用于架构我已经使用基本的 dao 查询 findById save 测试了该架构并且它运行得很好然后在 dao 实现中我添加了一个新方
Jquery 拖放 - 单击事件在拖放时注册

我正在使用 jquery 拖放可拖动元素是一个 div 其中有两个左右浮动的嵌套 div 放置时左侧嵌套的 div 包含文本将启用单击事件 element left click function e window open ui dr
为什么在 Cassandra 启动时仍然出现 JNA 错误，即使 jna.jar 和 platform.jar 都在 lib 目录中？

我已下载 Jna jar 和 Platform jar 并将其复制到 usr cassandra apache cassandra 1 0 7 lib 文件夹但在 Cassandra 启动时仍然看到以下错误我是否遗漏了什么 On cas
无法在firebase控制台中显示已部署的云功能

我尝试将云功能部署到 firebase 但我很困惑在命令提示符和 firebase console gt project gt functions 之间因为在命令提示符下显示部署成功但是在功能选项卡没有任何功能我按照以下步骤进行部署
定期付款的快速结帐不适用于德国付款人

我目前正在使用 ExpressCheckout 和 RecurringPayments 开发 PayPal 付款交易测试软件后德国买家登录 paypal 确认付款后我收到以下消息 Zurzeit k nnen wir Ihre An
Swift：检查字符串是否包含字符？ [复制]

这个问题在这里已经有答案了如何检查特定的string String含有一定的character Character string contains character Example let string Hello World let
Django Rest Framework，ajax POST 有效，但 PATCH 抛出 CSRF 失败：CSRF 令牌丢失或不正确

我正在将我的项目移植到 Django Rest Framework 来为我的项目制作一个合适的 REST Api 我认为这对设计 API 并使其健壮有很大帮助但我遇到了一个问题我有一个入门模型和关联的ListCreateAPIView
垂直求和直到 Google 表格上的空单元格

This is the scenario I need to get the sum of the values until it reaches a blank cell After that it should start again
多维数组初始化似乎对空格敏感

我注意到这两个声明之间的区别其中只有逗号的位置发生了变化 a a b c d b a b c d 在这种情况下 a length评估结果为 2 且 b length计算结果为 3 第一个子数组 b已被压扁这是一个功能吗在哪里可以找到它
如何将键值对插入到 python 列表中？

a 1 b 2 我想将 a b 插入到空白的 python 列表中 list as a b 正确的语法是什么结果是 a b c d 这只是为了以后我可以按值从最小到最大对列表进行排序如何将键值对插入到 python 列表中
Hive 因 java.lang.InknownClassChangeError 崩溃

运行 select from employee 时针对 Hadoop 3 2 0 运行 hive 3 1 1 会崩溃 java lang IncompatibleClassChangeError Class com google comm
如何在 AppleScript 中抑制/自动关闭错误对话框

我有一个以登录用户身份运行的后台进程该进程经常尝试挂载 AFP 共享来备份某些数据如果无法安装共享则应忽略该共享在我的脚本实际上是 bash 中我通过 AppleScript 挂载共享mount volume片段相比之下mou
从 TypedQuery 查找本机 SQL 查询

我需要知道数据库上正在执行什么查询以便检查是否可以改进它以下代码用于创建查询 TypedQuery
使用可变参数模板进行扩展[重复]

这个问题在这里已经有答案了以下3个调用有什么区别gun功能 template
使用 Puppeteer 抓取 Google 搜索结果链接

下面是我尝试用于 Google 网络抓取的代码当我传递特定请求时它不会返回链接列表我不明白是什么原因造成的有人可以帮忙吗 const puppeteer require puppeteer const searchGoogle as

使用 Puppeteer 抓取 Google 搜索结果链接

使用 Puppeteer 抓取 Google 搜索结果链接 的相关文章

随机推荐

热门标签

使用 Puppeteer 抓取 Google 搜索结果链接的相关文章