Node.js爬虫实战：搜狗图片爬取

2023-12-05

说在前面

当我们在网上寻找图片时，经常会遇到需要批量下载搜索结果中的图片的情况。而搜狗作为中国颇具影响力的搜索引擎之一，其图片搜索功能提供了丰富多样的图片资源。在这种情况下，我们希望能够通过编程的方式，批量下载搜狗图片搜索结果中的图片，以便后续的使用和处理。

本文将介绍如何使用Node.js编写脚本，通过搜狗图片API获取图片搜索结果，并批量下载搜索结果中的图片。我们将深入探讨如何利用Node.js中的模块来发送HTTP请求、处理API返回的数据，并将图片保存到本地文件系统中。

通过本文的指导，读者将学习如何利用编程的方式高效地获取和保存网络上的图片资源，为日常工作和项目开发提供了一种全新的思路和解决方案。

需要注意的是，网络爬虫在使用过程中需要遵守法律法规，尊重网站的隐私政策和使用条款。在进行数据抓取时，请确保遵守相关规定并尊重他人的权益。

准备

1、什么是搜狗图片API？

搜狗图片API是搜狗搜索引擎提供的一项功能接口，用于获取图片搜索结果数据。通过发送HTTP请求到搜狗图片API，我们可以获取包含图片信息的JSON数据，其中包括图片链接、图片标题等相关信息。

2、如何使用axios获取API数据？

Axios是一个流行的基于Promise的HTTP客户端，它可以用于发送HTTP请求。我们可以使用Axios库来发送GET请求到搜狗图片API，并获取API返回的数据。Axios提供了简单易用的API，可以轻松地发送异步请求，并处理返回的数据。

3、如何解析API数据中的图片链接？

API返回的数据通常是以JSON格式进行传输。在获取到API返回的数据后，我们可以使用JavaScript的JSON解析功能来解析数据并提取所需的信息。在本例中，我们需要解析搜狗图片API返回的JSON数据，并提取每个图片结果的图片链接。
通过遍历API返回的数据对象，我们可以访问每个图片结果的属性。对于每个结果，我们可以检查是否存在pic_url属性，该属性包含了图片的链接。如果存在pic_url属性，则将其保存到一个数组中，以便后续使用。
解析API数据中的图片链接可以采用循环遍历的方式，逐个提取并存储图片链接。这样，我们就可以在后续的步骤中使用这些链接来下载图片。

代码实现

1、引入所需的模块

我们首先引入了Node.js的核心模块之一axios，以及文件系统模块fs。

const axios = require('axios');
const fs = require('fs');

2、定义搜狗图片API的URL

我们设置了搜狗图片API的URL，这是我们将要向其发送请求以获取图片数据的地方。

const apiUrl = 'http://pic.sogou.com/pics/json.jsp';

3、发送HTTP请求并获取数据

使用axios发送GET请求到搜狗图片API，并获取API返回的数据。

axios.get(apiUrl, {
  params: {
    query: keyword,
    start: 0,
    reqType: 'ajax',
    reqFrom: 'result',
    tn: 0
  }
})
.then(response => {})

4、解析API返回的数据

我们解析API返回的JSON数据，提取出其中的图片链接。

 const data = response.data;
if (data.items && data.items.length > 0) {
const imageLinks = data.items.slice(0, num).map(item => item.pic_url);

// 使用fs模块创建保存图片的目录
const dir = './downloaded_images';
if (!fs.existsSync(dir)) {
    fs.mkdirSync(dir);
}

// 根据提取出的图片链接，使用axios下载图片并保存到指定目录中
imageLinks.forEach((link, index) => {
    const filename = `${dir}/image_${index + 1}.jpg`;
    axios({
    method: 'get',
    url: link,
    responseType: 'stream'
    })
    .then(response => {
    response.data.pipe(fs.createWriteStream(filename));
    });
});

5、创建保存图片的目录

我们使用fs模块创建一个名为downloaded_images的目录，用于保存下载的图片。

const dir = './downloaded_images';
if (!fs.existsSync(dir)) {
    fs.mkdirSync(dir);
}

6、下载图片并保存

对于每个提取出的图片链接，我们使用axios再次发送HTTP请求，下载图片并保存到指定的目录中。

imageLinks.forEach((link, index) => {
    const filename = `${dir}/image_${index + 1}.jpg`;
    axios({
    method: 'get',
    url: link,
    responseType: 'stream'
    })
    .then(response => {
        response.data.pipe(fs.createWriteStream(filename));
    })
});

7、完整代码

const axios = require('axios');
const fs = require('fs');

// 定义搜狗图片API的URL
const apiUrl = 'http://pic.sogou.com/pics/json.jsp';

// 定义搜索关键词和需要下载的图片数量
const keyword = '美景'; // 替换为你想要搜索的关键词
const num = 10; // 替换为你想要下载的图片数量

// 使用axios发送HTTP请求到搜狗图片API，并获取API返回的数据
axios.get(apiUrl, {
  params: {
    query: keyword,
    start: 0,
    reqType: 'ajax',
    reqFrom: 'result',
    tn: 0
  }
})
.then(response => {
  // 解析API返回的数据，提取出图片链接
  const data = response.data;
  if (data.items && data.items.length > 0) {
    const imageLinks = data.items.slice(0, num).map(item => item.pic_url);

    // 使用fs模块创建保存图片的目录
    const dir = './downloaded_images';
    if (!fs.existsSync(dir)) {
      fs.mkdirSync(dir);
    }

    // 根据提取出的图片链接，使用axios下载图片并保存到指定目录中
    imageLinks.forEach((link, index) => {
      const filename = `${dir}/image_${index + 1}.jpg`;
      axios({
        method: 'get',
        url: link,
        responseType: 'stream'
      })
      .then(response => {
        response.data.pipe(fs.createWriteStream(filename));
      });
    });
  } else {
    console.log('No images found for the given keyword.');
  }
})
.catch(error => {
  console.error('Error fetching data:', error);
});

公众号

关注公众号『 前端也能这么有趣 』，获取更多新鲜内容。

说在后面

???? 这里是 JYeontu，现在是一名前端工程师，有空会刷刷算法题，平时喜欢打羽毛球 ???? ，平时也喜欢写些东西，既为自己记录 ????，也希望可以对大家有那么一丢丢的帮助，写的不好望多多谅解 ????，写错的地方望指出，定会认真改进 ????，偶尔也会在自己的公众号『 前端也能这么有趣 』发一些比较有趣的文章，有兴趣的也可以关注下。在此谢谢大家的支持，我们下文再见 ????。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

前端

Node

javascript

nodejs

爬虫

Node.js爬虫实战：搜狗图片爬取的相关文章

为什么字符串中的反斜杠（\）在控制台中给出错误

我有一个像这样的字符串 C projects cisco iwan staging enc enterprise network controller ui plugins iwan 当我粘贴到console然后按回车键它给出以下错误 U
如何使用 selenium 获取带有 css 选择器的所有元素的直接子元素？

我已经尝试过使用 gt 语法但 selenium 不接受它我知道有一种方法可以使用 Xpath 获取它但我们的整个项目是使用 CSS 选择器编写的我试图存储一个列表其中包含元素的所有直接子元素但不包含其子元素后代当我使用语
使 URL W3C 有效并在 Ajax 请求中工作

我有一个返回 URL 的通用函数这是一个插件函数可返回插件内资源图像样式表的 URL 我在这些 URL 中使用 GET 参数如果我想在 HTML 页面中使用这些 URL 以通过 W3C 验证我需要将符号屏蔽为 plugin
Knockout ObservableArray 不更新 HTML Foreach

所以我有一个可以正常工作的 observablearray 但 UI 没有更新我读过很多人遇到这种类型的问题但我没有看到所以 HTML 是 tbody tr td span class label label success Yup
对登录 Instagram 的 PhantomJS 代码进行故障排除

我编写了这个 PhantomJS 脚本来自动登录 Instagram 它可以成功填写表单字段并按提交按钮但它总是被重定向回登录屏幕并显示以下消息你的用户名或密码不正确我 100 确信凭据是正确的并且我用多个 Instagram 帐户
代理错误：无法将请求 /auth/register 从 localhost:3000 代理到 http://localhost:8800/api/

注册 jsx import React from react import useState from react import Link from react router dom import axios from axios cons
“找不到模块的声明文件”，typeRoots 文件夹中的自定义声明文件被忽略

您好我遇到了 TypeScript 问题我有以下目录结构 package json 顶级项目 node modules 所有已安装的库 tsconfig json build a generated folder index js 处理
Chrome 浏览器自动向下滚动内容（当没有人要求时）

我们有丰富的页面其中有一个包含动态内容的小块直到最近一切都运转良好现在 Chrome 浏览器以某种方式捕获页面上的一个 div 并向下滚动整个内容用语言很难解释但演示起来却容易得多这是测试页只需在 Chrome 中打开它
Internet Explorer 无法打开 Internet 站点操作中止，如何修复此错误？

此代码在 IE 中给出错误 Internet Explorer 无法打开 Internet 站点操作中止如何修复此错误 var tip p Most computers will open PDF documents tip automa
在 JavaScript/Node.js 中将 Youtube Data API V3 视频持续时间格式转换为秒

我正在尝试将 ISO 8601 字符串转换为 JS Node 中的秒我能想到的最好的办法是 function convert time duration var a duration match d g var duration 0 if
JavaScript 日期差异

我看过在javascript中获取两个日期之间的差异 https stackoverflow com questions 3224834 get difference between 2 date in javascript 我仍然无法让
Angular 2 - 通过引用传递对象字段。可重复使用的编辑对象的方式

我正在创建可重用的表组件该组件将允许编辑对象字段以准备将它们发送到 API 拥有一个对象 person name John job type IT title Software Engineer 我想将对象嵌套字段传递给组件并进行编辑
在 Javascript 构造函数中引用实例变量

我试图通过执行以下操作来维护对象的状态 obj function this foo undefined this changeState function function this foo bar This is contrived bu
加载对象内容后运行 Javascript 函数

当内容的内容时如何运行 Javascript 函数已加载这DOMContentLoaded事件在此之前触发以及依赖它的东西例如 JQuery 的同样地 Compare this http plnkr co edit znu5iz3
如何解析不可预测地散布到字符串中的 JSON？

假设我有一个 node js 应用程序它以一种奇怪的格式接收输入带有任意散布在其中的 JSON 的字符串如下所示 This is a string with json in it followed by more text and s
jQuery 创建多维数组

我花了很长时间试图弄清楚如何在 jQuery 中创建多维数组我在循环之外实例化数组在循环内部我想添加数组元素 i 0 loop start
使用适用于 IE7 和 IE8 的 jQuery 在 Facebox 中加载 FLV

不用说这在 Chrome Firefox 和 Safari 中完美运行 IE 任何版本都是问题所在客观的我正在尝试加载 JWplayer 它会在 Facebox 弹出窗口中加载来自 S3 的 FLV jQuery document
使用 location.href 或 window.location.reload(true) 重新加载页面

我需要在 ajax 调用成功后重新加载页面我看到一些代码不是我的有两种方法 success function obj code location href location href or success function obj c
将基类添加到现有原型链中，以便instanceof工作

我有一个现有的原型层次结构我想对其进行修改以便保持层次结构完整但在其末尾添加了一个额外的原型 instanceof应该对所有原型返回 true 即假设我有 B gt A 我想将其设为 B gt A gt Base 现在instanc
如何使用 webpack 从 node_modules 加载静态 CSS 文件的示例？

我不知道如何使用 webpack 从 node modules 库加载任何 CSS 例如我已经安装了 leaflet 以及每次尝试加载leaflet dist leaflet css fails 您能提供如何从node modules加载静

随机推荐

Latex公式中矩阵的方括号和圆括号表示方法

一背景在使用Latex写论文时不可避免的涉及到矩阵公式有的期刊要求矩阵用方括号有的期刊要求矩阵用圆括号因此特记录一下Latex源码在两种表示方法上的区别以及数组和方程组的扩展二矩阵的方括号表示首先所有的矩阵肯定都是在标
Python机器学习、深度学习入门丨气象常用科学计算库、气象海洋常用可视化库、爬虫和气象海洋数据、气象海洋常用插值方法、EOF统计分析、WRF模式后处理等

目录专题一 Python软件的安装及入门专题二气象常用科学计算库专题三气象海洋常用可视化库专题四爬虫和气象海洋数据专题五气象海洋常用插值方法专题六机器学习基础理论和实操专题七机器学习的应用实例专题八深度学习基础
糟了，数据库崩了，又好像没崩

前言 2023 年某一天周末新手程序员小明因为领导安排的一个活来到公司加班小明三下五除二按照领导要求写了一个跑批的数据落库任务在测试环境执行突然间公司停电了小明大惊糟了 MySQL 还在跑任务会不会因为突然断电导致数据库崩了
Spring IOC—基于XML配置和管理Bean 万字详解（通俗易懂）

目录一前言二通过类型来获取Bean 0 总述重要 1 基本介绍 2 应用实例三通过指定构造器为Bean注入属性 1 基本介绍 2 应用实例四通过p命名空间为Bean注入属性 1 基本介绍 2 应用实例五通过ref引用实
搜狐CEO张朝阳:长期被动刷手机人就废了

大家好我是老洪刚看到一则关于搜狐CEO张朝阳谈论关于使用手机问题的资讯颇有感触聊两句在12月2日下午一场特别的讲座在西安交通大学引起了热议这场讲座的主讲人正是搜狐公司的首席执行官张朝阳他不仅是一位优秀的企业家更是一位热爱
腾讯云购买服务器多大合适？

对于个人日常建站来说购买多大的服务器合适需要根据实际需求进行考虑一般个人用户的话2GB或者是4GB内存接基本够用了原文地址腾讯云购买服务器多大合适轻量云Cloud 首先需要考虑的是网站的访问量如果只是一个简单的个人网站每天只
2023最新网络安全Web Hacking 101笔记，祝你更好的学习网络安全！

在计算机技术如日中天的今天 Web安全问题也接踵而来但Web安全却入门简单精通难涉及技术非常多且广学习阻力很大为此今天分享一份94页的 Web Hacking 101 笔记包含Web安全知识例如HTML注入 XSS CSRF
python爬虫数据采集

近几年来 python的热度一直特别火大学期间也进行了一番深入学习毕业后也曾试图把python作为自己的职业方向虽然没有如愿成为一名python工程师但掌握了python 也让我现如今的工作开展和职业发展更加得心应手这篇文章主要
美国国防部采办中的ChatGPT：高级语言模型的机遇和风险

随着人工智能的不断进步像 ChatGPT 这样的大型语言模型有可能彻底改变国防采购和合同签订的方式由于语言模型能够生成类似人类的文本因此可以自动完成采购中的许多重复而耗时的任务如文件准备研究和沟通与任何新技术一样国防工业采用大
MySQL 8.0 压缩版安装教程

1 下载mysql压缩包 2 解压文件我这里把压缩包解压到E盘的根目录 3 配置系统环境变量为了让Windows系统可以识别我们这里后面会用到的MySQL命令需要给当前系统添加环境变量我的电脑右键 gt 属性 gt 高级系统设置
轻量应用服务器小程序部署可以吗？

轻量应用服务器是指提供了一定的并发能力等功能的云服务器它可以实现对网站小程序提供高效安全的技术支持而小程序则是一种新的开放能力不仅具有出色的使用体验还可以在微信内被便捷地获取为用户提供便利的服务原文地址轻量应用服务器小程
浅析Hotspot的经典7种垃圾收集器原理特点与组合搭配

浅析Hotspot的经典7种垃圾收集器原理特点与组合搭配 HotSpot共有7种垃圾收集器 3个新生代垃圾收集器 3个老年代垃圾收集器以及G1 一共构成7种可供选择的垃圾收集器组合新生代与老年代垃圾收集器之间形成6种组合每个新生代垃圾
WebGL笔记：图形缩放的原理和实现

缩放 1 原理缩放可以理解为对向量长度的改变或者对向量坐标分量的同步缩放如下图比如让向量OA 收缩到点B的位置也就是从OA变成OB 缩放了一半 2 公式已知点A的位置是 ax ay az 点A基于原点內缩了一半求点A內缩
Tomcat 配合虚拟线程，一种新的编程体验

Java 21 在今年早些时候的 9 月 19 日就正式发布并开始正式引入虚拟线程但是作为 Java 开发生态中老大哥 Spring 并没有立即跟进而是在等待了两个月后的 11 月 29 日伴随着 Spring Boot 3 2 版
leetcode：468. 验证IP地址

验证IP地址中等 249 相关企业给定一个字符串 queryIP 如果是有效的 IPv4 地址返回 IPv4 如果是有效的 IPv6 地址返回 IPv6 如果不是上述类型的 IP 地址返回 Neither 有效的IPv4地址是
《许犁庭与柔性世界》第三十章出云，乘雷与君影

再次回到校园伴随着老师舒缓的节奏徜徉在大大小小深浅不一的草垛间头顶碧空如洗脚底金蕊盖霜四周稻色黄莽远处绿黛青芒境与心会便欲驭风跨蜿虹 1 若不是老师一把拉住许犁庭估计会一头撞到前方那澹烟笼罩的巨树上呵呵第一次进入伊拉
如何更好地平衡工作和生活？从实际出发

在当今快节奏的生活中平衡工作和生活的重要性越来越受到人们的关注工作和生活是相辅相成的只有通过良好的平衡我们才能在工作和生活中获得最佳的状态和体验然而如何更好地平衡工作和生活呢下面将介绍一些实用的方法一制定合理的时间表制定
某音订单接口在电商行业中的重要性及实践应用

一引言随着移动互联网的快速发展短视频平台抖音已经成为人们日常生活中不可或缺的一部分越来越多的商家开始利用抖音平台推广和销售商品从而实现商业变现在这个过程中抖音订单接口起到了至关重要的作用本文将详细探讨抖音订单接口在电商行业中
利用FileZilla下载PHOENIX高分辨率光谱

下载PHOENIX光谱在诸如CCF SED拟合中经常需要下载模板光谱因此有一些大牛提供了相关的光谱库供大家使用例如 Gottingen Spectral Libary by PHOENIX 论文 A new extensive lib
Node.js爬虫实战：搜狗图片爬取

说在前面当我们在网上寻找图片时经常会遇到需要批量下载搜索结果中的图片的情况而搜狗作为中国颇具影响力的搜索引擎之一其图片搜索功能提供了丰富多样的图片资源在这种情况下我们希望能够通过编程的方式批量下载搜狗图片搜索结果中的图片以便