【node】12、Koa实现简单爬虫案例

2023-11-18

效果图如下：
在这里插入图片描述

首先我们新建文件夹→进入终端：
初始化node项目：npm init -y
安装koa搭建服务模块：npm install koa
安装superagent发送请求模块：npm install superagent
安装cheerio文档转对象模块：npm install sheerio

app.js

const request = require('superagent');  //发送请求模块
const cheerio = require('cheerio');     //转对象模块
const Koa = require('koa');             //搭建服务模块

const app = new Koa;   //开启服务
//需要爬取的网站
const url = 'https://www.lagou.com/zhaopin/webqianduan/?labelWords=label'; 

app.use(async ctx =>{
  const arr = [];   //存放爬取到的数据
  const data = await new Promise(resolve =>{
    request
      .post(url)  //爬取数据请求的地址
      .end((err, res)=>{
        const data = res.text;  //请求到的html文档
        const $ = cheerio.load(data); //html转对象
        //去分析原网页的dom结构 li的class为.con_list_item
        $('.con_list_item').each((i,v)=>{
          const $v = $(v);
          const obj = { //爬取class=position_link的a标签的href
            src: $v.find('a.position_link').prop("href"),
            zhili: $v.find('.li_b_l').text().trim(),
            money: $v.find('.money').text().trim(),
            name: $v.find('.company_name a').prop("href"),
            industry: $v.find('.industry').text().trim(),
          }
          arr.push(obj);
        })
        resolve(arr)
      })
  })
  ctx.body = arr; //将爬取的数据返回给前端
})

app.listen(3000);

项目文件展示如下：
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

nodejs

Node

【node】12、Koa实现简单爬虫案例的相关文章

向回调函数添加附加参数

我正在 Node js 中构建一个系统该系统应该查找文件夹数组中的所有文件统计它们然后使用该信息执行一些其他工作我使用 fs readdir 从每个文件夹同步获取所有文件我的代码如下所示 for i 0 max paths len
Node JS 如何将图像和请求数据一起 POST 到另一个服务器/api

我正在尝试将图像从 Node JS 应用程序发布到另一个 REST API 我在 Mongo DB 中有图像作为二进制数组数据由 Node JS 读取然后应该发布到另一个 API 我面临的问题是如何将请求数据与图像一起发送我有这个原
npm install --legacy-peer-deps 到底做了什么？何时推荐/潜在的用例是什么？

刚刚遇到这个错误 npm ERR code ERESOLVE npm ERR ERESOLVE unable to resolve dependency tree npm ERR npm ERR While resolving email
为什么 res.end 和 res.send 的字体不同？

我有以下最小的基本 Express Node js 应用程序 var express require express var app express app get function req res res send Hello app l
带有标题的图片库，在 keystonejs 上使用 CloudinaryImage

我正在使用 keystonejs 和 CloudinaryImages 创建图像库 type Types CloudinaryImages 我需要能够为图像添加标题我也在读这个 https github com keystonejs ke
在dynamodb中使用batchWriteItem

我的 dynamo 数据库中有两个表一个是候选表另一个是用户表我想在 dynamo 数据库中使用 batchWriteItem 以便在表中添加数据我格式化的查询如下 var user userid usrid role candida
如何在nodejs中获取同步readline，或者使用异步“模拟”它？

我想知道是否有一种简单的方法来获取同步 readline 或至少在 node js 中获取同步 I O 的外观我用这样的东西但它很尴尬 var readline require readline var rl readline cre
nodejs 强大的改变 uploadDir

我有一个项目正在努力完成我想上传图像我可以上传图像但不能上传应该上传的空中图像好的让我们编写代码 app post register function req res var form new formidable Incoming
Heroku 中的子目录未使用express.static 提供服务

我看到一些非常奇怪的行为其中我的一些文件正确地由我的 Express Node 服务器返回使用express static 但不包括子目录中的文件令人沮丧的是它在本地使用 Node 或 foreman 工作得很好但在 Heroku
如何检查nodejs中的服务器和端口是否可用？

我有一个项目是用 Nodejs 编写的我需要知道如何检查带有端口的 IP 是否可以连接前任检查 example1 com 443 gt true 检查 example1 com 8080 gt false Thanks 了解服务器端
Mongoose 更新或插入许多文档

我正在尝试使用最新版本的 mongoose 插入对象数组或者更新相应的产品 ID 是否已存在我一生都无法找出正确的使用方法 bulkWrite updateMany 等而且我似乎无法在不出现错误的情况下找出语法例如我正在尝试 Pr
Firebase Admin SDK：设置/合并自定义用户声明

Firebase 有什么技巧吗 merge true 设置额外更多定制索赔没有删除覆盖旧的变量重现步骤 admin auth setCustomUserClaims uid a value Run this first admin a
检索 Couchbase 的所有记录（文档）

我正在使用 node js 并寻找一种方法来获取特定的 couchbase 桶的所有文档有没有没有循环和增量索引的解决方案我知道我可以制作一个原子键然后通过循环使用它来检索所有数据但我需要一个返回所有文档的函数是否有任何函数至少
出现错误 /usr/bin/env: 节点：权限被拒绝

我已经在我的服务器 Centos 上完成了 ODOO v9 安装一切都已安装成功登录页面也可以正常工作但登录后我收到一个包含以下错误的页面 usr bin env node Permission Denied 我尝试更改权限但我的问
pip 相当于 `npm install package --save-dev` 的东西是什么？

在nodejs中我可以做npm install package save dev将安装的包保存到包中如何在 Python 包管理器中实现同样的效果pip 我想将包名称及其版本保存到例如 requirements pip就在使用类似的东
为什么 localhost 不会在 chrome (OSX) 中路由到 127.0.0.1？

当我使用 node debug 启动脚本时它尝试导航到 URL localhost debug port 5858 但找不到那里提供的页面如果我将 localhost 更改为 127 0 0 1 一切正常我可以 ping localh
Node.js 原生 Promise.all 是并行处理还是顺序处理？

我想澄清这一点因为文档 https developer mozilla org en US docs Web JavaScript Reference Global Objects Promise all对此还不是太清楚 Q1 Is Pr
在 JavaScript/Node.js 中将 Youtube Data API V3 视频持续时间格式转换为秒

我正在尝试将 ISO 8601 字符串转换为 JS Node 中的秒我能想到的最好的办法是 function convert time duration var a duration match d g var duration 0 if
P12 证书“数据不足”错误

我试图使用安全地连接到端点 p12文件但我不断收到以下错误 tls common js 136 c context loadPKCS12 pfx Error not enough data at Error native at Objec
如何解析不可预测地散布到字符串中的 JSON？

假设我有一个 node js 应用程序它以一种奇怪的格式接收输入带有任意散布在其中的 JSON 的字符串如下所示 This is a string with json in it followed by more text and s

随机推荐

python的xlrd、xlwt模块/pymsql使用

xlrd模块 https www cnblogs com machangwei 8 p 10736528 html label0 xlwt模块https www cnblogs com machangwei 8 p 10738244 htm
Filter过滤器实现权限拦截

一要求用户登陆之后才能进入主页用户注销之后不能进入首页二思路用户登陆之后向session中放入用户的数据进入主页的时候要判断用户是否已经登陆在过滤器中实现 public void doFilter ServletReque
电脑怎样连接打印机？分享4个简单操作!

为了更方便学习我买了一个打印机来打印需要用的资料但是操作了半天还是没连接上想请问一下有经验的朋友是怎么将打印机与电脑进行连接的呢在现代人的工作和生活中打印机是一个重要的设备我们可以利用打印机进行资料文件等的打印但是也会有很多
SpringBoot调用PageHelper.startPage(Object params)报错：分页查询缺少必要的参数:XXX

问题描述项目中使用了MyBatis分页插件调用以下方法实现分页无论传入JavaBean还是Map都报错分页查询缺少必要的参数 XXX Map
【Docker】云原生利用Docker确保环境安全、部署的安全性、安全问题的主要表现和新兴技术产生

前言 Docker 是一个开源的应用容器引擎让开发者可以打包他们的应用以及依赖包到一个可移植的容器中然后发布到任何流行的Linux或Windows操作系统的机器上也可以实现虚拟化容器是完全使用沙箱机制相互之间不会有任何接口云原生
Python学习第二章数据类型

Python学习第二章数据类型上 1 数字 1 1 整型 int 1 2 浮点型 float 1 3 布尔类型 bool 1 4 代码实现 1 5 复数 2 字符串 string 2 1 如果字符串内容中出现了引号 2 2 代码实现 2
pandas生成excel文件

可以使用pandas中的to excel 函数将DataFrame数据写入Excel文件例如 import pandas as pd 创建测试数据 data name Mike John Bob age 25 32 45 city New
STM-32：SPI通信协议/W25Q64简介—软件SPI读写W25Q64

目录一 SPI简介 1 1电路模式 1 2通信原理 1 3SPI时序基本单元 1 3 1起始和终止 1 3 2交换字节二 W25Q64 2 1W25Q64简介 2 2W25Q64硬件电路 2 3W25Q64框图 2 4Flash操作注意
double类型精度丢失问题以及解决方法

double类型精度丢失问题 1 加法运算 public static void main String args double number1 1 double number2 20 2 double number3 300 03 dou
arcgis for android 学习 - (5) 在地图指定位置添加“标记“，并尝试选中它

我做一个例子 1 首先显示一个地图 2 点击添加要素按钮后再次点击地图将会在地图上添加红色的位置标记 3 再次点击按钮后这时就可以点击刚刚添加的红色的位置标记就可以查看到该标记关联到得属性值布局
NO.17 浅谈共识机制(POW、POS、DPOS、PBFT、POP)

区块链是一种去中心化的分布式账本可以简单理解为分布在全球各个节点的分布式数据库数据库由区块按时间顺序相连而成区块中记录的是数笔交易为了能支持这一套系统的运行需要各节点矿工的参与他们参与的主要原因是因为有奖励奖励可以去交易所换成
kafka消费者客户端线程安全以及多线程实现并发读取消息

kafka的生产者客户端Producer是线程安全的但是消费者客户端是非线程安全的每次操作时都会调用accqure方法用来确定当前只有一个线程操作如果有多个线程在操作会抛出CME异常针对这种情况为了能够多线程更快速的读取消息可
【Python 1-17】Python手把手教程之——文件的读写以及I/O操作

作者弗拉德来源弗拉德公众号 fulade me 从文件中读取数据文本文件可存储的数据量很多每当需要分析或修改存储在文件中的信息时读取文件都很有用对数据分析应用程序来说尤其如此例如你可以编写一个这样的程序读取一个文本文
研发人员欠缺的“不要脸”文化

一直感觉研发人员相对市场人员确实缺少点什么今天听到一个原华为的人说华为的文化中有一个不要脸文化讲的就是研发人员要特别注意的事项特别说明不要脸三个字据说是任正非认为这样好记才取得名字这三点是抬头看路找人问路请人带路
由先序中序，或后序中序，可以唯一确定二叉树；完全二叉树的顺序存储，c/c++描述

这是课本里的两个定理由先序根左右后序左右根可以确定根节点是哪个由中序左根右可以确定左子树和右子树的范围所以我们也找到了二叉树的左子树和右子树的先序或后序和中序排列由归纳法可得出这个构造二叉树链表的方法对于完全二
loadrunner负载生成器；

负载生成器 Load Generators 是脚本生成的负载引擎相当于加压机主要功能是生成虚拟用户进行负载在默认的情况下使用本地的负载生成器来运行脚本但是每生成一个虚拟用户需要话费负载生成器大约2M 3M的内存空间通常运行CON
java8有哪些jvm参数

Java8中的JVM参数有很多种这里列出一些常用的 server 指定JVM运行在服务器模式在服务器环境下性能会更好 Xmx 设置JVM最大可用内存 Xms 设置JVM初始内存 XX PermSize 设置持久代 Perm Gen 的初
Python常用库大全

作者史豹链接 https www zhihu com question 20501628 answer 223340838 来源知乎著作权归作者所有商业转载请联系作者获得授权非商业转载请注明出处环境管理管理 Python 版
Visual Studio 2017 远程调试器(MSVSMON.EXE) 找不到连接

Visual Studio 2017 远程调试器 MSVSMON EXE 找不到连接用的是wifi上网而远程主机是有线连接经过几个小时的排查终于发现不在一个网段内把wifi改成有线确保和远程主机在一个网段内就可以联上了
【node】12、Koa实现简单爬虫案例

效果图如下首先我们新建文件夹进入终端初始化node项目 npm init y 安装koa搭建服务模块 npm install koa 安装superagent发送请求模块 npm install superagent 安装cheeri

【node】12、Koa实现简单爬虫案例

【node】12、Koa实现简单爬虫案例 的相关文章

随机推荐

热门标签

【node】12、Koa实现简单爬虫案例的相关文章