爬虫碎碎念

2023-11-14

20230304 -

(非专业人士,简单记录自己的需求和思考)

0. 引言

平时看到一些网站的照片什么的,有那种批量下载的需求,当然有些也是视频网站的图片介绍什么的,也即是说,我需要把这些网站的照片批量下载下来。

以前的时候,写过简单的爬虫,因为需求比较简单,都是直接写正则,然后硬匹,然后下载。也没有尝试使用过框架。

但是后来慢慢发现,其实我的工作是可以公式化的,比如最简单的方式,因为我所爬的内容都有一定的规律性,虽然不同网站的内容不同,但本质上落实到策略其实都相似。所以在想,是不是有一定的组织方式可以将代码结构组织起来,或者有现成的框架呢?!

因为不是专业的爬虫人员,所以平时也都是简单写写代码来满足自己的需求,一些大的框架虽然知道都没有使用过。

1. 需求

那么我的需求是什么?是不是已经有代码框架能够满足?我记得之前的时候看到过一个框架,好像大致是能够满足我的需求的,从本质上来说,我需要做的,就是把我所需要的网站的策略自己进行编写,那些下载什么的,其实都不需要我来进行具体写。

总结起来,我感觉这个框架应该支持的功能有这些:

1)有HTTP管理界面,具体管理的方案不用管,但是能够支持在线显示我的下载结果,支持多种形式的数据,图片,文字描述等
2)能够支持代码,这个需求感觉应该不是什么难事。。估计现在大量的爬虫都是代理执行的,毕竟你没有代理,估计也就被封了
3)Docker化,部署环境还是不要太费劲了,直接有docker版本是最好的,不然还得装环境
4)无痛编程,无论是多线程也好,还是异步执行也好,这些都能够支持,然后我只需要对我所针对的网站进行编程爬取的策略定义
5)python语言,现在已经只会python了,没办法

感觉我这些需求都是非常普遍的需求。。也不是什么奇葩的要求。估计应该已经有框架能够支持了。

后续的话,有时间的时候就自己找找框架试试。但还是要明确,自己只是有一些爬取数据的需求,并非要大面积的实现。(当然后续的时候说不定真的要弄成大面积的,那个时候再说吧)

2. 框架

很多文章都总结大量的爬虫框架,例如文章[1],但这篇文章太老了17年的,一些新的框架没有包含,例如Boris-code/feapder[2]

在这里插入图片描述

(未完待续)

参考

[1]史上最全的网页爬虫技术框架合集
[2]feapder

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫碎碎念 的相关文章

  • python爬虫,多线程与生产者消费者模式

    使用队列完成生产者消费者模式 使用类创建多线程提高爬虫速度 https sc chinaz com tupian index html https sc chinaz com tupian index 2 html https sc chi
  • 9.用python写网络爬虫,完结

    前言 这是python网络爬虫的最后一篇给大家做个总结 且看且珍惜把 截止到目前 前几章本书介绍的爬虫技术都应用于一个定制网站 这样可以帮助我们更加专注于学习特定技巧 而在本章中 我们将分析几个真实网站 来看看这些技巧是如何应用的 首先我们
  • Scrapy爬虫,数据存入MongoDB

    开始 首次登陆MongoDB 由于没有设置用户管理权限 会给出警告 WARNING Access control is not enabled for the database 警告 warning 和错误 error 不一样 你完全可以忽
  • selenium自动向下滚动页面,并指定最大滑动距离

    需要selenium控制的chrome向下滑动 自动加载一些内容 核心代码是 browser execute script window scrollBy 0 300 这行可以向下滑动300个像素 需要的工具函数如下 def roll wi
  • 抓取微信文章:使用代理来处理反爬虫措施

    参考 崔庆才老师教程 目标网站分析 我们将从搜狗 微信这个网址来爬取微信的文章 https weixin sogou com 输入 程序员 并搜索 可以看到上方的URL有许多的信息 我们只保留query type page这几个参数即可 修
  • Python基础语法看一篇就够了,全网最全Python语法笔记汇总

    前言 Python 是一种代表简单思想的语言 其语法相对简单 很容易上手 不过 如果就此小视 Python 语法的精妙和深邃 那就大错特错了 如能在实战中融会贯通 灵活使用 必将使代码更为精炼 高效 同时也会极大提升代码B格 使之看上去更老
  • 用Python手把手教你实现一个爬虫(含前端界面)

    目录 前言 爬虫基本原理 使用Python的requests库发送HTTP请求 使用BeautifulSoup库解析HTML页面 使用PyQt5构建前端界面 实现一个完整的爬虫程序 结语 前言 随着互联网的飞速发展 再加上科技圈的技术翻天覆
  • 1688(阿里巴巴国内站)API在跨境电商中的妙用

    随着数字时代的到来 API Application Programming Interface 应用程序编程接口 在各个行业的应用越来越广泛 尤其是在跨境电商领域 API作为一种通用的通信协议 为不同软件应用程序之间的数据交互和功能调用提供
  • 43 个 Bash 编程最容易犯的错误大全

    Bash Pitfalls 1 文章介绍了 40 多条日常 Bash 编程中 老手和新手都容易忽略的错误编程习惯 每条作者在给出错误的范例上 详细分析与解释错误的原因 同时给出正确的改写建议 文中有不少引用的文章 也值得大家仔细阅读 仔细阅
  • node.js中国传统节日介绍网站的设计与实现+32006(免费领源码、附论文)可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、全套文案

    基于 node js中国传统节日介绍网站 摘 要 随着科学技术的飞速发展 社会的方方面面 各行各业都在努力与现代的先进技术接轨 通过科技手段来提高自身的优势 中国传统节日介绍网站当然也不能排除在外 中国传统节日介绍网站是以实际运用为开发背景
  • 2023年最火副业;python爬虫兼职,一周赚7800元,一天只要两小时 !

    现在学习python的人越来越多了 跟大家简单如何利用python搞副业赚钱的 想要利用 Python 赚钱的方式还是比较多的 其中接单和投稿算是两种比较简单的方式了 如果你是业余学python爬虫 可以去淘宝上加了找了几个店铺直接问需要爬
  • 大揭秘!Python处理办公自动化的10大场景!

    知乎上有个热门问题 Python 未来会成为大众办公常用编程工具吗 在编程世界里 Python已经是名副其实的网红了 曾经一个学汉语言的研究生 问我怎么学Python 因为他们课程论文里需要用到文本分析 用Python来跑数据 我和他说 你
  • Python爬虫入门(一)

    前言 很多人都或多或少听说过 Python 爬虫 我也一直很感兴趣 所以也花了一个下午入门了一下轻量级的爬虫 为啥是轻量级的爬虫呢 因为有的网页是比较复杂的 比如需要验证码 登录验证或者需要证书才能访问 我们了解爬虫的概念和架构 只需要做一
  • Python爬虫 (适合初学者)

    关于爬虫是什么 怎样保证爬虫的合法性小编在这就不再过多的阐述 从本章起 小编将和大家一起分享在学习python爬虫中的所学 希望可以和大家一起进步 也希望各位可以关注一下我 首先我们来初步了解下如何使用开发者工具进行抓包 以 https f
  • Java爬虫采集房源信息解决朋友店铺选址难题

    昨天我帮朋友选择了适合的开店种类 今天同样的 利用爬虫技术采集店铺房源信息 为朋友店铺开店选址提供一份建议 数据筛查只是作为信息整理的一部分 重要的还是要看地点人流量还需要实地考察才行 我的数据只是做参考 废话不多说 连夜码出下列代码 以下
  • 深度解析Python爬虫中的隧道HTTP技术

    前言 网络爬虫在数据采集和信息搜索中扮演着重要的角色 然而 随着网站反爬虫的不断升级 爬虫机制程序面临着越来越多的挑战 隧道HTTP技术作为应对反爬虫机制的重要性手段 为爬虫程序提供了更为灵活和隐蔽的数据采集方式 本文将探讨Python爬虫
  • 可狱可囚的爬虫系列课程 09:通过 API 接口抓取数据

    前面已经讲解过 Requests 结合 BeautifulSoup4 库抓取数据 这种方式在抓取数据时还是比较方便快捷的 但是这并不意味着所有的网站都适合这种方式 并且这也不是抓取数据的最快方式 今天我们来讲一种更快速的获取数据的方式 通过
  • 研究生写爬虫险些锒铛入狱,起因竟是为爱冲锋?

    我国目前并未出台专门针对网络爬虫技术的法律规范 但在司法实践中 相关判决已屡见不鲜 K 哥特设了 K哥爬虫普法 专栏 本栏目通过对真实案例的分析 旨在提高广大爬虫工程师的法律意识 知晓如何合法合规利用爬虫技术 警钟长鸣 做一个守法 护法 有
  • 爬虫数据特殊符号处理(记录+持续补充)

    1 xa0 replace u xa0 2 amp html 的空格 https blog csdn net weixin 43640594 article details 122859029 import html html unesca
  • 【逆向爬虫】Python中执行调用JS的多种方法汇总_python 执行js

    一 引言 以前的数据靠买 现在的数据靠爬 越来越多的学者通过网络爬虫来获取数据 但是做爬虫的人都知道 现在的很多网站都在和我们斗智斗勇 防护普遍越来越好 并且越有价值的网站在这方面越强 哪怕是小一点的网站也多多少少存在一些反爬 而JS逆向又

随机推荐

  • 脉冲的三种形式

    脉冲信号可以分为AB相脉冲 脉冲 方向 CW CCW脉冲 这三种信号格式 在十几年前或者还有明显的相对优缺点和适用场合 现在就已经无所谓了 即使在使用上还是有所区分 也基本上是由于历史习惯 1 A B信号 位置传感器最喜欢的格式 因为 早期
  • 修改远程桌面端口bat批处理(windows)

    新建批处理 将以下内容复制进去即可 修改成功后会自动重启 echo off color f0 echo 修改远程桌面3389端口 支持Windows 2003 2008 2008R2 2012 2012R2 7 8 10 echo 自动添加
  • springboot 集成 elasticsearch(maven项目)

    1 搭建springboot项目 能跑起来 具体百度 我的springboot版本 1 5 9 RELEASE 2 本机或者服务器安装elasticsearch并启动服务成功 我本地Windows安装的elasticsearch版本6 1
  • geo算法了解学习以及选择

    需求 通过坐标了解到距离最近的桩号 建筑 景点 Mysql Sql语句 SELECT id ST Distance Sphere POINT item longitude item latitude POINT longitude lati
  • Postman第七篇:其他好用的功能及工具

    其他好用的功能及工具 分组 Collection 在刚开始一个项目时 为了后续便于组织和管理 把同属该项目的多个 API 放在一组里 所以要先去新建一个 Collection New gt Collection 使用了段时间后 建了多个分组
  • 如何创建一个自己的sphinx文档网站

    文章目录 前言 一 操作步骤 1 安装anaconda 2 启动python3 8环境 3 安装Sphinx 4 创建文件夹 5 初始化环境 6 编译 7 文件夹搭查看 8 搭建nginx查看 8 更换主题 9 错误修复 10 这里提供两个
  • IDEA学习记录19--sql注入与Statement预编译

    1 sql注入 package net xdclass web dao import java sql Connection import java sql DriverManager import java sql ResultSet i
  • 从FindBugs中学Java【一】

    2019独角兽企业重金招聘Python工程师标准 gt gt gt findbug 这里 中文列表 http svn codehaus org sonar plugins tags sonar l10n zh plugin 1 1 src
  • forwardRef 的详解及使用

    一 介绍 React forwardRef 会创建一个React组件 这个组件能够将其接受的 ref 属性转发到其组件树下的另一个组件中 这种技术并不常见 但在以下两种场景中特别有用 转发 refs 到 DOM 组件 在高阶组件中转发 re
  • vue 一直发送请求websocket

    vue项目运行时一直请求websocket 导致控制台 接口大量报错无法查看控制台输出内容以及接口返回值 解决办法 打开 node modules sockjs client dist sockjs js 文件将 self xhr send
  • easyexcel poi 指定行指定列设置样式

    easyexcel poi 指定行指定列设置样式 1 给指定行指定列设置字体及居中 2 给指定行指定列设置边框 1 给指定行指定列设置字体及居中 给指定行指定列设置字体及居中 param workbook param rowIndex 第几
  • 【小沐学CAD】虚拟仿真开发工具:GL Studio

    文章目录 1 简介 2 软件功能 3 应用行业 3 1 航空 3 2 汽车 3 3 防御 3 4 工业 3 5 电力与能源 3 6 医疗 3 7 空间 3 8 科技 结语 1 简介 https disti com gl studio htt
  • 数据结构之算法复杂度篇

    要努力 但是不要急 繁花锦簇 硕果累累都需要过程 目录 前言 1 什么是数据结构 2 什么是算法 3 算法的复杂度 1 概念 2 时间复杂度 3 空间复杂度 4 常见的复杂度对比 4 复杂度的oj练习 5 总结 前言 在程序段运行的时候 我
  • 将h5封装为微信小程序

    1 要求网站域名必须为https 2 登录微信公众号好注册一个小程序账号 3 打开威胁你开发者工具进行创建 4 打开app json文件 pages项只保留 pages index index 这一行 5 打开 pages index in
  • 【千律】C++基础:类定义和类实现的分离

    类定义就是指定义类名 是 h文件 类实现是指对类定义的具体实现 是 cpp文件 下面是Student h中的内容 pragma once include
  • frc机器人比赛主题_参加了十几场机器人竞赛后,我才敢告诉你:怎样做到不“踩坑”?...

    在决定参加比赛之前 先问自己为什么 为什么要先聊这一点 因为这个问题会决定你的很多选择 很多家长会先去看那个 果 比如 比赛获奖有没有用 这个比赛含金量如何 但是这个 因 是每个家长要先问自己的 你是不是认同机器人竞赛是对孩子综合能力的提升
  • 2000端口号的坑

    这两天对接某游戏的充值接口的时候碰到一个恶心的问题 公司机器和服务器请求游戏方2000端口号的时候 死活获取不到返回No Response 但是同一个请求串外网环境都是正常的 经多次和游戏方你来我往之后发现 2000端口默认是sccp协议
  • 2W字长文吐血整理 Docker&云原生

    Docker 和 云原生 一 概念介绍 1 1 Docker Docker 是一个开源的应用容器引擎 让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中 然后发布到任何流行的 Linux或Windows操作系统的机器上 也可以实现虚拟
  • React 应用的 Nginx 缓存控制

    典型 React 应用面临的缓存问题 可通过 Nginx 配置进行解决 通用部署 构建应用后 只需使用 Nginx 指向静态文件即可 server listen 80 root PATH TO APP build try files uri
  • 爬虫碎碎念

    20230304 非专业人士 简单记录自己的需求和思考 0 引言 平时看到一些网站的照片什么的 有那种批量下载的需求 当然有些也是视频网站的图片介绍什么的 也即是说 我需要把这些网站的照片批量下载下来 以前的时候 写过简单的爬虫 因为需求比