第三节爬虫基本原理

2023-05-16

爬虫概述

爬虫是指通过程序自动化地获取互联网上的信息，从而达到快速、大量地获取数据的目的。
Python语言有着丰富的爬虫库和框架，因此成为了编写爬虫程序的主流语言之一。

Python写爬虫的优势：

语法简洁：Python语言的语法简单易懂，代码易读易写，开发效率高。
多种库支持：Python拥有丰富的第三方库，包括网络爬虫库（如requests、BeautifulSoup、Scrapy等）、数据处理库（如numpy、pandas等）以及可视化库（如matplotlib、seaborn等），使用这些库可以快速完成数据的采集、处理和展示。
跨平台支持：Python可以运行在各种操作系统上，具有较好的跨平台支持，因此可以方便地部署和运行爬虫程序。
Scrapy爬虫框架
Scrapy是一个基于Python的高级爬虫框架，采用了Twisted异步网络框架实现。Scrapy框架具有以下特点：
快速高效：采用异步IO，高效地处理网络请求和响应。
方便扩展：提供了丰富的插件和组件，方便扩展和自定义。
方便调试：提供了强大的调试功能和命令行工具，方便调试和测试。
分布式支持：提供了分布式爬虫的支持，方便快速地扩展爬虫的抓取能力。

能爬什么样的数据？

爬虫可以爬取各种形式的数据，以下是我能列举出来的一些数据类型：

文字数据：包括新闻、文章、博客等文本形式的数据。
图片数据：包括各种图片格式的数据，如JPEG、PNG等。
音视频数据：包括音频、视频等多媒体数据。
数据表格：包括各种类型的数据表格，如Excel表格、HTML表格等。
JSON数据：JSON格式的数据，常用于前后端数据传输。
XML数据：XML格式的数据，常用于Web服务的数据传输。
总的来说，爬虫可以爬取互联网上几乎所有可公开访问的数据。但需要注意的是，爬虫要遵守法律法规和网站的规定，避免侵犯他人隐私和知识产权等问题。

js渲染的页面

现在越来越多的网页是通过Ajax、前端模块化工具构建的，可能整个网页都是js渲染出来的，可能原始的html只是一个空壳。

爬取的页面与网页展现的不一致?

爬虫爬取的页面与看到的网页展现不一致，一般有以下几个原因：

JavaScript渲染：有些网站采用前后端分离的方式，前端通过JavaScript渲染页面，爬虫爬取的是未渲染前的源代码，导致爬取的页面与看到的页面不一致。这时候可以尝试使用Selenium等工具来模拟浏览器行为，获取完整的渲染后的页面。
动态加载：有些网站采用了动态加载技术，即只有当用户滚动到页面底部时，网页才会动态加载更多内容。这时候可以使用Selenium等工具模拟用户滚动操作，或者直接通过分析网站的API接口获取数据。
用户登录：有些网站需要用户登录后才能查看完整的内容，爬虫没有登录信息，获取到的页面可能不完整。这时候需要模拟登录，获取登录后的cookie信息，再进行爬取。
反爬机制：有些网站会采取一些反爬虫机制，如设置User-Agent限制、IP封禁等等，导致爬虫无法正常访问。这时候可以尝试使用代理IP、随机User-Agent等方式来规避反爬机制。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

第三节爬虫基本原理的相关文章

docker主要命令整理

docker docker info docker version docker images 展示镜像 docker ps 展示容器 docker ps a 会展示出所有正在运行的和已经停止的容器 docker rmi 镜像ID 删除镜像
python xml读写

1 xml例子 lt xml version 61 34 1 0 34 encoding 61 34 UTF 8 34 gt lt annotation gt lt folder gt VOC2007 lt folder gt lt fil
caffe2编译问题：avx、avx2

caffe2编译问题 xff1a 9898 init intrinsics check cc 54 CPU feature avx is present on your machine but the Caffe2 binary is no
【Hello,电赛】2020电赛从备战到回顾(F题)

瞎扯几句 2020应该让所有人难忘的一年赋闲大半年 xff0c 开学两行泪博主也是突然从大二被迫成了大三老油条大一的时候身边就有同学开始展露科创竞赛方面的头角 xff0c 后来成了学院有名的带佬咱当时觉得好玩也是羡慕 xff0c 奈
#C++#通过libcurl获取当前次HTTP请求的一些相关信息

libcurl库是一个非常完整和好用的HTTP请求库 xff0c 通过它 xff0c 我们可以方便的书写HTTP请求程序 xff0c 而且不需要关心HTTP协议内部的细节处理最近在做一个HTTP监测的程序 xff0c 就是通过libcur
运行Maven Web项目出现 org.eclipse.jdt.internal.compiler.classfmt.ClassFormatException错误

异常问题描述 xff1a 初学Maven xff0c 新建了一个基于Web骨架的Web项目 xff0c jar 包也导好了 xff0c 作用域也设置正确了 xff0c Tomcat也正常运行了 xff0c 可是就是说编译错误问题原因由于
解决mingw-w64外网下载太慢问题，离线包安装配置过程讲解

常规安装程序下载地址 xff1a http www mingw w64 org doku php 但用安装程序直接安装mingw w64 xff0c 由于国际网络链路问题 xff0c 很难安装成功 xff0c 于是做了打包了一个离线包 xf
HTTP安全-nonce和timestamp在Http安全协议中的作用

http www byywee com page M0 S591 591082 html 写道前段时间给客户网站做新浪微博账号登录功能 xff0c 对 OAuth协议以及相关的一些安全协议做了一些研究 xff0c 顺便就记录一下学习心得吧
NVIDIA TensorRT使用记录

1 准备工作 1 Pipeline train 在Host PC的GPU上训练test deployment 在TX1 TX2上部署使用 2 主机部署步骤 Running JetPack on the Host JetPack L4T 3
用C语言实现串口通讯程序

1 首先安装虚拟串口vspd软件 xff0c 用于创建虚拟串口进行互联调试 2 打开vspd软件 xff0c 选择COM1和COM4 xff0c 点击Add pair xff0c 把COM1和COM4互联 3 打开虚拟串口助手 xff0c
A2M7雷达在虚拟机的SLAM建图

准备 Ubuntu18 04 雷达A2M7 一前期准备安装建立工作空间并编译 mkdir p turtlebot ws src cd turtlebot ws src git clone https github com ncnynl
linux cmake分别指定编译/运行时动态库链接路径

1 背景在树莓派上开发执行程序 xff0c 需要用到opencv curl jsoncpp等库函数支持 xff0c apt get安装好后 xff0c 编译执行正常但是执行程序挪到别的板子上 xff0c 都要apt get安装这些库 x
C语言函数库之字符串连接函数(string.h)

1 字符串连接函数strcat 函数定义 xff1a char strcat char str1 const char str2 函数功能 xff1a 把str2 包括 39 0 39 拷贝到str1的尾部连接 xff0c 并返回str1
foc学习笔记3——电流环

foc学习笔记3 电流环电流环的作用前文不断强调 xff0c 进行磁场定向控制需要控制的是电流而非电压 xff0c 只是因为我们没有办法直接去控制电流才暂时退而求其次地去控制电压虽然电压控制的效果也还不错 xff0c 但由于电机不是单
ESP32之蓝牙配网blufi

概览 BluFi 是一款基于蓝牙通道的 Wi Fi 网络配置功能 xff0c 适用于 ESP32 它通过安全协议将 Wi Fi 配置和证书传输到 ESP32 xff0c 然后 ESP32 可基于这些信息连接到 AP 或建立 SoftAP B
机器人学习之项目- Project2 :Where Am I?

1 项目概述欢迎来到 Where Am I 我在哪里定位项目在这个项目中 xff0c 将学习如何利用ROS AMCL包在Gazebo模拟环境的地图中准确地定位移动机器人在完成本项目的过程中 xff0c 涉及机器人软件工程的几个方面
将不同类对象指针存放QVector中

需求 xff1a 将一系列操作步骤放在链表中按需调用我将每个操作步骤用一个类实现 xff0c 将各类继承于一个基类 xff0c 再将指向各子类的基类指针放在QVector Vector xff0c 即可通过C 43 43 的多态实现调用各
体感摄像头 realsense 系列硬件资料

一体感摄像头 Intel的体感摄像机是具有深度图像采集能力的摄像机 xff0c 目前已经出到了400系列与kinect 2 xff0c ZED xff0c leap motion比较 xff0c 属于比较中庸手势识别方面不如leap
C语言进度条的实现

C语言进度条的实现 buff N xff1a 进度条状态字符串 xff0c N大小决定进度条长度 xff08 自行调整 xff09 xff0c 使用前先将所有字符初始化置零 xff0c 我这里使用的是memset函数 xff1b label
numpy下的随机数

版权声明 xff1a 本文为博主原创文章 xff0c 未经博主允许不得转载 https blog csdn net m0 38061927 article details 75335069 在使用Python进行数据处理时 xff0c 往往

随机推荐

宏函数可变参数 C/C++

span class token macro property span class token directive hash span span class token directive keyword include span spa
排查ingress 404报错的方法--附：在容器中使用tcpdump抓包

出现这个问题 xff0c 一般是由于路由不通导致的 xff0c 需要进行抓包排查首先要解决的问题是 xff0c 如何在 ingress controller 容器中安装抓包工具 1 由于 ingress controller 的mando
fastApi介绍与重要版本更新细节

fastApi介绍 FastAPI 是用于使用 Python 构建 API 的现代 Web 框架它建立在 Starlette 框架之上 xff0c Starlette 框架是一个轻量级且可扩展的 ASGI xff08 异步服务器网关接口
3. fastApi查询参数详解

当声明的参数不是路径参数时 xff0c 路径操作函数会把该参数自动解释为查询参数如下路径操作函数将参数skip limit解释为查询参数 query parameter span class token decorator annota
4. fastApi请求体详解

简单介绍网络请求网络请求是指客户端 xff08 例如浏览器移动应用程序等 xff09 向服务器发送请求 xff0c 以获取特定资源或执行特定操作的过程 HTTP请求是一种常见的网络请求协议 xff0c 它通过互联网连接客户端和服务器 x
python多线程与多进程简略介绍

GIL介绍在python中GIL的限制导致不论是在单核还是多核条件下 xff0c 同时刻都只能运行一个线程 xff0c 这使得Python多线程无法发挥多核并行的优势 GIL全称为Global Interpreter Lock意思是全局
高并发场景下，python各web框架的优劣对比与示例分析

高并发场景下 xff0c python各个web框架的优劣对比与示例分析 Python有许多适合高并发场景的Web框架 xff0c 下面是其中几个 xff1a Flask Flask是一个轻量级的Web框架 xff0c 由Werkzeug和
6. fastApi文件上传请求处理示例

需求 xff1a 开发文件上传功能接口接口路径 files 请求类型 post 响应结果返回文件的大小单位bytes 实现方案使用post类型处理方法 xff0c 指定参数类型为bytes或UploadFile 使用File 方法处
7. fastApi表单数据处理详解与示例

需求前端通过表单数据的形式发送用户名与密码到后端 xff0c 后端通过用户信息校验 xff0c 过滤出合法用户 xff0c 并为用户设置cookie 超时时间为24h xff09 接口路径 login 请求类型 post方法发送的文件响
C语言结构体字节对齐规则

C语言结构体字节对齐规则基本规则规则1 xff1a 结构体 xff08 struct xff09 的数据成员 xff0c 第一个数据成员放在offset为0的地方 xff0c 以后每个数据成员存放在offset为该数据成员大小的整数倍的
如何处理C++构造函数中的错误

用C 43 43 写代码的时候总是避免不了处理错误 xff0c 一般来说有两种方式 xff0c 通过函数的返回值或者抛出异常 C语言的错误处理一律是通过函数的返回值来判断的 xff0c 一般是返回0 NULL 或者 1 表示错误 xff0c
改进后的A星三维路径规划完整算法(matlab语言)，包括障碍物模型优化

改进后的A星三维路径规划完整算法 matlab语言 xff0c 包括障碍物模型优化 xff0c 平滑处理 xff0c 启发函数的改进 xff0c 环境地图可以根据自己的实际情况进行改进 xff0c 算法包含了非常详细的代码注释 ID 695
8. fastApi请求错误处理方式与示例

请求错误处理某些情况下 xff0c 需要向客户端返回错误提示需要向客户端返回错误提示的场景主要如下 xff1a 客户端没有执行操作的权限客户端没有访问资源的权限客户端要访问的项目不存在服务器内部错误遇到这些情况时 xff0c 通常要返
9. fastApi的json编码器使用示例

JSON 编码器有时 xff0c 我们要把 Pydantic 模型等数据类型转换为字典列表等与 JSON 兼容的格式例如 xff0c 把 Pydantic 模型存入数据库时就要进行转换为此 xff0c FastAPI 提供了 jso
10. fastApi数据更新方法

用 PUT 更新数据把输入数据转换为 JSON 数据 xff08 例如 xff0c 使用 NoSQL 数据库时 xff09 xff0c 可以使用 jsonable encoder 例如 xff0c 把 datetime 转换为 str P
写在前面--(与各位读者聊聊)

xff61 xff65 xff65 xff89 xff9e 嗨 xff01 我是jesse xff0c 欢迎来到我的Python爬虫博客专栏 xff01 在本专栏中 xff0c 我将分享Python爬虫技术的各个方面 xff0c 包括基础知
爬虫示例一【简单爬虫实现】

爬虫构建回顾以上的接口分析过程 xff0c 整个对我们有用的请求过程是 xff0c 浏览器发送一个GET请求 xff0c 直接获取到了我们想要的数据页面那么如何通过python代码复现以上的请求过程呢 xff1f 对于这样的简单爬虫 x
第一节请求与响应

请求由客户端发往服务器 xff0c 分为四个部分 xff1a 请求头 xff0c 请求方法 xff0c 请求网址URL 请求体当我们在浏览器中输入一个网址或点击一个链接时 xff0c 浏览器会向服务器发送请求 xff0c 请求获取指定的
第二节 Web网页基础

网页的组成网页需要通过 HTML CSS JavaScript 和各种媒体资源的组合 xff0c 实现多种功能和呈现效果的页面一个网页通常由以下几个组成部分构成 xff1a HTML标记语言 xff1a 定义网页的结构内容和格式 xf
第三节爬虫基本原理

爬虫概述爬虫是指通过程序自动化地获取互联网上的信息 xff0c 从而达到快速大量地获取数据的目的 Python语言有着丰富的爬虫库和框架 xff0c 因此成为了编写爬虫程序的主流语言之一 Python写爬虫的优势 xff1a 语法简洁

第三节 爬虫基本原理