Python爬虫从入门到精通:（1）爬虫基础简介_Python涛哥

2023-10-29

第一章，爬虫基础简介

爬虫概述

前戏

你是否在夜深人静的时候，想看一些会让你更睡不着的图片…
你是否在考试或者面试前夕，想看一些具有针对性的题目和面试题…
你是否想在杂乱的网络世界获取你想要的数据…

爬虫的价值

实际应用
就业

什么是爬虫

通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程

关键词抽取：
- 模拟：浏览器就是一个纯天然最原始的一个爬虫工具
- 抓取：
  - 抓取一整张页面源码数据
  - 抓取一整张页面中的局部数据

爬虫的分类

通用爬虫：
- 要求我们爬取一整张的页面源码数据
聚焦爬虫
- 要求爬取一张页面中的局部的数据
  - 聚焦爬虫一定是建立在通用爬虫基础之上
增量式爬虫：
- 用来检测网站数据更新的情况，以便爬取到网站最新更新出来的数据。
分布式爬虫：
- 提高爬虫效率的终极武器。

反爬、反反爬

反爬机制

是作用到门户网站中。如果网站不想让爬虫轻易爬取到数据，它可以制定相关的机制或者措施阻止爬虫程序爬取数据。

反反爬策略

是作用在爬虫程序中。我们爬虫可以制定相关的策略破击反爬机制从而爬取到相关的数据。

第一种反爬机制

robots协议：防君子不防小人
- 是一个纯文本的协议，协议中规定了该网站中哪些数据可以被哪些爬虫爬起，哪些不可以被爬取。
破解：
- 你自己主观性的不遵从该协议即可。

爬虫究竟是合法还是违法？

在法律上是不被禁止
具有违法风险
善意爬虫恶意爬虫

爬虫带来的风险可以提现下如下两个方面

爬虫干扰了被访问网站的正常运营
爬虫抓取了收到法律保护的特定类型的数据或信息

如何在使用编写爬虫的过程中避免进入局子的厄运呢？

时常的优化自己的程序，避免干扰被访问网站的正常运行
在使用，传播爬取到的数据时，审查抓取到的内容，如果发现了涉及到用户隐私、商业机密等敏感内容，需要及时停止爬取或传播

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

Python爬虫从入门到精通:（1）爬虫基础简介_Python涛哥的相关文章

ssh 远程计算机并使用 pexpect 运行“ls-l”

我想要ssh远程机器并运行ls l using pexpect 我是一名学习Python语言的系统工程师没有编码知识有人可以帮助我吗提前致谢 My code import pexpect child pexpect spawn usr
使用 Mac M1 在 Docker 容器内的 pip 安装中找不到 Tensorflow

我正在尝试使用新的 Mac M1 运行一些项目这些项目已经在英特尔处理器上运行并被使用英特尔的其他开发人员使用我无法构建这个简单的 Dockerfile FROM python 3 9 RUN python m pip install
查找两个字典的匹配键值对

检查一个字典的键值对是否也存在于其他字典中的最有效方法是什么假设我有两个字典dict1 and dict2这两个字典有一些共同的键值对我想找到这些并打印出来做到这一点最有效的方法是什么请建议一种方法是 d inter dict k
Python dict 到 DataFrame Pandas - 级别

几个月前 Romain X 在这个问题上帮了我很多忙 Python 字典到 DataFrame Pandas https stackoverflow com questions 32770359 python dict to datafra
Urllib 的 urlopen 在某些网站上被破坏（例如 StackApps api）：返回垃圾结果

我在用着urllib2 s urlopen函数尝试从 StackOverflow api 获取 JSON 结果我正在使用的代码 gt gt gt import urllib2 gt gt gt conn urllib2 urlopen h
为什么 Numpy 创建零数组比用零替换现有数组的值要快得多？

我有一个用于跟踪各种值的数组数组是2500x1700尺寸上所以不是很大在会话结束时我需要将该数组中的所有值重置为零我尝试创建一个新的零数组并将数组中的所有值替换为零并且创建一个全新的数组要快得多代码示例 for in sess
如何实现带有 ([start ,] stop [ step]) 签名的 python 方法，即左侧的默认关键字参数

由于在 python 3 X 中 build idrange 函数返回的不再是一个列表而是一个可迭代的一些旧代码在我使用时失败range 方便地生成我需要的列表所以我尝试实现我自己的lrange像这样的函数 def lrange st
numpy 中用最少内存对上三角元素求和的最快方法

我需要进行此类求和i
忽略覆盖率报告中的空文件

覆盖率 py https github com nedbat coveragepy会包括 init py在其报告中并将其显示为 0 行但覆盖率为 100 我想从覆盖率报告中排除所有空白文件我不能只添加 init py to omit作为
更改散景图中选项卡的样式

我想知道是否有办法更改散景图上生成的选项卡的属性诸如增加文本字体更改制表符宽度等更改以下是用于生成具有两个选项卡的绘图的简单代码 from bokeh models widgets import Panel Tabs from bok
将函数应用于 3D numpy 数组

我有一个来自 Image PIL Pillow 对象的 numpy 3D 数组 178 214 235 180 215 236 180 215 235 146 173 194 145 172 193 146 173 194 126 171
使用 Pytest 捕获 SystemExit 消息

我正在使用 pytest 编写测试我遇到了一些函数抛出异常的情况SystemExit如果输入错误终端上会显示一些错误消息我想为以下情况编写测试SystemExit抛出并验证输出错误消息中是否有特定字符串这是代码 def test v
使用存储的密钥作为环境变量

我有一个秘密密钥存储在 GCP 的秘密管理器中我们的想法是使用该密钥通过云功能获取预算列表现在我可以从代码中访问该密钥但我面临的问题是我需要使用该密钥设置一个环境变量这是我添加密钥的方式如果您的本地目录中有该文件但是还有其他方
python中终止进程的跨平台方法

当我尝试使用 subprocess Popen terminate 或 Kill 命令终止 Windows 中的进程时出现访问被拒绝错误如果文件不再存在我真的需要一种跨平台的方式来终止进程是的我知道这不是做我正在做的事情的最优雅的
Pygame 旋转射击

我和几个朋友一直在编写一种有趣的新射击机制为了让它发挥作用我们需要朝玩家面对的方向射击 Sprite 正在使用 Pygame Transform Rotate 进行旋转我们怎样才能找到一个角度然后朝那个方向发射子弹呢这是我们的精灵
如何在 django 中发出 post 请求后获取表单的名称？
如何使用 BeautifulSoup 只抓取可见的网页文本？

基本上我想用BeautifulSoup严格抓住可见文字在网页上例如这个网页 http www nytimes com 2009 12 21 us 21storm html是我的测试用例我主要想获取正文文章甚至可能到处都有一些选项
确定 pyInstaller 生成的 Python EXE 中的应用程序路径

我有一个驻留在单个 py 文件中的应用程序我已经能够让 pyInstaller 将其成功捆绑到 Windows 的 EXE 中问题是应用程序需要一个 cfg 文件该文件始终直接位于应用程序旁边的同一目录中通常我使用以下代码构建路
获取 TypeError：ord() 期望长度为 1 的字符串，但 int 发现错误 [重复]

这个问题在这里已经有答案了 Code is from PyPDF2 import PdfFileReader with open HTTP Book pdf rb as file pdf PdfFileReader file pagedd
python生成器太慢，无法使用它。我为什么要使用它？什么时候？

最近我收到一个问题哪一个是最快的 iterator list comprehension iter list comprehension and generator 然后编写简单的代码如下 n 1000000 iter a iter ra

随机推荐

Python：小球反弹

问题描述已知一球从高空落下时每次落地后反弹至原高度的四分之一再落下编写一程序从键盘输入整数n和m 求该球从n米的高空落下后第m次落地时共经过的路程以及第m次落地后反弹的高度并输出结果输入形式从键盘输入整数n和m 输出形式输
毕业设计基于python的网络爬虫-基于python的网络爬虫

一从小说网站抓取一本小说 import urllib2 python库提供一系列针对url的操作方法 import re re正则表达式提供了一系列针对正则表达式的方法 BeautifulSoup4库 from bs4 import
Android 日志分析01-命令篇

我回来了很久没更新博客了各种原因吧但现在我决定回归博客继续写写文章分享分享技术用过很多语言涉及前后端一时也不知从何讲起往后慢慢梳理吧慢慢把自己想分享的东西写下来也是一种整理和记录吧今天先分享Android知识分享一
automake创建Makefile

autoconf automake主要用于创建makefile 本文主要介绍一下automake的简单用法 Ubuntu下安装automake sudo apt get install automake 即可安装automake的相关工具
win10安装Mathtype报错处理，找不到MPlugin.dll

在Mathtype官方中文网下载mathtype后双击exe文件进行安装不使用默认安装路径安装后会弹出如下错误由于找不到MPlugin dll 无法继续执行代码重新安装程序可能会解决此问题查看mathtype的安装目录可以发现
CSDN社区之星专访：我的蜕变之路

摘要社区之星第49期采访了爱奇艺研发总监陆其明他分享了个人生涯管理和程序员素养等方面的看法管理上他认为对人要领导要管的是事而在程序员素养上他则引用Jeff Atwood的话称成为优秀程序员的方法就是抛开编程原文链接 htt
SRNet：Deep Residual Network for Steganalysis of Digital Images

Abstract 现有的网络架构包括手工设计元素比如固定域或限制卷积核关键有效扩展检测器前端计算噪声残差池化会不可避免地压制隐写噪声在频域中有一个较好的结果相对空域更进一步提升是将选择通道作为第二通道 I 介绍 1 隐写术介
Ubuntu16.04桌面突然卡住怎么办？

不知道有没有小伙伴和我一样正在Ubuntu上工作呢突然桌面就卡住了键盘也没了反应鼠标那个箭头只能移动但是点击时却没有反应作为一个Ubuntu小白在最近的学习过程中遇到了好多问题我把这些问题需要注意的地方记录下来希望可以帮助
JMC性能监测

文章目录一打开JMC 二界面说明三配置java监测四总结性能监测图形化通过jdk自带的JMC工具即可轻松实现 JMC的全称为java mission control 意思为java程序任务控制台一打开JMC 在你下载好
图解通信原理与案例分析-9：SFP光通信案例--数字信号的2-ASK光调制解调

文本以SFP光模块的内部实现为案例介绍数字电信号的光信号调制解调的基本原理即如何把二进制的数字电信号调制到光信号上进行传输反之如何从光信号中解调出二进制的数字电信号这部分的调制解调完全是有SFP硬件实现的不需要软件的编码 1
关于Qt关闭程序但保持程序后台运行的坑（非常棘手）

1 先说说我的后台程序的应用场景关闭当前程序隐藏调用另一个ui ui的类型是悬浮窗 Qt Tool 并且在系统通知栏可以见到图标后台程序逻辑都正常执行 2 实现后台运行的两种主要方式 1 重写closeEvent 并设置event
javaswing 设置背景图片

背景图片的路径用自己的改一下 package com gao import java awt import java awt event ActionEvent import java awt event ActionListener i
树莓派不能上网解决方案

判断自己的树莓派能不能上网用这条命令试试 ping www baidu com ping www baidu com Temporary failure in name resolution 出现了以上错误说明树莓派不能上网解决思路
css3实现hover颜色，背景色，宽度等平滑变动（transition）
webpack 和html-webpack-plugin版本对应问题

为了实现功能配置生成预览页面以前是要实现的效果是直接打开设置的首页这里由于版本对应问题一直报错当前版本 devDependencies html webpack plugin 2 30 1 webpack 3 6 0 webp
idea使用lombok插件不能生效的原因

要成功的使用lombok插件需要3个步骤一需要先在idea中下载Lombok plugin 点击File gt settings gt plugins gt 然后点击以下图中所示接着在输入框输入lombok进行搜索之后点击安装便
粤嵌GEC6818-学习笔记2-屏幕相关及音频播放

这里写目录标题 LCD屏幕简介操作打开屏幕映射如何让plcd指向屏幕首地址 BMP图片的解析把一张BMP格式的图片显示在我们的开发板上触摸板的相关操作练习获取屏幕坐标线程进程练习创建广告播放的一个线程音频播放播放
STM32——GPIO输入——按键检测

硬件介绍当按键置空时 IO接地按键按下之后 IO口接通3 3V高电压电流比较大为了避免损坏IO 这里需要加装一个限流电阻可以看到IO口是默认低电平按键按下后产生一个上升沿和平常的电路设计不太一样这是因为PA0还具有一种自动唤
centos7网卡配置参数详细

CentOS 7 中的网卡配置参数通常位于 etc sysconfig network scripts ifcfg
Python爬虫从入门到精通:（1）爬虫基础简介_Python涛哥

第一章爬虫基础简介爬虫概述前戏你是否在夜深人静的时候想看一些会让你更睡不着的图片你是否在考试或者面试前夕想看一些具有针对性的题目和面试题你是否想在杂乱的网络世界获取你想要的数据爬虫的价值实际应用就业什么是爬虫通过编

Python爬虫从入门到精通:（1）爬虫基础简介_Python涛哥

第一章，爬虫基础简介

爬虫概述

前戏

爬虫的价值

什么是爬虫

爬虫的分类

反爬、反反爬

反爬机制

反反爬策略

第一种反爬机制

爬虫究竟是合法还是违法？

Python爬虫从入门到精通:（1）爬虫基础简介_Python涛哥 的相关文章

随机推荐

热门标签

Python爬虫从入门到精通:（1）爬虫基础简介_Python涛哥的相关文章