零基础学Python 爬虫-笔记

2023-11-16

零基础学Python 爬虫 --Tony老师 - 普门教育

python -- 兼容 -- 3.8.5
pycharm -- 付费/免费(写项目有区别) - (破解版2019)
    代码提示
    
爬虫 概念
    科技 - 智能化 - 互联网 - 数据时代 - 智能家居
    爬虫 - 批量的采集数据 - 网络 - cpoy

爬虫怎么抓取网页数据?
浏览器快捷键进入开发者工具:F12

爬虫流程
    截胡 - F12 - 快捷键 - 抓包 - 自带

案例 讲解 - 小试牛刀

  • 1、网站目标 - 发起网络请求(联网) - 得到网站数据 -
  • 2、分析 - 网站 - 提取需要的数据
  • 3、保存 - excel、txt、数据库等 

安装模块 - 第三方模块(可自行安装)

pip3 install requests  #  安装方式有5种
pip install requests

店铺-3w人在浏览店铺,却一笔都没有成交-爬虫程序在采集数据
1、反爬

  • 抓取数据 - 防止抓取数据 - 技术

2、解析方式

  • 直接处理
  • Json解析
  • 正则表达式
  • BeautifulSoup
  • PyQuery
  • XPath

伪装成浏览器
身份标识 - python
User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4595.0 Safari/537.36

import requests  # 网站请求模块,网站的规则
import requests
import re # 解析模块,提取网页中的数据

#  1、网站目标 - 发起网络请求(联网) - 得到网站数据 -
# 字符串
# url = 'https://www.jd.com/'
# a = 1
# print(url) # 打印机
# http状态码:404 503 200
# text = requests.get(url)  # <Response [200]>
# text = requests.get(url).text  # 网页内容,html
# print(text)


# url = 'https://www.xiachufang.com/category/227/'
url = 'https://www.xiachufang.com/recipe/104711978/'
# get(url,params=None,**kwargs)
# text = requests.get(url).text  # 返回404,反爬虫机制

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4595.0 Safari/537.36"}
text = requests.get(url,headers=headers).text
#print(text)

# 2、分析 - 网站 - 提取需要的数据
'''
通配符
(.*?) - 小括号中的所有数据,都是需要提取的
.*? - 文字太长, 想省略(不是消失)

<title>(.*?)</title>
<link href="(.*?)" rel="stylesheet" type="text/css">
<link href="(.*?)".*?type="text/css">
<script type=".*?">.*?"image":"(.*?)".*?</script>
<img src="(.*?)" alt=".*?" width="300">
'''
# 多个数据 - find(查找) all(所有的)
imgs = re.findall('<img src="(.*?)" alt=".*?" width="300">',text)
# print(imgs)

# 3、保存 - excel、txt、数据库等 
# 循环 - [] 
for img_url in imgs:
    # print(img_url)
    img = requests.get(img_url,headers=headers)
    # print(img)
    # 图片如何保存
    img_file = open('1.png','wb')
    img_file.write(img.content)  # 写入
    break

课后作业:

import requests
import re

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4595.0 Safari/537.36"}
url = 'https://www.xiachufang.com/recipe/104711978/'
text = requests.get(url,headers=headers).text  # 伪装成浏览器

imgs = re.findall('<img src="(.*?)" alt=".*?" width="300">',text)

for i,img_url in enumerate(imgs):
    img = requests.get(img_url,headers=headers).content
    img_file = open(str(i+1) + ".png", "wb")
    img_file.write(img)

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

零基础学Python 爬虫-笔记 的相关文章

  • 围绕 readline 构建的 python 批处理的触发器选项卡完成

    背景 我有一个 python 程序 它导入并使用 readline 模块来构建自制的命令行界面 我有第二个 python 程序 围绕 Bottle 一个 Web 微框架构建 充当该 CLI 的前端 第二个 python 程序向第一个程序打开
  • Python中Decimal类型的澄清

    每个人都知道 或者至少 每个程序员都应该知道 http docs oracle com cd E19957 01 806 3568 ncg goldberg html 即使用float类型可能会导致精度错误 然而 在某些情况下 精确的解决方
  • 从 ffmpeg 获取实时输出以在进度条中使用(PyQt4,stdout)

    我已经查看了很多问题 但仍然无法完全弄清楚 我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出 以便我可以创建进度条 我看过这些问题 ffmpeg可以显示进度条吗 https stack
  • 如何使用 imaplib 获取“消息 ID”

    我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好 所以我认为 Message ID 是正确的 但我不知道如何获取它 我只知道 imap fetch uid XXXX 有人有解决方案吗 来自 IMAP 文档本身 IMAP4消息号
  • Argparse nargs="+" 正在吃位置参数

    这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
  • 如何计算numpy数组中元素的频率?

    我有一个 3 D numpy 数组 其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素 我只显示了几个元素 array 136 129 130 103 102 101 我
  • 为什么Python的curses中escape键有延迟?

    In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
  • python suds SOAP 请求中的名称空间前缀错误

    我使用 python suds 来实现客户端 并且在发送的 SOAP 标头中得到了错误的命名空间前缀 用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件 请参见下文 问题出在函数上GetRecord
  • 如何通过在 Python 3.x 上按键来启动和中断循环

    我有这段代码 当按下 P 键时会中断循环 但除非我按下非 P 键 否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
  • 从 python 发起 SSH 隧道时出现问题

    目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道 我已经在我的服务器之间设置了公钥身份验证 因此它们只需直接登录而无需密码提示 怎么办 我试过帕拉米科 它看起来不错 但仅仅建立一个基本的隧道就变得相当复杂 尽管代码示例将受
  • 如何设置 Celery 来调用自定义工作器初始化?

    我对 Celery 很陌生 我一直在尝试设置一个具有 2 个独立队列的项目 一个用于计算 另一个用于执行 到目前为止 一切都很好 我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类 每个工作人员一个 id 我想知
  • 如何使用列表作为pandas数据框中的值?

    我有一个数据框 需要列的子集包含具有多个值的条目 下面是一个带有 运行时 列的数据框 其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
  • 使用 Firefox 绕过弹出窗口下载文件:Selenium Python

    我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
  • 如何在 OSX 上安装 numpy 和 scipy?

    我是 Mac 新手 请耐心等待 我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件 但是 我在导入 numpy 时遇到问题 Library F
  • 使用 PyTorch 分布式 NCCL 连接失败

    我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作 但是 dist broadcast 函数中出现连接失败 这是我在节点 0
  • 迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效?

    我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义 假设my dict是一本字典并且mutate是一个改变其对象的方法 我担心的是 改变字典中的值可能
  • 您可以将操作直接应用于map/reduce/filter 中的参数吗?

    map and filter通常可以与列表理解互换 但是reduce并不那么容易被交换map and filter 此外 在某些情况下我仍然更喜欢函数语法 但是 当您需要对参数本身进行操作时 我发现自己正在经历语法体操 最终必须编写整个函数
  • 限制 django 应用程序模型中的单个记录?

    我想使用模型来保存 django 应用程序的系统设置 因此 我想限制该模型 使其只能有一条记录 极限怎么办 尝试这个 class MyModel models Model onefield models CharField The fiel
  • 在Python中按属性获取对象列表中的索引

    我有具有属性 id 的对象列表 我想找到具有特定 id 的对象的索引 我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
  • Scrapy Spider不存储状态(持久状态)

    您好 有一个基本的蜘蛛 可以运行以获取给定域上的所有链接 我想确保它保持其状态 以便它可以从离开的位置恢复 我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

  • python变量的引用赋值及深浅拷贝

    python变量的引用赋值及深浅拷贝 1 python的变量 1 1 可变数据类型 1 2 不可变数据类型 2 深浅拷贝 2 1 内存地址以及实际存储数据之间的关系 2 2 若拷贝对象是可变数据类型 2 3 若拷贝对象是不可变数据类型 1
  • MyBatis3入门

    这里对mybatis的入门介绍以官方最新MyBatis3 4 1为准 具体文档及jar包请访问 https github com mybatis mybatis 3 releases 以前经常都在使用mybatis 但通常都是和Spring
  • MFC 启用和禁用控件

    启用和禁用控件可以调用CWnd EnableWindow 函数 BOOL EnableWindow BOOL bEnable TRUE 判断控件是否可用可以调用 CWnd IsWindowEnable函数 BOOL IsWindowEnab
  • Oracle VM VirtualBOX下克隆虚拟机镜像

    Oracle VM VirtualBOX下克隆虚拟机镜像 Windows环境下在Oracle VM VirtualBOX下克隆虚拟机镜像 1 通过命令操作 VBoxManage exe clonevdi F mysqlvm mysqledi
  • 二叉树的深度优先遍历和广度优先遍历js代码实现

    a 树的深度优先搜索和广度优先搜索 其实没了解过的时候 看见树就头晕 之后去搜了下 发现也不是什么困难的事情 其实树的深度优先搜索指的是不按照层级的规律去便利 像前序便利 中序后序便利都是属于深度便利的方式 树的广度便利就是按照层级关系 一
  • js 解构赋值

    取对象里的code以及value值 对象结构 var data code 1 message Hello World 常规取值做法 var code data code var message data message 用解构就方便简洁许多
  • sqlserver 联表查询、子查询、窗口函数、聚合函数等概念与例子

    with cte as的用法 查询的一个有用工具 允许创建临时命名结果集 可在查询中多次引用相同的子查询结果 可以提高查询的可读性和维护性 WITH cte name column1 column2 AS 这里是子查询 SELECT col
  • 静态白盒测试-code review

    一 静态白盒测试概述 首先区分软件测试的几个术语 白盒测试 黑盒测试 静态测试 动态测试 白盒测试 也称为透明测试 clear box testing 白盒测试针对逻辑结构进行检查 它允许我们看到程序的内部结构 黑盒测试 black box
  • 图片重叠,转换

  • Unity射线检测失效原因(逐步完善)

    完整用法 1 确保被检测物体拥有 层的设置 public LayerMask m layerMask 别忘记给敌人设置层和在脚本中选择层 2 确保被检测物体拥有 collider且其厚度不为0
  • Unity缺少System.IO.Ports

    问题 我需要使用串口相关的类库 但是引用不到 怎么解决的 PlayerSetting 界面把 Api Compatibility Level 切换为 NET 4 x 然后就好了
  • python并发编程之多线程

    多线程 多线程的作用 也是用于提高程序的效率 多进程 1 核心是多道技术 把内存分成 几块 2 通过 本质上就是切换 加 保存状态 3 当程序 IO 操作较多 可以提高程序效率 多线程什么是多线程 程序的执行线路 相当于与一条流水线 其包含
  • 计算机物联网论文范文大全,精选物联网的毕业论文范文.doc

    精选物联网的毕业论文范文 基于单片机的嵌入式以太网控制终端设计摘要 基于单片机技术的以太网终端广泛应用在各个领域 本文基于建荣AX20XX PHY的解决方案 实现ARP请求 以及ping命令 同时 本文详细介绍以太网接口的硬件设计和通信电路
  • 数学建模之方差分析基础--单因素,双因素方差分析与matlab实现

    前言 由于方差分析的原理基本在所有概率论与数理统计的书中都可以找到 那么这里就直接以图片的形式呈现了 关于方差齐次性检验以后会补充 知识基础 假设检验 今天刚刚学了数据结构 发现自己以前写的数组的基础操作水平极低 真是惭愧 简介 方差分析
  • 贝叶斯网络结构学习方法简介

    题目 贝叶斯网络结构学习方法简介 贝叶斯网络 Bayesiannetwork BN 结构学习就是从给定的数据集中学出贝叶斯网络结构 即各节点之间的依赖关系 只有确定了结构才能继续学得网络参数 即表示各节点之间依赖强弱的条件概率 对于普通人来
  • 计算机致命命令,[注意]13 个致命的Linux 命令

    本文收集所有你不能在 Linux 下执行的命令 执行任何下列命令 之一 会让你丢失数据或造成数据损坏 冻结或挂起你运行中的 Linux 系统 千万不要在 Linux 文本界面运行下列命令 NEVER RUN THE FOLLOWING CO
  • 获取单选框值

    function getRadioVal nameVal var inputs document getElementsByName nameVal var checkVal for var i 0 len inputs length i
  • 海思3559:uboot顶层Makefile分析

    顶层Makefile的内容主要结构为 确定版本号及主机信息 实现静默编译功能 设置各种路径 设置编译工具链 设置规则 设置与cpu相关的伪目标 需要注意的是 结构顺序并不代表代码执行顺序 1 确定版本号及主机信息 VERSION 2016
  • 群辉 Synology NAS Docker 安装 RustDesk-server 自建服务器只要一个容器

    from https blog zhjh top archives M8nBI5tjcxQe31DhiXqxy 简介 之前按照网上的教程 rustdesk server 需要安装两个容器 最近想升级下版本 发现有一个新镜像 rustdesk
  • 零基础学Python 爬虫-笔记

    零基础学Python 爬虫 Tony老师 普门教育 python 兼容 3 8 5 pycharm 付费 免费 写项目有区别 破解版2019 代码提示 爬虫 概念 科技 智能化 互联网 数据时代 智能家居 爬虫 批量的采集数据 网络 cpo