python爬虫二——数据解析

2023-11-09

1.正则

 

爬取图片

import requests
import re
import os
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:87.0) Gecko/20100101 Firefox/87.0"
}
# url = 'https://pic.qiushibaike.com/system/pictures/12425/124253455/medium/BS3559JFPXJ1DILD.jpg'
# image_data = requests.get(url=url).content
# with open('./qiutu.jpg','wb') as fp:
#     fp.write(image_data)
if not os.path.exists('./qiutulibs'):   #创建文件夹
    os.mkdir('./qiutulibs')
url = 'https://www.qiushibaike.com/imgrank/page/3/'
page_text = requests.get(url=url,headers=headers).text

# <div class="thumb">
# <a href="/article/124244751" target="_blank">
# <img src="//pic.qiushibaike.com/system/pictures/12424/124244751/medium/7GJFY2TA3IC372SX.jpg" alt="糗事#124244751" class="illustration" width="100%" height="auto">
# </a>
# </div>
res = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
page_l
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫二——数据解析 的相关文章

  • ROS学习之利用xacro/URDF模型搭建及rviz和gazebo仿真

    建议好好研究一下P3DX中的代码 非常有借鉴意义 xacro非常重要的作用是利用类似宏的方式 利用参数化来快速搭建模型 A ROS Gazebo Pioneer 3DX model created by Rafael Berkvens mo
  • qu32调音台说明书_Qu-32 数字调音台

    技术参数 触摸屏 7英寸 800x480彩色触摸屏 推子 100mm 电动推子 32个麦克风 线路输入 平衡XLR 19dBu最大输入电平 TRS带10dB定值衰减 总谐波失真 噪声 均一增益0dB 0 0005 89dBu 20 20kH
  • STM32F103C8T6 驱动 oled 4针篇

    1 配置STM32编译环境 大部分买的STM32F103C8T6属于国产的 会导致程序烧录报错 如果出现问题参考另一篇STM32F103C8T6程序烧录方法 流浪法师解剖鱼的博客 CSDN博客 2 烧录程序 环境配置好后 编写程序烧录就可以
  • 把int变量赋值给char数组 C语言

    char p 10 int i for i 0 i lt 10 i p i char 0 i
  • ubuntu setup nvidia development environment on a single machine(not virtual machine)

    ubuntu 18 04 gtx1080ti setup nvidia driver using software update building in ubuntu refer to address1 i choose nvidia dr
  • 阿里巴巴为什么能抗住90秒100亿?看完这篇你就明白了!

    作者 huashiou链接 https segmentfault com a 1190000018626163 1 概述 本文以淘宝作为例子 介绍从一百个并发到千万级并发情况下服务端的架构的演进过程 同时列举出每个演进阶段会遇到的相关技术
  • librdkafka介绍文档

    ntroduction to librdkafka the Apache Kafka C C client library librdkafka 是一个C实现的高性能 Apache Kafka 客户端 为生产环境提供了一个可靠和高性能的客户
  • 算法题记录【华为od】货币换算单位

    题目描述 思路分析 就是直接处理 比较麻烦的的是将字符串处理成数组 我用的是正则匹配 代码解析 t input 4 100CNY101fen 100HKD102cents 100JPY103sen 100EUR104eurocents 10
  • rabbitmq(四)、消息丢失问题

    丢失消息的三种情况 生产者弄丢了数据 RabbitMQ 弄丢了数据 消费端弄丢了数据 一 生产者弄丢了数据 生产者将数据发送到 RabbitMQ 的时候 可能数据就在半路给搞丢了 因为网络问题啥的 都有可能 方法一 此时可以选择用 Rabb
  • linux cp无法创建一般文件夹,cp: 无法创建普通文件 : 文件已存在

    背景 碰到一个偶现的编译出错问题 如图 报错的信息是 cp 无法创建普通文件 xxx 文件已存在 排查原因 看了下 Makefile 这句非常简单 就是 cp xxx xxx 而已 本身没什么问题 那再结合上下文出现的打印 一个异常之处就是
  • Jupyter快捷键-查看并设置

    1 快捷键 Jupyter 笔记本有两种不同的键盘输入模式 编辑模式允许您将代码或文本输入到一个单元格中 并通过一个绿色边框的单元格来表示 命令模式将键盘与笔记本级命令绑定在一起 并通过一个灰框 左边距蓝色的单元格显示 命令行模式 按 Es
  • 《魔童降世》影评——从封神演义谈到宿命

    今日看完魔童降世中的哪吒 不得不称赞这次改编很精妙 也不得不说编剧的三观很正 哪吒在我们大多数人的心中可能是纯真无害的小孩子 生来便拥有法宝乾坤圈和混天绫 得遇名师太乙真人 修得神通三头六臂 坚持正义 帮助武王伐纣 灭石叽 最后肉身 莲花
  • ImportError: libopenblas.so.0: cannot open shared object file: No such file or directory

    安装OpenBLAS的步骤 1 下载最新的openblas git clone https github com xianyi OpenBLAS git 没有安装git 先安装git CentOS安装git yum install git
  • MyBatisPlus的@TableId注解来实现自增序列id自动插入的功能

    写法 TableId value 数据库主键字段 type IdType 六种类型之一 例如 TableId value user id type IdType AUTO 1 ASSIGN ID 雪花算法 如果不设置 type 值 默认则使
  • Flink_03_Window(个人总结)

    声明 1 本文为我的个人复习总结 并非那种从零基础开始普及知识 内容详细全面 言辞官方的文章 2 由于是个人总结 所以用最精简的话语来写文章 3 若有错误不当之处 请指出 keyBy不仅是为了分组 同时还是为了能把数据分布到不同分区进行并行
  • JavaScript详解

    目录 一 什么是JavaScript 二 JavaScript的引入方式 三 JavaScript的基础语法 3 1 书写语法 3 2 输出语句 3 3 变量 3 4 数据类型 3 5 运算符 3 6 流程控制语句 3 7 函数 四 Jav
  • 笔记本屏幕忽亮忽暗解决方法大全,总有一款适合你

    笔记本屏幕忽亮忽暗解决方法大全 导言 傻逼Intel的傻逼设计 其原本目的是想在屏幕显示暗的东西时能有更高的暗部表现 或者 顺便省电 实际上眼睛导致干涩流泪 解决方法一 在Intel图形设置关闭Intel节能技术 解决方法二 在intel控
  • Element按需引入

    ElementUI网址 https element eleme cn zh CN component quickstart 1 1 安装 babel plugin component npm install babel plugin com

随机推荐

  • Windows网络守门人UserLock教程:如何分配登录时间配额

    UserLock是您的Windows网络守门人 它可以轻松实现有效的Windows和Active Directory网络用户访问控制策略 并严格执行 在UserLock中我们可以定义时间配额规则以限制所选会话类型的周期性连接时间 接下来 我
  • 法将数据写入传输连接: 你的主机中的软件中止了一个已建立的连接_LabVIEW_基于Network Steams 的无损传输技术...

    LabVIEW提供了用于创建分布式应用程序的多种技术的访问权限 LabVIEW 2010中引入的网络流是在这些应用程序之间流传输数据的理想方法 使用网络流 您可以轻松地在网络上或同一台计算机上共享数据 本文是对网络流进行介绍 并讨论了其功能
  • 【通俗易懂】vue中loading功能实现方法

    效果图 我是点击后让他出现loading效果 上代码
  • STM32MP157 AP6236 WiFi蓝牙模块

    STM32MP157 AP6236 WiFi蓝牙模块 1 介绍 2 修改设备树 3 配置Linux内核 3 1 配置支持WiFi设备 3 2 配置支持IEEE 802 11 3 3 配置支持蓝牙 4 配置Buildroot 5 板子配置 6
  • Vue + axios + vant 封装公共请求

    import axios from axios 引入axios import router from router 引入路由 import Toast from vant 引入提示层 export function post obj 调用时
  • 线程的声明周期

    要想实现多线程 必须在主线程中创建新的线程对象 JAVA中使用Thread类及其子类的对象来表示线程 在它的完整的生命周期一般要包括5类 新建 当一个Thread类或子类的对象被声明并创建时 新生的线程对象就处于新建状态 就绪 处于新建状态
  • Matlab读取csv文件csvread函数的使用

    方法一 M csvread FILENAME 读取逗号分隔值格式的文件名 结果直接返回给M 因此 文件只能包含数值 方法二 M csvread FILENAME R C 从逗号分隔值格式的文件中读取数据 从R行和C列开始 R和C从零开始 因
  • PHP cURL获取HTTP响应头

    前言 平时做开发时 经常会用到PHP的cURL扩展 用于请求外部HTTP接口 大多数情况下 我们只需要获取接口返回的响应体 HTTP response body 但如果我们想获取响应头 HTTP response header 那可以怎么做
  • Mac-解决程序包javafx.util不存在

    环境 macos m1芯片 IDEA jdk zulu 8 jdk 1 8 0 322 支持m1芯片的 解决方式 1 更换jdk版本 不使用支持m1芯片的jdk 到官网 链接下载macos的jdk1 8 0 333 且下载成功之后不需要配置
  • Eclipse调整XML源代码文件字体大小

    Eclipse调整XML源代码文件字体大小 Window gt Preferences gt General gt Appearance gt Colors and Fonts gt Basic gt Text Font 点击Edit 设置
  • 简单的书签服务LinkDing

    今天是上海全域静态管理的第 29 天 周三抗原 周四老苏刚做完核酸 居委突然通知后面的不做了 大家一阵慌乱 结果后来又通知继续 这是要闹哪样 据说是怕系统崩溃 周五终于休息了 根据居委会的通告 周二的核酸又发现一管异常 希望昨天的复检正常吧
  • Codeforces Round#808 div.1+div.2题解

    视频讲解 BV1ya411S7KF div 2 A Difference Operations 题目大意 给定长度为 n n n 的数组 a a a 可以进行任意次操作 每次操作选择一个整数
  • Android高德地图获取当前缩放等级及可视区域四个角的坐标

    获取当前缩放等级 未开启定位图层 在fragment中oncreatview生命周期中无法获取到 可以在Onresume中获取 float zoom mAMap getCameraPosition zoom VisibleRegion vi
  • 第5章域内横向移动分析及防御

    域内横向移动投不定在夏杂的内网攻击中被广泛使用的一种技术 尤其是在高级持续威胁 Advanced Persistent Threats APT中 攻击者会利用该技术 以被攻陷的系统为跳板 访问其他域内主机 扩大资产范围 包括跳板机器中的文档
  • 三千预算进卡吧的顺口溜是啥

    2019独角兽企业重金招聘Python工程师标准 gt gt gt 三千预算进卡吧 加钱加到十万八 十核 E7装上去 四路泰坦抱回家 4K 屏幕组三屏 万元液态温度压 固态硬盘装三块 硬盘内存使劲加 键鼠必花几千元 耳机手柄八千八 还有机箱
  • Java异常————argument type mismatch

    今天写程序遇到的错误 Exception in thread main java lang IllegalArgumentException argument type mismatch argument type mismatch 参数类
  • 简单几步:实现Redis的访问

    一 导入jar包 这里有两个 jedis 2 9 0 jar commons pool2 2 4 2 jar 二 写一个工具类 我叫做 RedisTools类 代码如下 import redis clients jedis JedisPoo
  • 史上最全的Selenium三大等待介绍

    一 强制等待 1 设置完等待后不管有没有找到元素 都会执行等待 等待结束后才会执行下一步 2 实例 driver webdriver Chrome driver get https www baidu com time sleep 3 设置
  • HAL库的使用之Cube配置编码器输入捕获模式

    做平衡小车目前有两种思路 第一种是使用编码器电机 这样一般是两个闭环控制 直立闭环和速度闭环 另一种是使用步进电机 一般使用步进电机很少进行闭环控制 使用Cube进行配置时 发现几点注意事项 STM32单片机自带编码器接口 可以直接进行使用
  • python爬虫二——数据解析

    1 正则 爬取图片 import requests import re import os headers User Agent Mozilla 5 0 Windows NT 10 0 Win64 x64 rv 87 0 Gecko 201