python爬虫二——数据解析

2023-11-09

1.正则

爬取图片

import requests
import re
import os
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:87.0) Gecko/20100101 Firefox/87.0"
}
# url = 'https://pic.qiushibaike.com/system/pictures/12425/124253455/medium/BS3559JFPXJ1DILD.jpg'
# image_data = requests.get(url=url).content
# with open('./qiutu.jpg','wb') as fp:
#     fp.write(image_data)
if not os.path.exists('./qiutulibs'):   #创建文件夹
    os.mkdir('./qiutulibs')
url = 'https://www.qiushibaike.com/imgrank/page/3/'
page_text = requests.get(url=url,headers=headers).text

# <div class="thumb">
# <a href="/article/124244751" target="_blank">
# <img src="//pic.qiushibaike.com/system/pictures/12424/124244751/medium/7GJFY2TA3IC372SX.jpg" alt="糗事#124244751" class="illustration" width="100%" height="auto">
# </a>
# </div>
res = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
page_l

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python安全学习

python爬虫二——数据解析的相关文章

ROS学习之利用xacro/URDF模型搭建及rviz和gazebo仿真

建议好好研究一下P3DX中的代码非常有借鉴意义 xacro非常重要的作用是利用类似宏的方式利用参数化来快速搭建模型 A ROS Gazebo Pioneer 3DX model created by Rafael Berkvens mo
qu32调音台说明书_Qu-32 数字调音台

技术参数触摸屏 7英寸 800x480彩色触摸屏推子 100mm 电动推子 32个麦克风线路输入平衡XLR 19dBu最大输入电平 TRS带10dB定值衰减总谐波失真噪声均一增益0dB 0 0005 89dBu 20 20kH
STM32F103C8T6 驱动 oled 4针篇

1 配置STM32编译环境大部分买的STM32F103C8T6属于国产的会导致程序烧录报错如果出现问题参考另一篇STM32F103C8T6程序烧录方法流浪法师解剖鱼的博客 CSDN博客 2 烧录程序环境配置好后编写程序烧录就可以
把int变量赋值给char数组 C语言

char p 10 int i for i 0 i lt 10 i p i char 0 i
ubuntu setup nvidia development environment on a single machine(not virtual machine)

ubuntu 18 04 gtx1080ti setup nvidia driver using software update building in ubuntu refer to address1 i choose nvidia dr
阿里巴巴为什么能抗住90秒100亿？看完这篇你就明白了！

作者 huashiou链接 https segmentfault com a 1190000018626163 1 概述本文以淘宝作为例子介绍从一百个并发到千万级并发情况下服务端的架构的演进过程同时列举出每个演进阶段会遇到的相关技术
librdkafka介绍文档

ntroduction to librdkafka the Apache Kafka C C client library librdkafka 是一个C实现的高性能 Apache Kafka 客户端为生产环境提供了一个可靠和高性能的客户
算法题记录【华为od】货币换算单位

题目描述思路分析就是直接处理比较麻烦的的是将字符串处理成数组我用的是正则匹配代码解析 t input 4 100CNY101fen 100HKD102cents 100JPY103sen 100EUR104eurocents 10
rabbitmq（四）、消息丢失问题

丢失消息的三种情况生产者弄丢了数据 RabbitMQ 弄丢了数据消费端弄丢了数据一生产者弄丢了数据生产者将数据发送到 RabbitMQ 的时候可能数据就在半路给搞丢了因为网络问题啥的都有可能方法一此时可以选择用 Rabb
linux cp无法创建一般文件夹,cp: 无法创建普通文件 : 文件已存在

背景碰到一个偶现的编译出错问题如图报错的信息是 cp 无法创建普通文件 xxx 文件已存在排查原因看了下 Makefile 这句非常简单就是 cp xxx xxx 而已本身没什么问题那再结合上下文出现的打印一个异常之处就是
Jupyter快捷键-查看并设置

1 快捷键 Jupyter 笔记本有两种不同的键盘输入模式编辑模式允许您将代码或文本输入到一个单元格中并通过一个绿色边框的单元格来表示命令模式将键盘与笔记本级命令绑定在一起并通过一个灰框左边距蓝色的单元格显示命令行模式按 Es
《魔童降世》影评——从封神演义谈到宿命

今日看完魔童降世中的哪吒不得不称赞这次改编很精妙也不得不说编剧的三观很正哪吒在我们大多数人的心中可能是纯真无害的小孩子生来便拥有法宝乾坤圈和混天绫得遇名师太乙真人修得神通三头六臂坚持正义帮助武王伐纣灭石叽最后肉身莲花
ImportError: libopenblas.so.0: cannot open shared object file: No such file or directory

安装OpenBLAS的步骤 1 下载最新的openblas git clone https github com xianyi OpenBLAS git 没有安装git 先安装git CentOS安装git yum install git
MyBatisPlus的@TableId注解来实现自增序列id自动插入的功能

写法 TableId value 数据库主键字段 type IdType 六种类型之一例如 TableId value user id type IdType AUTO 1 ASSIGN ID 雪花算法如果不设置 type 值默认则使
Flink_03_Window(个人总结)

声明 1 本文为我的个人复习总结并非那种从零基础开始普及知识内容详细全面言辞官方的文章 2 由于是个人总结所以用最精简的话语来写文章 3 若有错误不当之处请指出 keyBy不仅是为了分组同时还是为了能把数据分布到不同分区进行并行
JavaScript详解

目录一什么是JavaScript 二 JavaScript的引入方式三 JavaScript的基础语法 3 1 书写语法 3 2 输出语句 3 3 变量 3 4 数据类型 3 5 运算符 3 6 流程控制语句 3 7 函数四 Jav
笔记本屏幕忽亮忽暗解决方法大全，总有一款适合你

笔记本屏幕忽亮忽暗解决方法大全导言傻逼Intel的傻逼设计其原本目的是想在屏幕显示暗的东西时能有更高的暗部表现或者顺便省电实际上眼睛导致干涩流泪解决方法一在Intel图形设置关闭Intel节能技术解决方法二在intel控
Element按需引入

ElementUI网址 https element eleme cn zh CN component quickstart 1 1 安装 babel plugin component npm install babel plugin com

随机推荐

Windows网络守门人UserLock教程：如何分配登录时间配额

UserLock是您的Windows网络守门人它可以轻松实现有效的Windows和Active Directory网络用户访问控制策略并严格执行在UserLock中我们可以定义时间配额规则以限制所选会话类型的周期性连接时间接下来我
法将数据写入传输连接: 你的主机中的软件中止了一个已建立的连接_LabVIEW_基于Network Steams 的无损传输技术...

LabVIEW提供了用于创建分布式应用程序的多种技术的访问权限 LabVIEW 2010中引入的网络流是在这些应用程序之间流传输数据的理想方法使用网络流您可以轻松地在网络上或同一台计算机上共享数据本文是对网络流进行介绍并讨论了其功能
【通俗易懂】vue中loading功能实现方法

效果图我是点击后让他出现loading效果上代码
STM32MP157 AP6236 WiFi蓝牙模块

STM32MP157 AP6236 WiFi蓝牙模块 1 介绍 2 修改设备树 3 配置Linux内核 3 1 配置支持WiFi设备 3 2 配置支持IEEE 802 11 3 3 配置支持蓝牙 4 配置Buildroot 5 板子配置 6
Vue + axios + vant 封装公共请求

import axios from axios 引入axios import router from router 引入路由 import Toast from vant 引入提示层 export function post obj 调用时
线程的声明周期

要想实现多线程必须在主线程中创建新的线程对象 JAVA中使用Thread类及其子类的对象来表示线程在它的完整的生命周期一般要包括5类新建当一个Thread类或子类的对象被声明并创建时新生的线程对象就处于新建状态就绪处于新建状态
Matlab读取csv文件csvread函数的使用

方法一 M csvread FILENAME 读取逗号分隔值格式的文件名结果直接返回给M 因此文件只能包含数值方法二 M csvread FILENAME R C 从逗号分隔值格式的文件中读取数据从R行和C列开始 R和C从零开始因
PHP cURL获取HTTP响应头

前言平时做开发时经常会用到PHP的cURL扩展用于请求外部HTTP接口大多数情况下我们只需要获取接口返回的响应体 HTTP response body 但如果我们想获取响应头 HTTP response header 那可以怎么做
Mac-解决程序包javafx.util不存在

环境 macos m1芯片 IDEA jdk zulu 8 jdk 1 8 0 322 支持m1芯片的解决方式 1 更换jdk版本不使用支持m1芯片的jdk 到官网链接下载macos的jdk1 8 0 333 且下载成功之后不需要配置
Eclipse调整XML源代码文件字体大小

Eclipse调整XML源代码文件字体大小 Window gt Preferences gt General gt Appearance gt Colors and Fonts gt Basic gt Text Font 点击Edit 设置
简单的书签服务LinkDing

今天是上海全域静态管理的第 29 天周三抗原周四老苏刚做完核酸居委突然通知后面的不做了大家一阵慌乱结果后来又通知继续这是要闹哪样据说是怕系统崩溃周五终于休息了根据居委会的通告周二的核酸又发现一管异常希望昨天的复检正常吧
Codeforces Round#808 div.1+div.2题解

视频讲解 BV1ya411S7KF div 2 A Difference Operations 题目大意给定长度为 n n n 的数组 a a a 可以进行任意次操作每次操作选择一个整数
Android高德地图获取当前缩放等级及可视区域四个角的坐标

获取当前缩放等级未开启定位图层在fragment中oncreatview生命周期中无法获取到可以在Onresume中获取 float zoom mAMap getCameraPosition zoom VisibleRegion vi
第5章域内横向移动分析及防御

域内横向移动投不定在夏杂的内网攻击中被广泛使用的一种技术尤其是在高级持续威胁 Advanced Persistent Threats APT中攻击者会利用该技术以被攻陷的系统为跳板访问其他域内主机扩大资产范围包括跳板机器中的文档
三千预算进卡吧的顺口溜是啥

2019独角兽企业重金招聘Python工程师标准 gt gt gt 三千预算进卡吧加钱加到十万八十核 E7装上去四路泰坦抱回家 4K 屏幕组三屏万元液态温度压固态硬盘装三块硬盘内存使劲加键鼠必花几千元耳机手柄八千八还有机箱
Java异常————argument type mismatch

今天写程序遇到的错误 Exception in thread main java lang IllegalArgumentException argument type mismatch argument type mismatch 参数类
简单几步：实现Redis的访问

一导入jar包这里有两个 jedis 2 9 0 jar commons pool2 2 4 2 jar 二写一个工具类我叫做 RedisTools类代码如下 import redis clients jedis JedisPoo
史上最全的Selenium三大等待介绍

一强制等待 1 设置完等待后不管有没有找到元素都会执行等待等待结束后才会执行下一步 2 实例 driver webdriver Chrome driver get https www baidu com time sleep 3 设置
HAL库的使用之Cube配置编码器输入捕获模式

做平衡小车目前有两种思路第一种是使用编码器电机这样一般是两个闭环控制直立闭环和速度闭环另一种是使用步进电机一般使用步进电机很少进行闭环控制使用Cube进行配置时发现几点注意事项 STM32单片机自带编码器接口可以直接进行使用
python爬虫二——数据解析

1 正则爬取图片 import requests import re import os headers User Agent Mozilla 5 0 Windows NT 10 0 Win64 x64 rv 87 0 Gecko 201

python爬虫二——数据解析

1.正则

python爬虫二——数据解析 的相关文章

随机推荐

热门标签

python爬虫二——数据解析的相关文章