Python-一键爬取图片、音频、视频资源

2023-12-19

前言

使用Python爬取任意网页的资源文件,比如图片、音频、视频;一般常用的做法就是把网页的HTML请求下来通过XPath或者正则来获取自己想要的资源,这里我做了一个爬虫工具软件,可以一键爬取资源 媒体文件;但是需要说明的是,这里爬取资源文件只针对HTML已有的文件,如果需要二次请求的是爬取不到的,比如酷狗音乐播放界面,因为要做通用工具,匹配不同的网站!!!

这里主推图片爬取,一些需要图片素材的可以输入网址一键爬取!

还有就是爬取视频的时候会把磁力链接爬取下来!可以使用第三方下载工具下载!

代码

爬取资源文件

这里需要说明的就只,有的图片资源并不是url链接,是data:image格式,这里需要转换一下存储!

def getResourceUrlList(url ,isImage, isAudio, isVideo):
	global imgType_list, audioType_list, videoType_list
	imageUrlList = []
	audioUrlList = []
	videoUrlList = []
 
	url = url.rstrip().rstrip('/')
	htmlStr = str(requestsDataBase(url))
	# print(htmlStr)
	
	Wopen = open('reptileHtml.txt','w')
	Wopen.write(htmlStr)
	Wopen.close()
 
	Ropen = open('reptileHtml.txt','r')
	imageUrlList = []
 
	for line in Ropen:
		line = line.replace("'", '"')
		segmenterStr = '"'
		if "'" in line:
			segmenterStr = "'"
 
		lineList = line.split(segmenterStr)
		for partLine in lineList:
			if isImage == True:
				# 查找图片
				if 'data:image' in partLine:
					base64List = partLine.split('base64,')
					imgData = base64.urlsafe_b64decode(base64List[-1] + '=' * (4 - len(base64List[-1]) % 4))
					base64ImgType = base64List[0].split('/')[-1].rstrip(';')
					imageName = zfjTools.getTimestamp() + '.' + base64ImgType
					imageUrlList.append(imageName + '$==$' + base64ImgType)
 
				# 查找图片
				for imageType in imgType_list:
					if imageType in partLine:
						imgUrl = partLine[:partLine.find(imageType) + len(imageType)].split(segmenterStr)[-1]
 
						# 修复URL
						imgUrl = repairUrl(imgUrl, url)
 
						sizeType = '_{' + 'size' + '}'
						if sizeType in imgUrl:
							imgUrl = imgUrl.replace(sizeType, '')
 
						imgUrl = imgUrl.strip()
 
						if imgUrl.startswith('http://') or imgUrl.startswith('https://') and imgUrl not in imageUrlList:
							imageUrlList.append(imgUrl)
						else:
							imgUrl = ''
 
			if isAudio == True:
				# 查找音频
				for audioType in audioType_list:
					if audioType in partLine or audioType.lower() in partLine:
						audioType = audioType.lower() if audioType.lower() in partLine else audioType
						audioUrl = partLine[:partLine.find(audioType) + len(audioType)].split(segmenterStr)[-1]
 
						# 修复URL
						audioUrl = repairUrl(audioUrl, url)
 
						if audioUrl.startswith('http://') or audioUrl.startswith('https://') and audioUrl not in audioUrlList:
							audioUrlList.append(audioUrl)
						else:
							audioUrl = ''
 
			if isVideo == True:
				# 查找视频
				for videoType in videoType_list:
					if videoType in partLine or videoType.lower() in partLine:
						videoType = videoType.lower() if videoType.lower() in partLine else videoType
						videoUrl = partLine[:partLine.find(videoType) + len(videoType)].split(segmenterStr)[-1]
 
						# 修复URL
						videoUrl = repairUrl(videoUrl, url)
 
						if videoUrl.startswith('http://') or videoUrl.startswith('https://') or videoUrl.startswith('ed2k://') or videoUrl.startswith('magnet:?') or videoUrl.startswith('ftp://') and videoUrl not in videoUrlList:
							videoUrlList.append(videoUrl)
						else:
							videoUrl = ''
 
	return (imageUrlList, audioUrlList, videoUrlList)

爬取自定义节点
# 统配节点爬取
def getNoteInfors(url, fatherNode, childNode):
	url = url.rstrip().rstrip('/')
	htmlStr = requestsDataBase(url)
	
	Wopen = open('reptileHtml.txt','w')
	Wopen.write(htmlStr)
	Wopen.close()

	html_etree = etree.HTML(htmlStr)

	dataArray = []

	if html_etree != None:
		nodes_list = html_etree.xpath(fatherNode)
		for k_value in nodes_list:
			partValue = k_value.xpath(childNode)
			if len(partValue) > 0:
				dataArray.append(partValue[0])

	return dataArray

如果你对Python感兴趣,想要学习python,这里给大家分享一份 Python全套学习资料 ,都是我自己学习时整理的,希望可以帮到你,一起加油!

????有需要的小伙伴,可以 点击下方链接免费领取 或者 V扫描下方二维码免费领取 ????
Python全套学习资料

在这里插入图片描述

1️⃣零基础入门

① 学习路线

对于从来没有接触过Python的同学,我们帮你准备了详细的 学习成长路线图 。可以说是 最科学最系统的学习路线 ,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

② 路线对应学习视频

还有很多适合0基础入门的学习视频,有了这些视频,轻轻松松上手Python~
在这里插入图片描述

③练习题

每节视频课后,都有对应的练习题哦,可以检验学习成果哈哈!
在这里插入图片描述

2️⃣国内外Python书籍、文档

① 文档和书籍资料

在这里插入图片描述

3️⃣Python工具包+项目源码合集

①Python工具包

学习Python常用的开发软件都在这里了!每个都有详细的安装教程,保证你可以安装成功哦!
在这里插入图片描述

②Python实战案例

光学理论是没用的,要学会跟着一起敲代码,动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。 100+实战案例源码等你来拿!
在这里插入图片描述

③Python小游戏源码

如果觉得上面的实战案例有点枯燥,可以试试自己用Python编写小游戏,让你的学习过程中增添一点趣味!
在这里插入图片描述

4️⃣Python面试题

我们学会了Python之后,有了技能就可以出去找工作啦!下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
在这里插入图片描述
在这里插入图片描述

上述所有资料 ⚡️ ,朋友们如果有需要的,可以扫描下方????????????二维码免费领取????
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python-一键爬取图片、音频、视频资源 的相关文章

随机推荐

  • Java是怎么运行起来的?深入理解Java虚拟机

    介绍Java的工作原理和JVM的内部结构 微信搜索关注 Java学研大本营 Java虚拟机 JVM 是一个运行时环境 可以执行用Java编程语言编写的程序 Java语言是一种高级语言 它通过抽象和封装的机制 让开发者可以专注于业务逻辑和功能
  • 瑞芯微 rk3568的npu使用,部署unet网络

    文章目录 rk3568 1 6 0 1 在任一个ubuntu系统上安装RKNN Toolkit2 1 1 下载 1 2 安装 2 在机器端 板端 查看 RKNPU2的驱动 3 RKNN使用说明
  • Linux Centos 配置 Docker 国内镜像加速

    在使用 Docker 进行容器化部署时 由于国外的 Docker 镜像源速度较慢 我们可以配置 Docker 使用国内的镜像加速器 以提高下载和部署的效率 本文将介绍如何在 CentOS 系统上配置 Docker 使用国内镜像加速 步骤一
  • 南大通用的时间类型的使用解析

    示例sql create table TCK DATE TEXT id INTEGER not null date date DEFAULT TODAY
  • three.js关键帧动画KeyframeTrack、AnimationClip、AnimationMixer

    参考资料 threejs中文网 threejs qq交流群 814702116 关键帧动画 打开课件案例源码 你可以看到物体从一个位置移动到另一个位置的动画效果 移动过程中也出现过颜色变化 课件源码效果具体描述 就是 0 3秒 物体逐渐从坐
  • Android驱动并发与竞争

    下面介绍 原子操作 atomic t 自旋锁 spinlock t 信号量 semaphore 互斥体 mutex Android Linux是一个多任务操作系统 肯定会存在多个任务共同操作同一段内存或者设备的情况 多个任务甚至中断都能访问
  • IPQ4019 IPQ4029 IPQ5018 IPQ8072 IPQ6010 Wallys OpenWRT Compatible Routerboard Wallys|Industrial

    IPQ4019 IPQ4029 IPQ5018 IPQ8072 IPQ6010 Wallys OpenWRT Compatible Routerboard Wallys Industrial Commercial use Wallys Un
  • 机器学习之迁移学习(Transfer Learning)

    概念 迁移学习 Transfer Learning 是一种机器学习方法 其核心思想是将从一个任务中学到的知识应用到另一个相关任务中 传统的机器学习模型通常是从头开始训练 使用特定于任务的数据集 而迁移学习则通过利用已经在一个任务上学到的知识
  • 多线程案例:银行取钱

    不安全取钱 两个人去银行取钱 账户 银行取钱 给账户上锁 public class UnsafeBank public static void main String args 账户 Account3 account new Account
  • threejs关键帧动画播放(拖动任意时间状态)

    参考资料 threejs中文网 threejs qq交流群 814702116 动画播放 拖动任意时间状态 如果你想了解 关键帧动画在特定时间段播放 或者把动画定位在时间轴上任何一个时刻 或者借助UI拖动条 拖动查看关键帧任何时刻的状态 可
  • 【HarmonyOS】HarmonyOS参考资料

    HarmonyOS HarmonyOS参考资料 HarmonyOS参考资料 一 HarmonyOS应用开发者高级认证 二 HarmonyOS应用开发者基础认证考试 HarmonyOS参考资料 一 HarmonyOS应用开发者高级认证 Har
  • 在matlab和opencv中分别实现稀疏表示

    在本文中 稀疏表示的原理不再具体讲解 有需要的同学请自行百度 本文采用OMP算法来求解稀疏系数 首先随机生成字典数据和待测试数据 字典数据 dic 6 7 9 9 7 0 6 3 6 9 1 8 7 8 5 3 8 1 7 3 3 3 5
  • 10道Java限流器面试题和答案

    分享关于限流器的10大Java面试问题 微信搜索关注 Java学研大本营 1 什么是速率限制 速率限制是指对用户在一定时间段内向系统发出的请求次数进行控制 以保证系统的稳定性和资源的公平分配 2 如何使用Java实现基本的限流器 可以使用令
  • 【Redis】Redis 红锁

    1 概述 上一篇文章 redis Redis 分布式锁 redis session Redlock 红锁 Zookeeper锁 本章节主要讲解redis中的红锁 假设我们有个客户端要获取锁 然后向master去获取锁 然后master会把锁
  • HTML+CSS+JS网页期末作业 源码评论区自取(海绵宝宝网页设计)

    课代表来给大家整理一下 HTML CSS JS网页期末作业 源码评论区自取 源码领取方式 1 评论 已三连 学习 2 然后点击私信按钮 发送关键词 学习 机器人会自动回复的
  • 运维笔记之centos部署Go-FastDfs

    安装Go FastDfs 当前最新版本为1 4 5 但发布的最新版本为1 4 4 下载文件 wget no check certificate https github com sjqzhang go fastdfs releases do
  • 解决Failed to retrieve the Dart SDK from: https://storage.googleapis.com/flutter_infra/问题

    mac终端执行flutter h命令后 出现过 Failed to retrieve the Dart SDK from https storage googleapis com flutter infra flutter 91a63d6a
  • 嵌入式培训机构到底怎么选?培训了能找到工作吗

    嵌入式作为一种广泛应用于企业级开发的编程语言 对于想要从事软件开发行业的人来说 掌握嵌入式技能是非常重要的 而参加嵌入式培训机构是一个快速提升技能的途径 然而 很多人可能会担心 参加嵌入式培训了能找到工作吗 如何选择靠谱的嵌入式培训机构 要
  • 推荐好用的XSS漏洞扫描利用工具

    工具介绍 toxssin 是一种开源渗透测试工具 可自动执行跨站脚本 XSS 漏洞利用过程 它由一个 https 服务器组成 它充当为该工具 toxin js 提供动力的恶意 JavaScript 有效负载生成的流量的解释器 安装与使用 1
  • Python-一键爬取图片、音频、视频资源

    前言 使用Python爬取任意网页的资源文件 比如图片 音频 视频 一般常用的做法就是把网页的HTML请求下来通过XPath或者正则来获取自己想要的资源 这里我做了一个爬虫工具软件 可以一键爬取资源 媒体文件 但是需要说明的是 这里爬取资源