Python爬取ppt工作项目模板

2023-11-09

前言

ppt模板爬取，大约有一百多套工作项目ppt模板，需要的小伙伴可以通过以下程序来下载！

（1）爬取程序

# author：爱分享的山哥
import requests
from bs4 import BeautifulSoup
import random
import os
import time


def getHeaders():
    user_agent_list = [\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1" \
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11", \
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6", \
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6", \
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1", \
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5", \
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5", \
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3", \
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24", \
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
    ]
    UserAgent = random.choice(user_agent_list)
    headers = {'User-Agent': UserAgent}
    return headers
if not os.path.exists('./PPT/'):
    os.mkdir('./PPT/')


headers = getHeaders()
# 分页
for i in range(0,10):
    url = "http://www.51pptmoban.com/e/search/result/index.php?page={}&searchid=2194".format(str(i))
    res = requests.get(url=url,headers=headers).text

    #  bs4解析数据
    # 1.使用通用爬虫解析首页，获取每个ppt的url
    soup = BeautifulSoup(res,'lxml')
    url_list = soup.select('.pptlist > dl dd')
    for dd in url_list:
        dowm_url = 'http://www.51pptmoban.com'+dd.div.a['href']

        # 对url下载的地址发送请求，获取下载页面
        res = requests.get(url=dowm_url, headers=headers).text
        soup = BeautifulSoup(res, 'lxml')

        # 新知识点
        node = soup.find('div',class_='ppt_xz')
        new_url = 'http://www.51pptmoban.com/'+node.a['href']

        # 获取名字
        div = soup.find('div',class_='title')
        # 解决乱码
        name = (div.div.h1.get_text()).encode("iso-8859-1").decode("gbk")

        # 获取到下载地址的页面之后，对下载地址的url进行请求
        res = requests.get(url=new_url, headers=headers).text
        soup = BeautifulSoup(res, 'lxml')
        dowm = soup.find('div',class_='down')
        url = dowm.a['href']
        dowm_rar_url = 'http://www.51pptmoban.com/e/DownSys/GetDown/'+''.join(url.split('/')[2:])
        ppt_date = requests.get(url=dowm_rar_url, headers=headers).content
        path = './PPT/'+name+'.zip'
        try:
            with open(path,'wb') as fp:
                fp.write(ppt_date)
            print("%s爬取完成！"%name)
            time.sleep(1)
        except:
            print('无法爬取%s!'%name)
            continue

    print('第一页爬取完成！')
    time.sleep(5)  # 减慢爬取速度，防止被发现

2.爬取结果：
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫项目

PPT模板

python爬虫

ppt爬取

Python爬取ppt工作项目模板的相关文章

爬虫入门第4课：定义代理IP的数据模型类

爬虫学习知识点及案例篇汇总爬虫入门第1课代理池概述及开发环境爬虫入门第2课代理池的设计爬虫入门第3课实现代理池思路本阶段带大家从代理池的设计开始学习Python爬虫及项目实战详情关注上方专栏目标定义代理IP的数据模型
盘点Python爬虫中的常见加密算法，建议收藏！！

相信大家在数据抓取的时候会碰到很多加密的参数例如像是 token sign 等等今天小编就带着大家来盘点一下数据抓取过程中这些主流的加密算法它们有什么特征加密的方式有哪些等等知道了这些之后对于我们逆向破解这些加密的参数会起到不少
[Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)

最近在使用Python爬取网页内容时总是遇到JS临时加载动态获取网页信息的困难例如爬取CSDN下载资源评论搜狐图片中的原图等此时尝试学习Phantomjs和CasperJS来解决这个问题这第一篇文章当然就是安装过程及入门介绍
Python爬虫爬取LOL所有英雄皮肤

import requests import os import jsonpath from urllib request import urlretrieve 获取ID def get id url https game gtimg cn
‘NoneType‘ object has no attribute ‘find_all‘问题解决

Python爬虫问题描述原因分析解决方案问题描述 Python爬虫学习过程中遇到的AttributeError NoneType object has no attribute find all 问题解决 Traceback mos
Python 爬虫库以及库函数总结&&踩坑

1 Re库的基本使用 Re库介绍 Re库是Python的标准库主要用于字符串匹配调用方式 import re 正则表达式的表示类型 raw string类型原生字符串类型 re库采用raw string类型表示正则表达式表示为 r
没有50W彩礼，该怎么办

大家好我是才哥刚过完春节作为到了已婚甚至被催婚年龄的我们也开始讨论一个自古既有的话题彩礼今天上午看到朋友圈刷屏了一个B站UP主的视频没有50W彩礼女朋友被强行拖走我该怎么办看完视频只想说 https www bilibi
python模拟登录京东网页

目标网站京东网首页登录目标网址 https www jd com 任务要求 1 导入selenium库并使用该库驱动Chrom浏览器完成请求 2 驱动浏览器对象找到登录按钮点击 3 在新页面中选择账号登录 4 找到用户名和密码输
Python爬虫-11-response.text出现乱码的解决方案

代码如下这里是封装的一个下载url页面的方法 import requests def download page url user Agent None referer None print Downloading url headers
04_两种常见的网页反爬措施及应对方法

一封禁IP地址反爬 1 应对思路理解这种反爬方法的含义当我们用自己电脑的ip地址短时间高频率访问某个具有此类反爬设置的网站这种网站就会把我们的ip地址封禁一般都是封24小时或者其他时间解决方案通过代理ip访问这种方式只不过
python爬虫：抓取页面上的超链接

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库它能够通过你喜欢的转换器实现惯用的文档导航查找修改文档的方式 Beautiful Soup会帮你节省数小时甚至数天的工作时间页面上的超链接在H
爬虫之简单js逆向

本次js逆向没有存在代码混淆所以还是比较简单的重要的就是js逆向的思路目标网站https notice qb com detail noticeId 215让我们开始吧进入网站后按F12 查看DOC中的可以看出该网页一部分内容是异
同花顺某v参数详解

声明本文章中所有内容仅供学习交流抓包内容敏感网址数据接口均已做脱敏处理严禁用于商业用途和非法用途否则由此产生的一切后果均与作者无关若有侵权请联系我立即删除目标站点 aHR0cDovL3EuMTBqcWthLmNvbS5jb
【python爬虫】8.温故而知新

文章目录前言回顾前路代码实现体验代码功能拆解获取数据解析提取数据存储数据程序实现与总结前言 Hello又见面了上一关我们学习了爬虫数据的存储并成功将QQ音乐周杰伦歌曲信息的数据存储进了csv文件和excel文件学到
利用几行python代码爬取全国疫情数据，全方位地图分析疫情地区分布

爬取全国疫情数据所用的网页连接 https api inews qq com newsqa v1 automation foreign country ranklist 可视化用到的模块 gt 戳这里下载也可以看最后或私信我如果没有
python三位数水仙花数（附零基础学习资料）

前言所以直接上代码 python输入一个水仙花数三位数输出百位十位个位从控制台输入一个三位数num 如果是水仙花数就打印num是水仙花数否则打印num不是水仙花数任务 1 定义变量num用于存放用户输入的数值 2 定义变量gw
python爬虫——爬取快读小说app

1 爬取结果 csv文件出现了有两个表头不明所以无关大雅 2 使用fiddler4进行抓包通过观察url 我们不难发现其中的规律要实现进行分类抓取需要更改url第一个数字如下 https sc canrike com Cate
[python爬虫] Selenium常见元素定位方法和操作的学习介绍

这篇文章主要Selenium Python自动测试或爬虫中的常见定位方法鼠标操作键盘操作介绍希望该篇基础性文章对你有所帮助如果有错误或不足之处请海涵前文目录 Python爬虫在Windows下安装PhantomJS和Caspe
python3GUI--抖音无水印视频下载工具（附源码）

文章目录一准备工作二预览 0 复制抖音分享短链接 1 启动 2 运行 3 结果三设计流程 1 总体设计 2 详细设计四源代码五说明总结 hello 大家好啊失踪人口回归了捂脸本次使用tkinter撰写一篇抖音无
python3爬虫伪装代理IP

在爬取类似起点色魔张大妈这样的网站时会被网站看出是爬虫机制这时需要伪装成浏览器以及使用IP代理的方式来爬去正常内容实例 import re import requests import urllib request from l

随机推荐

持续集成/技术交付全流程流水线工具的设计与落地

文章目录持续集成技术交付全流程流水线工具的设计与落地概述工具架构设计主要功能模块代码库 Jenkins 流水线代码构建自动化测试产品部署监控报警使用方法步骤一安装 Jenkins 步骤二创建 Jenkins 流水
汇编语言(王爽第三版)实验十七

实验十七这道题我也不知道写的对不对逻辑上应该没啥问题但是运行起来好像没效果题目和个人思路安装一个新的int 7ch中断例程实现通过逻辑扇区号对软盘进行读写参数说明 1 用ah寄存器传递功能号 0表示读 1表示写 2 用dx寄存
vue中下载文件导出保存到本地

vue中下载文件导出保存到本地先分析如何下载先有一个链接地址然后使用 location href或window open 下载到本地看看返回数据 res config url 中是下载链接地址 res data 中是返回的二进制数据
结构体指针变量使用方法举例

include
报表设计

最近在做任务报表方面的工作之前一直以为查询和报表是一样东西虽说报表是查询的一种展示模式但是做分析时还是应该将以区别报表多样的格式动态的数据报表是我们想要数据展示的一种形态就像是各种图表例如你想查询小明的名字查询可以
使用Nginx实现多个网站代理[多端口监听][django][资源服务器]

使用Nginx实现多个网站代理导航原文链接使用Nginx实现多个网站代理导言 nginx是网站开发后期一个不可缺少的应用 nginx的作用是请求代理监听请求并转发给对应端口的进程处理资源代理使用nginx直接将服务器资源共享
IntelliJ IDEA部署tomcat时出现No artifacts marked for deployment

这种错误主要是因为没有设置导出包解决方法 File gt Project Structure gt Artifacts 然后点击ok 然后记得apply ok 此时再回到问题所在点击Fix即可或者如下启动打开浏览器复制下面网址 h
数学建模--决策树的预测模型的Python实现

目录 1 算法流程简介 2 算法核心代码 3 算法效果展示 1 算法流程简介决策树的应用对泰坦尼克号数据集成员进行预测生死算法流程还是比较简单的简单学习一下决策树跟着注释写即可文章参考 https zhuanlan zhihu c
GROUP BY分组单个和多个字段不同条件所查询出来的结果不同

第一次查询代码如下 select from test 结果中按照b列来分则是 5个a 3个b 按照c列来分则是 4个甲 4个乙第二次查询按照 b列来分组代码如下 select count a b from test group
cordova-plugin-file-transfer cordova plugin下载不到问题解决记录

环境 cordova 11 1 0 node 16 前提安卓项目需要支持一些功能升级到androidX所以一些插件需要更新使用github方式可能会报ssh需要publicKey相关问题不想用私人账号进行git github com
c++ uint32转为int_轻松实现C/C++各种常见进制相互转换

这篇文章主要介绍了轻松实现C C 各种常见进制相互转换文中通过示例代码介绍的非常详细对大家的学习或者工作具有一定的参考学习价值需要的朋友们下面随着小编来一起学习学习吧 adsbygoogle window adsbygoogle pu
融云「百幄」之视频会议和直播，让办公桌无限延伸

2020 年为避免人员流动造成聚集性感染全世界各地不少企业开始允许员工居家办公跨地域跨终端协同办公行业迎来井喷式增长视频会议疫外爆发关注融云 RongCloud 了解协同办公平台更多干货 2022 年全球疫情仍在蔓延对
Qt,QEvent

QEvent Class The QEvent class is the base class of all event classes Event objects contain event parameters More include
Gabor滤波器与特征提取

一 Gabor滤波器 Gabor滤波器最主要使用优势体现在对物体纹理特征的提取上二维Gabor基函数能够很好地描述哺乳动物初级视觉系统中一对简单视觉神经元的感受野特性随着小波变换和神经生理学的发展 Gabor变换逐渐演变成二维Gabo
HTTP项目常见状态码笔记(200,302,400,403,404,405,500...)，

目录认识状态码 status code 出现200 403 Forbidden 出现404 404 Not Found 出现 405 Method Not Allowed 出现 500 Internal Server Error 504
windows如何让电脑朗读你的文字

在使用电脑的过程中常常需要文字能够自动朗读那么你是如何解决的呢其实可以不借助任何外部软件而使用windows记事本就能简单将任意文字转化成语音朗读步骤1 新建一个记事本注意记事本的默认后缀名为 txt 步骤2 打开记事本在记事
python库和模块的区别_python中模块、包、库的区别和使用

模块就是 py文件里面定义了一些函数和变量需要的时候就可以导入这些模块包在模块之上的概念为了方便管理而将文件进行打包包目录下第一个文件便是 init py 然后是一些模块文件和子目录假如子目录中也有 init py 那么它就
Docker 数据迁移

问题描述 docker存储目录磁盘空间不够了需要迁移到新的磁盘忒扣了迁移分析迁移数据前向客户说明时间提前告知业务部门系统维护相关事宜查看中间件状态应用服务是否正常正常情况下才可停止服务进行下一步停止应用中间件等程序停止
解决问题记录10：JAVA调用，kettle资源库连接mysql8小时后报错问题

先说解决方法最终我的解决方式是使用心跳机制创建了一个很简单的查询作业让它每3小时执行一次这几天在凌晨1点是跑kettle作业时遇到了一个问题报错如下 The last packet successfully received fr
Python爬取ppt工作项目模板

前言 ppt模板爬取大约有一百多套工作项目ppt模板需要的小伙伴可以通过以下程序来下载 1 爬取程序 author 爱分享的山哥 import requests from bs4 import BeautifulSoup import

Python爬取ppt工作项目模板

前言

Python爬取ppt工作项目模板 的相关文章

随机推荐

热门标签

Python爬取ppt工作项目模板的相关文章