小甲鱼python视频xxoo爬虫代码改进--煎蛋网

2023-11-02

2020/7/31 今天学习得是关于小甲鱼得python课程,根据这个课程也确确实实得学到了不少东西,所以希望大家也可以一起去学习
下面是我在小甲鱼上课改造之后得代码
这个课程是在b站上看的,号码是 av27789609
在这里插入图片描述

这个是第五十节左右得爬虫 ooxx
在这里插入图片描述

他的教学视频是很早的时候录得,现在的网站进行了base64的加密等反爬措施,所以在原有的基础上需要进行修改
下面是我的代码,希望可以给大家一些启发,同时也希望大佬们给与指点。

import urllib.request
import urllib.parse
import os
import base64
def urlopen(url):
    req=urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362')
    response=urllib.request.urlopen(req)
    html=response.read()
    return html

上面的这一个urlopen简单的说是为了进入网站,然后阅读网站的代码,从而之后为了找到图片的地址等等提供帮助

def getpage(url):
    html=urlopen(url).decode('utf-8')
    a=html.find('current-comment-page')+23
    b=html.find(']',a)
    return (html[a:b])

这个是网站里面的有个页数,选择第几页的时候会用的到,写道这里的时候可以尝试先print(html[a:b]),看是否出来对应的页数在进行操作,那里的"+23"其实是’current-comment-page’的长度,这样做+23之后就直接到达了页数所在的地方。

def findimg(url):
    html=urlopen(url).decode('utf-8')
    imgaddrs=[]
    a=html.find('src=')
    b=html.find('.jpg',a,a+255)
    while a!= -1:
        b=html.find('.jpg',a,a+255)
        if b!= -1:
          imgaddrs.append('https:'+html[a+5:b+4])
        else:
          b=a+5
        a=html.find('src=',b)
    return imgaddrs

这里是找图片的函数,在网站的源码中寻找src=,这样就可以找到网站里图片的地址,但是图片里的地址没有http:,所有就需要拼接一下使得网站里read()到的地址加上http:,从而获得一个完整的网络地址。

def xiazai(floder='ooxx',pages=10):
    os.mkdir(floder)
    os.chdir(floder)
    url='http://jandan.net/pic/'
    pagenum=int(getpage(url))
    s = '20200730-'
    d='%d'%pagenum
    c=s+d
    b =base64.b64encode(c.encode('utf-8')).decode("utf-8")


    for i in range(pages):
        pagenum -= i
        pageurl=url+b+'#comments'
        imgaddrs=findimg(pageurl)
        imgaddrs=imgaddrs
        saveimg(floder,imgaddrs)
 if __name__ == '__main__':
    xiazai()
    

这个就是从网上下载的具体方法,这里注意的是原来的网站里面的代码经过了base64加密,就是这里面的s代表着每天的日期
这个其实放在最后好一些点。

def saveimg(folder,imgaddrs):
    for each in imgaddrs:
        filename=each.split('/')[-1]
        with open(filename,'wb') as f:
            img =urlopen(each)
            f.write(img)

这个是网站得到的图片进行保存,保存到指定的文件夹里面

这就是改完之后的了,亲测可以运行,希望大佬们给点指点

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

小甲鱼python视频xxoo爬虫代码改进--煎蛋网 的相关文章

随机推荐

  • 多态的定义以及使用

    多态的定义以及使用 package Demo08 代码当中体现多态性 其实就是一句话 父类引用指向子类对象 什么叫多态 左父右子就叫多态 可以通过创建一个对象来调用父类和子类两个 格式 父类名称 对象名 new 子类名称 或者 接口名称 对
  • 区块链二级知识考试

    区块链基础知识二级考试 考试时间30分钟 总分100分 请认真作答 出题人及监考老师 高志豪 请转载者注明 谢谢支持 一 单选题 每题5分 共30分 1 中本聪是哪里人 A 中国人 B 美国人 C 日本人 D 不确定 2 下面哪种共识机制效
  • WPF DataGrid 导出Excel

    region Excel导出 private void btnExportExcel Click object sender RoutedEventArgs e Export this dgvList XX信息查询列表 public voi
  • STM32 F1,F4,CAN多字节发送和接收

    一 简介 CAN的基础知识在这里不做过多介绍 其他网站上讲解的很基础 因为CAN一次性只能接收1字节8位 所以在这里只介绍怎样让CAN能像串口那样一次性接收非常多的位 亲测有效 具体先看效果图 在这里我的实现是通过两块STM32板子 可以是
  • 【mac】mac鼠标指针跟随很慢的问题

    使用时感觉鼠标指针跟随太慢 在系统偏好设置里面将鼠标跟随速度调到最大 还是感觉很慢 后来在网上找到了一个通过命令行改全局配置的方式调快跟随速度 具体方法如下 可以先查看一下当前值 打开终端 输入命令 lcc localhost defaul
  • html的实体字符,h5展示特殊符号<>

    前言 在 HTML 中 某些字符是预留的 不能使用小于号 lt 和大于号 gt 这是因为浏览器会误认为它们是标签 比如 这样是不行的 p lt p 比如用实体字符 p lt p HTML 中有用的字符实体 注释 实体名称对大小写敏感 显示结
  • 单链表的创建、单链表的删除、单链表的插入(数据结构)

    1 创建一个超级简单的单链表 include
  • 用HttpClient抓取人人网高校数据库(省,高校,院系三级级联)--更新1

    更新备注 将src文件改成了一个完整的项目 解压后可以直接导入到Eclipse中去 省去大家配置 项目乱码请改项目属性为GBK 另外 如果你要登陆人人网 的话 需要申请一个人人网账号 这里提供公用的 lei d0809 gmail com
  • matlab画三维、二维动态曲线

    matlab画三维 二维动态曲线 画三维曲线动图 xlabel X m ylabel Y m zlabel Z m grid on for i 1 length x 1 axis 0 05 2 5 0 05 5 0 1 0 1 line x
  • Matlab—频谱分析作图

    clf fs 50 采样频率 每秒钟采样多少个点 N 60 采样点数量 T N fs 采样时间 n 0 N 1 t n fs 时间序列 f n fs N 频率序列 y1 10 sin 2 pi 15 t y2 10 sin 2 pi 20
  • 硬件第二节 MOS管电路工作原理及详解

    文章目录 一 MOS管画法辨认 1 1 辨认MOS管 二 MOS管使用 2 1 作为开关管 2 1 1 导通条件 2 1 2实例 三 如何选择MOS管 3 1 MOS管需要注意的几个参数 3 1 1 选择PMOS还是NMOS 3 1 2 电
  • Proxmox VE(PVE) 进行网卡直通

    文章目录 我的设备 介绍 添加CPU支持 开启iommu 查询网卡信息 Intel CPU AMD CPU 新增所需模块 添加PCI设备 命令模式添加 web页面模式添加 验证IOMMU有效 IOMMU中断重映射 查看中断重映射 启用中断重
  • 用函数输出星星

    2013 11 10 11 54 0人阅读 评论 0 收藏 编辑 删除 01 02 程序的版权和版本声明部分 03 Copyright c 2013 烟台大学计算机学院 04 All rights reserved 05 文件名称 test
  • 静态测试和动态测试

    静态测试 不运行被测试的软件系统 而是采用其他手段和技术对被测试软件进行检测的一种测试技术 代码走读 文档评审 程序分析等 静态测试常用技术 静态分析技术 1 定义 一种不通过执行程序而分析程序执行的技术 2 功能 检查软件的表示和描述是否
  • flask获取post参数_Flask教程2:模板

    什么是模板 模板负责定义页面的显示样式 与应用的逻辑相互独立 在Flask中 模板放在templates文件夹 是单独的html文件 编写一个模板 在app文件夹内创建templates文件夹 并新建index html文件 用来显示用户的
  • sqlilabs第26a

    sqlilabs第26a 一 手注 有错误希望师傅们指出 一 手注 直接看源码 无回显 我使用boolean盲注 过滤了and 空格 注释 空格可以通过 或者 0a绕过 and可以用 或者双写绕过 但这道题 不行 注释使用 1 1闭合 判断
  • Apache Druid远程代码执行漏洞复现(CVE-2021-25646)

    Apache Druid远程代码执行漏洞复现 CVE 2021 25646 漏洞描述 Apache Druid包括执行用户提供的JavaScript的功能嵌入在各种类型请求中的代码 此功能在用于高信任度环境中 默认已被禁用 但是 在Drui
  • 39天前端入门教程,免费领!!还送原创书籍+限量鼠标垫

    39天前端入门教程课程内容 福利 课程包含完整视频 笔记 源码 开发工具 39天前端入门教程 免费领 还送原创书籍 限量鼠标垫 关注 黑马程序员视频库 回复518 即可免费领取哦
  • mysql对姓名、手机号、身份证号做脱敏处理

    SELECT phone手机号脱敏处理 IF phone CONCAT LEFT phone 3 RIGHT phone 4 AS dephone cardno身份证号脱敏处理 IF cardno CONCAT LEFT cardno 3
  • 小甲鱼python视频xxoo爬虫代码改进--煎蛋网

    2020 7 31 今天学习得是关于小甲鱼得python课程 根据这个课程也确确实实得学到了不少东西 所以希望大家也可以一起去学习 下面是我在小甲鱼上课改造之后得代码 这个课程是在b站上看的 号码是 av27789609 这个是第五十节左右