用python网络爬虫爬取英雄联盟英雄图片

2023-10-31

用python爬虫爬取lol皮肤。

这也用python网络爬虫爬取lol英雄皮肤，忘了是看哪个大神的博客（由于当时学了下就一直放在这儿，现在又才拿出来，再加上马上要考二级挺忙的。），代码基本上是没改，还望大神原谅。本人小白，没学过Python，只是去尝试体python爬虫的感觉和经验，正准备学python。忘大神勿喷。来一句：“人生苦短，我用python”。

先上一波图

个人感觉还是挺好的。下面我们就来学习一下怎样爬取？

所需要的函数库有json re（正则表达式库） requests和time是python自带的

其中只有requests需要通过cmd命令行安装，安装方法就是在python安装目录下用cmd命令行输入下面字符

pip Install requests

由于我已经安装过了，所以提示我已经安装了。

第一步是获取英雄id

ID的获取地址是从英雄联盟官网F12后在Network里找到champion.js，具体地址如下

http://lol.qq.com/biz/hero/champion.js

json

import re
import requests
import time
def getLOLImages():
    header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'}
    url_js = 'http://lol.qq.com/biz/hero/champion.js'
    #获取JS源代码 Str bytes
    res_js = requests.get(url_js).content
    #转码 转成字符串
    html_js = res_js.decode()
    #正则表达式
    req = '"keys":(.*?),"data"'
    list_js = re.findall(req,html_js)
    #转成dict
    dict_js = json.loads(list_js[0])
    print(type(dict_js)) #定义图片列表
    pic_list = []
    for key in dict_js: 
    printkey)#英雄ID

第二步就是拼接URL了，通过发现英雄皮肤url的取名方式，我们可以方向最后的数字是不同的。让后通过此方法来获取图片地址。

for i in range(20):
    number = str(i)
    if len(number) == 1:
        hero_num = "00"+number
    elif len(number) == 2:
        hero_num = "0"+number
    numstr = key+hero_num
    url = "http://ossweb-img.qq.com/images/lol/web201310/skin/big"+numstr+".jpg"
    #http://ossweb-img.qq.com/images/lol/web201310/skin/big81000.jpg
    pic_list.append(url)

第三步是获取图片名称，path那行是放置图片的地址，注意结尾的\\不能丢。路径要设置成自己的。

list_filepath = []
    path = "D:\Pycharmdaima\Pachong\LOLTU\\"
for name in dict_js.values():
    for i in range(20):
        file_path = path+name+str(i)+'.jpg'
        list_filepath.append(file_path)

第四步就是下载图片了，注释掉time.sleep（1）后会加速爬取速度但是可能被腾讯中断爬取。

n = 0
for picurl in pic_list:
    res = requests.get(picurl)
    n += 1
    #获取状态码
    if res.status_code == 200:
        print("正在下载%s"%list_filepath[n])
        time.sleep(1)
        with open(list_filepath[n],'wb') as f:
            f.write(res.content)

下面是全部代码:

import json
import re

import requests
import time
#获取JS源代码 获取英雄ID
#拼接URL地址
#获取图片下载地址
#下载图片

#驼峰命名法
#获取英雄图片
def getLOLImages():
    header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'}
    url_js = 'http://lol.qq.com/biz/hero/champion.js'
    #获取JS源代码 Str bytes
    res_js = requests.get(url_js).content
    #转码 转成字符串
    html_js = res_js.decode()
    #正则表达式
    req = '"keys":(.*?),"data"'
    list_js = re.findall(req,html_js)
    #转成dict
    dict_js = json.loads(list_js[0])
    # print(type(dict_js))
    #定义图片列表
    pic_list = []
    for key in dict_js:
        # print(key)#英雄ID
        #拼接URL
        for i in range(20):
            number = str(i)
            if len(number) == 1:
                hero_num = "00"+number
            elif len(number) == 2:
                hero_num = "0"+number
            numstr = key+hero_num
            url = "http://ossweb-img.qq.com/images/lol/web201310/skin/big"+numstr+".jpg"
            #http://ossweb-img.qq.com/images/lol/web201310/skin/big81000.jpg
            pic_list.append(url)
         #获取图片名称
        list_filepath = []
        path = "D:\Pycharmdaima\Pachong\LOLTU\\"
    for name in dict_js.values():
        for i in range(20):
            file_path = path+name+str(i)+'.jpg'
            list_filepath.append(file_path)
    #下载图片
    n = 0
    for picurl in pic_list:
        res = requests.get(picurl)
        n += 1
        #获取状态码
        if res.status_code == 200:
            print("正在下载%s"%list_filepath[n])
            time.sleep(1)
            with open(list_filepath[n],'wb') as f:
                f.write(res.content)
getLOLImages()

以下是我的部分代码

我对以上代码也是有点懵毕竟刚接触，如果大家有意要LOL皮肤的可以给在评论去找我。展示一下，我下了所有的哈哈。。。。。。。。

最后：大家学爬虫一定要遵守法律，切勿用作商用。

来自博主的忠告：博主提醒你，爬虫不规范，牢底坐穿，亲人两行泪！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

用python网络爬虫爬取英雄联盟英雄图片的相关文章

动态向类添加类方法

我有以下片段 FEED TYPES fan mail Fan Mail review Review tip Tip fan user Fan User fan song Fan Song fan album Fan Album played
将 JSON 发布到 Python CGI

我已经安装了 Apache2 并且 Python 可以工作但我有一个问题我有两页一个是 Python 页面另一个是带有 JQuery 的 Html 页面有人可以告诉我如何让我的 ajax 帖子正常工作吗
为什么 Python 在导入脚本时只保存脚本的字节码？

既然执行Python字节码会比运行原始源代码更快因为Python不需要重新编译为什么Python在导入脚本时只保存编译后的字节码呢为每个执行的脚本保存 pyc 文件不是更好吗无论如何 Python 解释器的启动时间都需要时间即使您
在 Python 2.7 中出现“ImportError：无法导入名称 HTTPSConnection”错误

我正在尝试在 AWS ElasticBeanstalk 中部署 django 当我按照所示步骤操作时here http docs aws amazon com elasticbeanstalk latest dg create deploy
如何在 Debian 上的 virtualenv 中安装 numpy？

注参见这另一篇文章 https stackoverflow com questions 6442754 how to install h5py numpylibhdf5 as non root on a debian linux syst
为什么需要在 Python 方法中显式使用“self”参数？ [复制]

这个问题在这里已经有答案了当在 Python 中的类上定义方法时它看起来像这样 class MyClass object def init self x y self x x self y y 但在其他一些语言中例如 C 您可以使用
在Python中，如何将矩阵逆时针旋转90度？

gt gt gt def rotate matrix k List List int For example if I have m 1 2 3 2 3 3 5 4 3 rotate matrix m should give me 3 3
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检
类型错误：“datetime.datetime”和“str”的实例之间不支持“>”

我是 python 日期和时间类型的新手我有一个日期值 date 2018 11 10 10 55 31 00 00 我需要检查该日期值是否超过 90 天我试过 from datetime import datetime from da
Python - Unicode 到 ASCII 的转换

我无法在不丢失数据的情况下将以下 Unicode 转换为 ASCII u ABRA xc3O JOS xc9 I tried encode and decode他们不会这么做有人有建议吗 Unicode 字符u xce0 and u xc
ValueError：数据必须为正（boxcox scipy）

我正在尝试将我的数据集转换为正态分布 0 8 298511e 03 1 3 055319e 01 2 6 938647e 02 3 2 904091e 02 4 7 422441e 02 5 6 074046e 02 6 9 265747e
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
Python-验证我的文档 xls 中是否存在工作表

我正在尝试在空闲时间设计一个小程序加载 xls 文件然后在要扫描的文档中选择一张纸步骤1 用户导入 xls文件导入程序后检查文件是否存在我能做到的第 2 步我要求用户提供要分析的文档表 xls 的名称这就是它停止的地方该程
如何通过 Python Requests 库使用基本 HTTP 身份验证？

我正在尝试在 Python 中使用基本的 HTTP 身份验证我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
从迭代器外部将 StopIteration 发送到 for 循环

有几种方法可以打破一些嵌套循环他们是 1 使用中断继续 for x in xrange 10 for y in xrange 10 print x y if x y gt 50 break else continue only exec
python中有没有一种方法可以将存储在列表中的正则表达式模式列表应用到单个字符串？

我有一个正则表达式模式列表存储在列表类型中我想将其应用于字符串有谁知道一个好方法将列表中的每个正则表达式模式应用于字符串和如果匹配则调用与列表中该模式关联的不同函数如果可能的话我想用 python 来做这件事提前致谢 im
pandas.read_fwf 忽略提供的数据类型

我正在从文本文件导入数据框我想指定列的数据类型但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S
基于值的 matplotlib 条形图颜色

有没有一种方法可以根据条形图的值对条形图的条形进行着色例如 values below 0 5 red values between 0 5 to 0 green values between 0 to 08 blue etc 我找到了一些

随机推荐

.gitignore 文件和 .gitattributes 文件的使用

每当想用 gitignore文件的时候却发现已经push了不必要的文件但如果你不慎在创建 gitignore文件之前就push了项目那么即使你在 gitignore文件中写入新的过滤规则这些规则也不会起作用 Git仍然会对所有文件进
cuda第一次计算耗时_FLUENT计算与GPU加速

太长不看版本结论如下 1 FLUENT中 GPU加速对于耦合求解器计算十分明显 3060ti能够提高计算效率约3倍 1080ti能够提高计算效率约2倍 2 FLUENT中 GPU加速对于分离式求解器效果不明显这可能是由于网格数太少 GP
VirtualBox下Android-x86安装与基础配置

虚拟机 Virtual Box 6 1 系统 android x86 64 8 1 r6 一下载 Android x86 镜像英文站 Android on x86 项目中文站安卓X86中文站二虚拟机配置 1 新建虚拟机类型 L
万能近似定理（universal approximation theorrm）

神经网络的架构 architecture 指网络的整体结构大多数神经网络被组织成称为层的单元组然后将这些层布置成链式结构其中每一层都是前一层的函数在这种结构中第一层由下式给出第二层第三层以此类推可以看出每一层的主体都是线
Spring Framework与JDK版本对应关系

最近在实践Spring项目时发现无法通过注解的方式实现Bean容器管理控制器报错信息为 Failed to read candidate component class 也就是注解扫描不了在反复检查代码不存在问题后意识到可能是版本兼容
Java-主流框架—（10）Spring-微服务SpringBoot

1 SpringBoot概述 SpringBoot提供了一种快速使用Spring的方式基于约定优于配置的思想可以让开发人员不必在配置与逻辑业务之间进行思维的切换全身心的投入到逻辑业务的代码编写中从而大大提高了开发的效率 Spring
如何在mysql中创建学生信息表_数据库怎么创建学生信息表

大家好我是时间财富网智能客服时间君上述问题将由我为大家进行解答数据库创建学生信息表的方法是 1 新建表单击数据库 studentDb 前图标然后右键表文件包单击新建表选项进入新建表窗口 2 设定表标识字段id 填写
Vue项目安装core-js报错解决方案

报错问题如下出现这这种情况的多半是core js的版本不对解决方案如下亲测多次有效 1 安装cnpm npm install g cnpm registry https registry npm taobao org 2 查看cnpm
浏览器页面后退，重新运行ajax

问题描述在浏览器页面后退时也就是说你点击链接到一个页面然后又点击后退按钮回到刚才的页面结果发现jQuery的ajax GET请求不再执行了解决方法禁用ajax缓存 ajaxSetup cache false 吐槽为了解决这个问
java中的String

Java中的String类是一种复合数据类型比较String类的是否相等也有2种办法和equals 两种 String是一个系统定义的类不是基本数据类型有关字符串处理的方法非常多有时候两个一样的字符串做相等的比较运算时会得到t
华为OD机试真题-查找充电设备组合【2023Q1】【JAVA、Python、C++】

题目描述某个充电站可提供n个充电设备每个充电设备均有对应的输出功率任意个充电设备组合的输出功率总和均构成功率集合P的1个元素功率集合P的最优元素表示最接近充电站最大输出功率p max的元素输入描述输入为3行第1行为充电设
时序预测

时序预测 MATLAB实现Bayes贝叶斯优化LSTM 长短期记忆神经网络时间序列预测预测效果一览
React - Websocket

组件didMount调用 Store createWebSocket Math random Store url ws window backend server slice 7 apronMapWebsocket 这个要与后端提供的相同
C++函数重载、重写与重定义

演示代码 include
探索Java8——CompletableFuture：组合式异步编程

文章目录 Future接口 Future接口的局限性使用 CompletableFuture 使用并行流对请求进行并行操作使用 CompletableFuture 发起异步请求如果你的意图是实现并发而非并行或者你的主要目标是在同一
https到底是如何防篡改的

1 前言 https是一个老生常谈的话题了也是面试过程种经常甚至必然会问到的一个问题但当问到https为什么安全的时候很多人的回答就是简单的回一句因为他加密了然后就没然后了你也相当于啥都没回答出来 2 我为什么要写这篇文章呢网
select底部增加固定按钮
基于SSM的校园快递一站式服务系统设计与实现

末尾获取源码开发语言 Java Java开发工具 JDK1 8 后端框架 SSM 前端采用JSP技术开发数据库 MySQL5 7和Navicat管理工具结合服务器 Tomcat8 5 开发软件 IDEA Eclipse 是否Mave
统计学R语言第五章课后练习置信区间

5 1 计算一个总体均值的置信区间大样本 gt exercise5 1 lt read csv D 289250 统计学基于R 第4版例题和习题数据统计学基于R 第4版例题和习题数据公开资源 exercise chap05 e
用python网络爬虫爬取英雄联盟英雄图片

用python爬虫爬取lol皮肤这也用python网络爬虫爬取lol英雄皮肤忘了是看哪个大神的博客由于当时学了下就一直放在这儿现在又才拿出来再加上马上要考二级挺忙的代码基本上是没改还望大神原谅本人小白没学过Python 只

用python网络爬虫爬取英雄联盟英雄图片

用python网络爬虫爬取英雄联盟英雄图片 的相关文章

随机推荐

热门标签

用python网络爬虫爬取英雄联盟英雄图片的相关文章