scrapy爬取王者官网壁纸

2023-10-27

1.安装scrapy

pip install scrapy
pip install Pillow

2.创建项目

scrapy startproject wangzhe
cd .\wangzhe\
scrapy genspider wz xxx

3.修改wz.py

import os
import re
import scrapy
import urllib.parse
from ..items import *


# 手动保存
class WzSpider(scrapy.Spider):
    name = "wz"
    # allowed_domains = ["xxx"]
    index = 0
    start_urls = [
        "https://apps.game.qq.com/cgi-bin/ams/module/ishow/V1.0/query/workList_inc.cgi?activityId=2735&sVerifyCode"
        "=ABCD&sDataType=JSON&iListNum=20&totalpage=0&page=0&iOrder=0&iSortNumClose=1&jsoncallback"
        "=jQuery111307884248345384934_1688708592927&iAMSActivityId=51991&_everyRead=true&iTypeId=2&iFlowId=267733"
        "&iActId=2735&iModuleId=2735&_=1688708592929"]

    def parse(self, response):
        item = ImgItem()
        findall = re.findall('"sProdImgNo_[\d]":"(.*?)"', response.text)
        index = 0
        for i in findall:
            findall[index] = urllib.parse.unquote(i)
            print(findall[index])
            index += 1
        item['image_urls'] = findall
        yield item

4.修改item.py


import scrapy


class ImgItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    image_urls = scrapy.Field()

5.修改pipelines.py

import os
from .settings import IMAGES_STORE
# useful for handling different item types with a single interface
from itemadapter import ItemAdapter

from scrapy.pipelines.images import ImagesPipeline


class ImgPipeline(ImagesPipeline):
    image_num = 0

    def item_completed(self, results, item, info):
        for ok, x in results:
            if ok:
                print(x["path"])
            image_paths = [x["path"] for ok, x in results if ok]
            for path in image_paths:
                os.rename(os.path.join(IMAGES_STORE, path), os.path.join(IMAGES_STORE, str(self.image_num) + '.png'))
                self.image_num += 1

6.修改settings.py

BOT_NAME = "wangzhe"

SPIDER_MODULES = ["wangzhe.spiders"]
NEWSPIDER_MODULE = "wangzhe.spiders"


ROBOTSTXT_OBEY = False


DEFAULT_REQUEST_HEADERS = {
   "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
   "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 "
                  "Safari/537.36",
}

ITEM_PIPELINES = {
   "ITEM_PIPELINES = {
    "wangzhe.pipelines.ImgPipeline": 300,
}
.pipelines.ImgPipeline": 300,
}

IMAGES_STORE = "./wang/"


LOG_FILE = 'wangzhe.log'
LOG_FORMAT = '%(asctime)s--%(name)s--%(levelname)s: %(message)s'
LOG_DATEFORMAT = "%Y"

7.开始爬取

scrapy crawl wz

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy

python

开发语言

scrapy爬取王者官网壁纸的相关文章

从 Django 调用 Postgres SQL 存储过程

我正在开发一个带有 Postgresql 数据库的 Django 项目我编写了一个可以在 Postgres 上完美运行的存储过程现在我想从 Django 1 5 调用该存储过程我已经编写了代码但它提示错误 CREATE FUNCTI
有没有一种方法可以将python对象直接存储在mongoDB中而不需要序列化它们

我在某处读到过您可以使用 BSON 将 python 对象更具体地说是字典作为二进制文件存储在 MongoDB 中但是现在我找不到任何与此相关的文档有人知道具体如何做到这一点吗没有办法在不序列化的情况下将对象存储在文件数据库
将 transaction.commit_manually() 升级到 Django > 1.6

我继承了为 Django 1 4 编写的应用程序的一些代码我们需要更新代码库以使用 Django 1 7 并最终更新到 1 8 作为下一个长期支持版本在一些地方它使用旧风格 transaction commit manually and
如何在 Jupyter Notebook 中运行 Python 异步代码？

我有一些 asyncio 代码在 Python 解释器 CPython 3 6 2 中运行良好我现在想在具有 IPython 内核的 Jupyter 笔记本中运行它我可以运行它 import asyncio asyncio get ev
如何使用 colorchecker 在 opencv 中进行颜色校准？

我有数码相机获取的色彩检查器图像我如何使用它来使用 opencv 校准图像按照以下颜色检查器图像操作您是想问如何进行颜色校准或如何使用 OpenCV 进行校准为了进行颜色校准您可以使用校准板的最后一行灰色调以下是您应该逐步进行
ctypes 错误：libdc1394 错误：无法初始化 libdc1394

我正在尝试将程序编译为共享库我可以使用 ctypes 在 Python 代码中使用该库使用以下命令该库可以正常编译 g shared Wl soname mylib O3 o mylib so fPIC files pkg config
在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
如何在VIM中设置文件的正确路径？

每当我击中 pwd在 vim 中命令总是返回路径C Windows system32 即使我在桌面上的 Python 文件中所以每当我跑步时 python 命令返回 python can t open file Users myname
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
ValueError：不支持连续[重复]

这个问题在这里已经有答案了我正在使用 GridSearchCV 进行线性回归的交叉验证不是分类器也不是逻辑回归我还使用 StandardScaler 对 X 进行标准化我的数据框有 17 个特征 X 和 5 个目标 y 观察约11
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
Python Pandas：如何对组中的所有项目进行分组并为其分配 id？

我有 df domain orgid csyunshu com 108299 dshu com 108299 bbbdshu com 108299 cwakwakmrg com 121303 ckonkatsunet com 121303
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
Django - 提交具有同一字段多个输入的表单

预警我对 Django 以及一般的 Web 开发非常陌生我使用 Django 托管一个基于 Web 的 UI 该 UI 将从简短的调查中获取用户输入通过我用 Python 开发的一些分析来提供输入然后在 UI 中呈现这些分析的可视
在 Windows 上使用带有对数刻度的 matplotlib 时出现 Unicode 错误

我正在使用 python 2 6 和 matplotlib 如果我运行 matplotlib 库页面中提供的示例 histogram demo py 它工作正常我已经大大简化了这个脚本 import numpy as np import
Python对象初始化性能

我只是做了一些快速的性能测试我注意到一般情况下初始化列表比显式初始化列表慢大约四到六倍这些可能是错误的术语我不确定这里的行话例如 gt gt gt import timeit gt gt gt print timeit timeit
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
使用Multiprocessing和Pool时如何访问全局变量？

我试图避免将变量冗余地传递到dataList e g 1 globalDict 2 globalDict 3 globalDict 并在全球范围内使用它们 global globalDict然而在下面的代码中并不是这样做的解决方案是否有
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

Git 版本回退与前进（03）

现在你已经学会了修改文件然后把修改提交到Git版本库现在再练习一次修改readme txt文件如下 Git is a distributed version control system Git is free software
理解attention的image to caption（图片的文字描述）

更多查看 https github com B C WANG AI Storage 4 1 理解attention的image to caption 图片的文字描述 4 1 1 一一个简单模型 Encoder 使用预训练的CNN进行fin
flex局部的知识总结（转载）

版权声明本文为CSDN博主 Coralpapy 的原创文章遵循CC 4 0 BY SA版权协议转载请附上原文出处链接及本声明原文链接 https blog csdn net Coralpapy article details 120
用limma包的voom方法来做RNA-seq 差异分析

用limma包的voom方法来做RNA seq 差异分析大家都知道这十几年来最流行的差异分析软件就是R的limma包了但是它以前只支持microarray的表达数据考虑到大家都熟悉了它它又发了一个voom的方法让它从此支持RNA
Python-绘制七段数码管

SevenDigitsDrawV2 py import turtle time def drawGap 绘制数码管间隔 turtle penup turtle fd 5 def drawLine draw 绘制单段数码管 drawGap t
vue踩坑填坑（四）：在vue单页中修改title

由于在vue单页应用中title只设定在入口文件index html 如果切换路由 title怎么更换在路由router中设置meta path chooseBrand component resolve gt require compo
数据链路层简介

1 数据链路层的基本概念数据链路层在物理层提供服务的基础上向网络层提供服务其最基本的服务是将源自网络层来的数据可靠地传输到相邻节点的目标机网络层其主要作用是加强物理层传输原始比特流的功能将物理层提供的可能出错的物理连接改造成为逻辑上
Python 保存数据的方法（4种方法）

Python 保存数据的方法 open函数保存使用with open 新建对象写入数据这里使用的是爬取豆瓣读书中一本书的豆瓣短评作为例子 import requests from lxml import etree 发送Request
无线连接打印服务器,如何用旧电脑架设无线网络打印服务器

如何用旧电脑架设无线网络打印服务器由会员分享可在线阅读更多相关如何用旧电脑架设无线网络打印服务器 4页珍藏版请在人人文库网上搜索 1 如何用旧电脑架设无线网络打印服务器在工作中单位需要打印的文件还是不少的可是笔记本电脑连接一个
input框限输入数字并保留两位小数

先把非数字的都替换掉除了数字和 obj value obj value replace d g 保证只有出现一个而没有多个 obj value obj value replace 2 g 必须保证第一个为数字而不是 obj value
iOS上架及ipa包上传到AppStore

概述由于苹果的机制在非越狱机器上安装应用必须通过官方的Appstore 开发者开发好应用后上传Appstore 也需要通过审核等环节 AppCan作为一个跨主流平台的一个开发平台也对ipa包上传Appstore作了支持本文从三个流程
通过canvas实现将html的某些元素转为png图片

有时候我们需要把html或者某些html元素转换为图片并且支持下载下面是学习之后的总结希望能给大家带来帮助所需插件库 html2canvas js canvas2image js base64 js 资源地址链接 https pa
蛇形矩阵（完全）

画 n阶蛇形方阵比如如图是5阶方阵 5条对角线 1 2 6 7 15 3 5 8 14 16 4 9 13 17 22 10 12 18 21 23 11 19 20 24 25 解题思路 1 分为上三角和下三角上三角的思路是同蛇形矩阵
训练自己的ai模型（一）学习笔记与项目实操

ai模型大火作为普通人我也想做个自己的ai模型训练自己的ai模型通常需要接下来的的六步一收集和准备数据集需要收集和准备一个数据集其中包含想要训练模型的数据这可能需要一些数据清理和预处理以确保数据集的质量和一致性二选择和
clash设置代理后内网访问慢及访问不到问题

配置忽略代理的ip及域名即可在 config clash文件夹下新建 proxyIgnoreList plist文件如果不知道 config clash在哪的可以通过打开本地文件夹来定位然后在新创建的文件内写入要忽略代理的域名及ip
链表与节点

链表 java中通过 node next 表示 node的下一个节点同理 node next next 表示 node后的第二个节点通过链表这种数据结构可以实现许多奇妙的组合这里我通过接口的方式把重要的方法进行了封装虽然只有三个
逆流而上——泛谈对二进制可执行程序的静态反编译

欢迎对本blog相关主题感兴趣的团体或单位转载相关文章但转载时请注明出处谢谢一概述首先应该声明的是这里讨论的反编译是针对二进制可执行程序进行的静态反向编译操作虽然对于类似Java Bytecode和MSIL的虚拟机中间代码的反
【layui】灵活使用弹出层iframe 让你的父界面代码更加清晰

第一次使用layui框架时候 layer open 使用了最最累赘的静态布局div 在写入content中不但让你的代码逻辑很乱而且不利于开发所以整理一款弹出层js 是在开发中必不可少的在此感谢 X admin2 0 提供的源码
python实现次梯度(subgradient)和近端梯度下降法 (proximal gradient descent)方法求解L1正则化

l1范数最小化考虑函数显然其在零点不可微其对应的的次微分为注意的取值为一个区间两个重要定理 1 一个凸函数当且仅当为全局最小值即为最小值点 2 为函数不一定是凸函数的最小值点当且仅当在该点可次微分且考虑最简单的一
scrapy爬取王者官网壁纸

1 安装scrapy pip install scrapy pip install Pillow 2 创建项目 scrapy startproject wangzhe cd wangzhe scrapy genspider wz xxx 3

scrapy爬取王者官网壁纸

1.安装scrapy

2.创建项目

3.修改wz.py

4.修改item.py

5.修改pipelines.py

6.修改settings.py

7.开始爬取

scrapy爬取王者官网壁纸 的相关文章

随机推荐

热门标签

scrapy爬取王者官网壁纸的相关文章