python批量下载csdn文章

2023-11-19

声明：该爬虫只可用于提高自己学习、工作效率，请勿用于非法用途，否则后果自负

功能概述：

根据待爬文章url(文章id)批量保存文章到本地；
支持将文中图片下载到本地指定文件夹；
多线程爬取；

1.爬取效果展示

本次示例爬取的链接地址：
https://blog.csdn.net/m0_68111267/article/details/132574687

原文效果：

爬取效果：

文件列表：

2.编写代码

爬虫使用scrapy框架编写，分布式、多线程

2.1编写Items

class ArticleItem(scrapy.Item):

    id = scrapy.Field()  # ID
    title = scrapy.Field()
    html = scrapy.Field()  # html


class ImgDownloadItem(scrapy.Item):

    img_src = scrapy.Field()
    img_name = scrapy.Field()
    image_urls = scrapy.Field()


class LinkIdsItem(scrapy.Item):

    id = scrapy.Field()

2.2添加管道



class ArticlePipeline():

    def open_spider(self, spider):
        if spider.name == 'csdnSpider':

            data_dir = os.path.join(settings.DATA_URI)
            #判断文件夹存放的位置是否存在，不存在则新建文件夹
            if not os.path.exists(data_dir):
                os.makedirs(data_dir)
            self.data_dir = data_dir

    def close_spider(self, spider):  # 在关闭一个spider的时候自动运行
        pass
        # if spider.name == 'csdnSpider':
        #     self.file.close()

    def process_item(self, item, spider):
        try:
            if spider.name == 'csdnSpider' and item['key'] == 'article':
                info = item['info']
                id = info['id']
                title = info['title']
                html = info['html']

                f = open(self.data_dir + '/{}.html'.format(title),
                         'w',
                         encoding="utf-8")
                f.write(html)
                f.close()
        except BaseException as e:
            print("Article错误在这里>>>>>>>>>>>>>", e, "<<<<<<<<<<<<<错误在这里")
        return item

2.3添加配置

2.4添加解析器


    ...
    
    def parse(self, response):
        html = response.body
        a_id = response.meta['a_id']
        soup = BeautifulSoup(html, 'html.parser')

        [element.extract() for element in soup('script')]
        [element.extract() for element in soup.select("head style")]
        [element.extract() for element in soup.select("html > link")]

        # 删除style中包含隐藏的标签
        [
            element.extract() for element in soup.find_all(
                style=re.compile(r'.*display:none.*?'))
        ]
        
        ...

3.获取完整源码

项目说明文档

爱学习的小伙伴，本次案例的完整源码，已上传微信公众号“一个努力奔跑的snail”，后台回复“csdn”即可获取。

源码地址:

https://pan.baidu.com/s/1uLBoygwQGTSCAjlwm13mog?pwd=****

提取码: ****

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫js逆向

python

开发语言

python批量下载csdn文章的相关文章

阻止 TensorFlow 访问 GPU？ [复制]

这个问题在这里已经有答案了有没有一种方法可以纯粹在CPU上运行TensorFlow 我机器上的所有内存都被运行 TensorFlow 的单独进程占用我尝试将 per process memory fraction 设置为 0 但未成功
从 Django 调用 Postgres SQL 存储过程

我正在开发一个带有 Postgresql 数据库的 Django 项目我编写了一个可以在 Postgres 上完美运行的存储过程现在我想从 Django 1 5 调用该存储过程我已经编写了代码但它提示错误 CREATE FUNCTI
如何覆盖 Django 的默认管理模板和布局

我正在尝试覆盖 Django 的默认模板现在只有base site html 我正在尝试更改 django 管理文本我做了以下事情我在我的应用程序目录中创建了一个文件夹 opt mydjangoapp templates admin
在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
将二维数组放入 Pandas 系列中

我有一个 2D Numpy 数组我想将其放入 pandas 系列而不是 DataFrame 中 gt gt gt import pandas as pd gt gt gt import numpy as np gt gt gt a np
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
Django - 提交具有同一字段多个输入的表单

预警我对 Django 以及一般的 Web 开发非常陌生我使用 Django 托管一个基于 Web 的 UI 该 UI 将从简短的调查中获取用户输入通过我用 Python 开发的一些分析来提供输入然后在 UI 中呈现这些分析的可视
sqlite3从打印数据中删除括号

我创建了一个脚本用于查找数据库第一行中的最后一个值 import sqlite3 global SerialNum conn sqlite3 connect MyFirstDB db conn text factory str c con
字符串列表，获取n个元素的公共子串，Python

我的问题可能类似于this https stackoverflow com questions 37514193 count the number of occurrences of n length not given string in
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
使用 Python 将对象列表转为 JSON

我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

使用NDK编译C/C++文件生成在安卓中的可执行文件

使用NDK编译C C 文件生成在安卓中的可执行文件需求要编译一个C文件然后将他运行到安卓手机中通过这个可执行文件可以获取一些硬件的参数信息或者对已经有的信息进行修改从而达到我们想要的效果相关知识点记录 NDK Native D
HTTP POST请求json数据量过大的问题

与第三方合作需要提供数据上传接口给他们联调时被他们的单条json数据量困扰到了第三方接口联调一条7M的json上传给我们毫无意外的报错了实体数据量太大该如何修改以便适应大数据量的上传呢在代码层面想不到解决方案于是查看配置
GitHub Actions自动化部署+定时百度链接推送

前言最近用VuePress搭建了一个静态网站由于是纯静态的东西每次修改完文章都要重新打包上传很是麻烦虽然vuepress theme vdoing主题作者提供了GitHub Actions自动化部署的教程文章但是过于简陋且是19年
在小项目中实践领域驱动设计(含详细代码和实践过程) #CSDN博文精选# #IT# #项目实践#

大家好小C将继续与你们见面带来精选的CSDN博文又到周一啦上周的系统化学习专栏已经结束我们总共一起学习了20篇文章这周将开启全新专栏放假不停学全栈工程师养成记在这里你将收获将系统化学习理论运用于实践系统学习IT技术
为什么Java不支持多继承，却搞了个Interface出来？

多继承的问题在于无法找到一个合理的规则去初始化基类的数据菱形继承中两个子类分别调用父类构造函数进行初始化时到底该调用谁都调用的话谁先谁后 C 的解决方案把这个问题丢给了使用者也就是孙类似乎是解决了问题可是它忽视了子类并没有虚
阿里巴巴编码规范习题

因为工作需要公司组里要求考阿里巴巴编程规范于是我花了一天的时间看了一遍然后刷了一些题终于在第三次的时候考过了考试是基于阿里巴巴Java开发手册一共50道题目包括多选和单选题目都是选择题目前阿里云编程规范是出到V1 5 0
算法：深度优先遍历和广度优先遍历

什么是深度广度优先遍历图的遍历是指从给定图中任意指定的顶点称为初始点出发按照某种搜索方法沿着图的边访问图中的所有顶点使每个顶点仅被访问一次这个过程称为图的遍历遍历过程中得到的顶点序列称为图遍历序列图的遍历过程中根据搜索
类的数组成员变量的初始化

使用STL标准模板库之后编程时已经很少使用数组和指针相反多使用序列容器vector代替之但事实并不这么理想在迫不得已的情况下我们还是会选择使用数组这里介绍一下当数组作为类的成员变量时应该怎么对它数组进行初始化在类的构造
日志LOG

一引言 1 1 日志介绍用于记录系统中发生的各种事件记录的位置常见的有控制台磁盘文件等 1 2 日志级别日志级别从低到高 TRACE 堆栈 DEBUG 调试期 INFO 运行期 WARN 警告 ERROR 错误 FATAL 严重
微信小程序实现一个遮罩层

微信小程序实现遮罩层开发中遮罩层的使用场景很多例如 loading的时候例如搜索的时候等以下是一个案例点击页面的搜索框在页面上添加一层遮罩层显示搜索详情页页面搜索框如下页面最上面有一个搜索框下面有一些其他UI元素
微软解释关于Windows 10 收集用户数据那点事

微软 Microsoft 在周一时发布关于Win10 收集用户数据的新细节试图停止这场争议早前该软件巨头确认Win10收集用户数据并发送给微软并声称这是用于改善整体用户体验然而这引发了人们对用户隐私以及用何种方式收集数据的关注
int、long、long long取值范围

unsigned int 0 4294967295 int 2147483648 2147483647 unsigned long 0 4294967295 long 2147483648 2147483647long long的最大值 9
美团外卖推荐关于用户新颖体验优化的技术探索

外卖场景下用户复购属性强下单频次高既想下单老商家也会想换换新口味为更好平衡用户的复购尝新体验外卖推荐团队从2022年起开始持续投入构建了外卖场景新颖性推荐的体系化解决方案截止目前外卖首页用户曝光新颖性累计提升19
安装anconda以及在pycharm使用

安装anconda 下载安装配置虚拟环境需要通过anaconda来完成 anaconda的下载地址为 https docs conda io en latest miniconda html windows用户下载python3 8的mi
蓝牙之四-Handler

Handler机制 Handler允许用户发送和处理Message以及线程MessageQueue相关的可运行对象每个Handler实例都对应一个单线程以及该线程的MessageQueue 当创建新的Handler时该Handler将被
Kali搭建DVWA——Web靶场

博主主站地址微笑涛声 www cztcms cn 一 DVWA介绍 1 DVWA简介 DVWA是一款基于PHP和MYSQL开发的web靶场练习平台集成了常见的web漏洞如sql注入 XSS 密码破解等常见漏洞旨在为安全专业人员测试自己
SDL无法打开音频设备的问题：Couldn‘t open audio/video device: No available audio/video device

解决中标麒麟下SDL无法打开音频设备的问题 root登录首先就是一定要用root登录这个可能是权限问题否则后面实验不能成功安装ALSA库首先下载alsa lib https www alsa project org main in
[数据结构（C语言）]单链表的定义，实现初始化、创建、插入、增、删、改、查等基本操作

建议新人收藏使用首先让我们回顾一下顺序表的优缺点 1 优点随机存取存储空间利用率高 2 缺点插入删除效率低必须按事先估计的最大元素个数分配连续的存储空间难以临时扩大采用链式存储结构的线性表称为链表链表有单链表循环链表和
Stream流将list中对象的属性按照小时进行分组

需求是这样的给了一个日期时间区间一个对象list 要统计这个时间段内每天某个小时段的数据量之和如图刚开始思路是把时间区间按每个小时进行拆分得到这段时间每个小时的开始结束时间跟list对象进行比对后在进行整合计算发现代码会很臃肿
python批量下载csdn文章

声明该爬虫只可用于提高自己学习工作效率请勿用于非法用途否则后果自负功能概述根据待爬文章url 文章id 批量保存文章到本地支持将文中图片下载到本地指定文件夹多线程爬取 1 爬取效果展示本次示例爬取的链接地址 https b