Python实现某网站爬取小说（爬虫）

2023-10-30

该代码仅供学习交流！！

爬虫：

爬虫是一种自动化程序，用于从互联网上获取和提取数据。它模拟人类用户的行为，在网页上浏览和抓取信息，并将所需数据保存或处理。

下面演示的代码是爬取小说的

先看运行效果图

下载完成后，直接合并为一个文件，超方便好吧，不是单个的文件看着麻烦

代码如下：

需要爬取指定小说就修改一下对应小说的编号即可

import requests
from bs4 import BeautifulSoup
import time

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

ids = "16585"
url = f'http://www.qiuyelou.net/{ids}/'

def get_soup(url):
    # 发送请求获取页面内容，并返回解析后的BeautifulSoup对象
    response = requests.get(url, headers=headers)
    response.encoding = "utf-8"
    soup = BeautifulSoup(response.text, 'html.parser')
    return soup

def download_chapter(chap_url, title):
    # 下载章节内容
    retries = 3
    while retries > 0:
        try:
            chapter_response = requests.get(chap_url, headers=headers)
            chapter_response.encoding = "utf-8"
            chapter_soup = BeautifulSoup(chapter_response.text, 'html.parser')

            # 提取章节标题和内容
            chapter_title = chapter_soup.find('div', class_='title').h1.text
            idclass = chap_url.split("/")[-1].replace(".html", "")
            chapter_content = chapter_soup.find('div', id=f'content{idclass}').text

            # 将章节标题和内容写入文件
            with open(f"缓存/{title}.txt", 'a', encoding='utf-8') as f:
                f.write(chapter_title + '\n\n')
                f.write(chapter_content + '\n\n')
            print('已下载：', chapter_title)
            break
        except requests.exceptions.RequestException:
            print('请求失败，重试...')
            retries -= 1
            time.sleep(1)
    else:
        print('无法下载章节：', chap_url)

soup = get_soup(url)
title = soup.find('div', class_='title').h1.text
print('正在下载小说：', title)

chapter_urls = [f'http://www.qiuyelou.net/{ids}/{chapter["href"]}' for chapter in soup.select('dd a')]
print(chapter_urls)

for chap_url in chapter_urls:
    download_chapter(chap_url, title)

print('小说下载完成！')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

开发语言

网络安全

爬虫

Python实现某网站爬取小说（爬虫）的相关文章

我如何在 python 2.6 中测试抽象方法

我有一个抽象类 import abc class Hello object metaclass abc ABCMeta abc abstractmethod def add self foo pass abc abstractmethod
只使用 Django 的某些部分？

我喜欢 Django 但对于一个特定的应用程序我只想使用它的一部分但我对 Django 的内部工作原理还不够熟悉所以也许有人可以指出我必须做什么的正确方向查看具体来说我想使用模型和数据库抽象 The 缓存API http doc
优化完美平方问题，类似于Python中的硬币找零

我这里有一个硬币兑换的解决方案 python 中的 leetcode 硬币兑换 https stackoverflow com questions 69517078 coin change leetcode in python 因为完全平方
使用 Python 在 Google Cloud Storage 存储桶中创建/上传新文件

如何使用 Python 和可用的客户端库在 Google Cloud Storage 中创建新的空文件或者如何使用 blob 函数 upload from filename 将新文件上传到选定的存储桶要初始化 blob 对象我们应该在
如何移动我的图像？ python 3.10.4 pygame

我会移动我的图像图像是matiskinfinal png 我尝试将像素添加到 x 或其他我不知道它是什么的东西因为我真的是 python 的初学者 pygame但是是 x x 变化但图像没有移动 import os import py
Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
Seaborn 热图中的自定义调色板间隔

我正在尝试绘制一个heatmap https seaborn pydata org generated seaborn heatmap html使用seaborn库绘图函数如下所示 def plot confusion matrix da
python 脚本中 os.system 的 256 和 512 响应代码是什么

当我在 python 中使用 os system ping 服务器时我得到多个响应代码使用的命令 os system ping q c 30 s SERVERANME 0 在线 256 离线 512 512 是什么意思 Per the
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
从主机名中提取域名

是否有一种编程方式可以从给定的主机名查找域名给出 gt www yahoo co jp 返回 gt yahoo co jp 有效但非常慢的方法是拆分为并从左侧删除 1 个组使用 dnspython 加入并查询 SOA 记录当返回有
如何使用 xlrd 将新列和行添加到 .xls 文件

如何向 xlrd 中的工作表添加新列和或行我有一个使用 open workbook 读取的 xls 文件我需要在第一张表中添加一个新列 bouncebacks 然后在该表中添加新行但我在 xlrd 文档中找不到任何显示如何添加新行和
python-polars 通过分隔符将字符串列拆分为许多列

在 pandas 中以下代码会将 col1 中的字符串拆分为许多列有没有办法在极地做到这一点 d col1 a b c d a b c d df pd DataFrame data d df a b c d df col1 str sp
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
如何为 Python 中的应用程序设置专用屏幕区域？

MS OneNote 就是一个很好的例子它可以选择固定在屏幕的一侧并将所有其他窗口推到一侧当最大化或调整其他窗口大小时它们只能扩展到 OneNote 的边缘 Python 使用 Tkinter 或其他模块是否具有此功能感谢您的帮助
PyCharm 无法识别字典值类型

我有一个简单的代码片段其中我将字典值设置为空列表 new dict for i in range 1 13 new dict i 现在如果在下一行的循环内我会输入new dict i 并添加一个点我希望 PyCharm 向我显示可用于
如何绘制多类分类器的精度和召回率？

我正在使用 scikit learn 我想绘制精度和召回曲线我正在使用的分类器是RandomForestClassifier scikit learn 文档中的所有资源都使用二元分类另外我可以绘制多类的 ROC 曲线吗另外我只找到
如何限制scrapy请求对象？

所以我有一个蜘蛛我认为它正在泄漏内存结果当我检查 telnet 控制台 gt gt gt prefs 时它只是从链接丰富的页面中抓取了太多链接有时它会超过 100 000 个现在我已经一遍又一遍地浏览文档和谷歌但我找不到一种方法
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
VSCode无法切换matplotlib后端：ImportError：无法加载需要“qt5”交互框架的后端“Qt5Agg”

我只想通过在 VSCode 中运行 Python 来进行绘图但结果失败了我无法将后端从 agg 切换到 Qt5Agg 但是我可以在 VSCode 的终端中轻松执行此操作 VSCode集成终端中的问题如下所示我尝试了各种解决方案但失败
django admin 中内联模型的分页器

我有这个简单的 django 模型由一个传感器和特定传感器的值组成每个日射强度计的值数量很多 gt 30k 是否可以以某种方式分页PyranometerValues在特定日期或一般情况下将分页器应用于管理内联视图 class Pyran

随机推荐

-128----127缓存，在栈中获取

span style font size 13px package test span br style font size 13px br style font size 13px br style font size 13px span
nginx负载均衡的5种策略

nginx负载均衡的5种策略要理解负载均衡必须先搞清楚正向代理和反向代理负载均衡的几种常用方式 1 轮询默认每个请求按时间顺序逐一分配到不同的后端服务器如果后端服务器down掉能自动剔除 upstream backserver
如何根据excel文档中的内容同步更新数据库中的数据

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档根据excel中的内容同步更新数据库中的数据需求概述一解决思路二具体解决方案 1 使用navicat将excel导入到mysql数据库中 2 写SQL语句做更新操作
python中rfind函数作用_python中的rfind函数如何使用

python中rfind函数的用法 rfind 函数用于返回字符串最后一次出现的位置从右向左查询如果没有匹配项则返回 1 具体使用方法如 print str rfind substr 0 10 函数描述推荐教程 Python入门教程
Ubuntu系统无法联网问题

在网上看到许多解决方案是修改网络配置文件但是ubuntu系统的目录结构中甚至都没有对应文件因此找到以下解决方案能够顺利联网并进行sudo install 亲测有效解决方案 1 在虚拟机设置中将网络适配器修改为NAT模式 2 找到net
please check whether the configs are released in Apollo!

项目启动一直报错其他同事其他模块都没有这个错误关键信息如下 Cause status code 404 Could not find config for namespace appId m ln contractmanage clu
Java程序员必须要了解的七个开源协议介绍

1 Mozilla Public License MPL License 允许免费重发布免费修改但要求修改后的代码版权归软件的发起者这种授权维护了商业软件的利益它要求基于这种软件得修改无偿贡献版权给该软件这样围绕该软件得所有代码
【C++】模板定义位置引发未定义标识符 “E“

代码如下 include
为什么怕写代码(自己的亲身经历)

下班了坐在工位不知不觉就又想起了刚开始接触java编程的日子其实我觉得这个毛病也不在少数人因为在我上学的时候班里面分组做项目基本都是什么情况呢一人做好全部就可以交任务了最后导致了如果代码某个地方出错了全班90 的都出错了归
pytorch下载与安装（离线包版本）

笔者因为实验需要不同的模型需要不同版本版本的pytorch 于是安装pytorch就总是出现一个问题那就是断比如需要安装torch1 4版本使用Anaconda Prompt尝试了几次 pip install torch 1 4 0
python中eoferror是啥错误,python怎么看错误类型是什么

以下是python的错误类型的总结希望能帮助到有需要的小伙伴 Python全部的错误类型错误类型说明 ZeroDivisionError 除或取模零所有数据类型 ValueError 传入无效的参数 AssertionError
【精华】详解Qt中的内存管理机制

前言内存管理是对软件中内存资源的分配与释放进行有效管理的方法和理论众所周知内存管理是软件开发的一个重要的内容软件规模越大内存管理可能出现的问题越多如果像C语言一样手动地管理内存一会给开发人员带来巨大的负担二是手动管理内存的
人生百味-7：一个人干活，一群人催进度，谁之过？

如果你曾经是程序员我相信你会深有体会如果你曾经是项目管理我相信你会有感受旁观的说那是专业活只有他能做得来干活的说对不起大家还还需要一段时间查
论文阅读-Attention Bottlenecks for Multimodal Fusion（多模态特征融合）

一论文信息论文题目 Attention Bottlenecks for Multimodal Fusion paperwithcode https paperswithcode com paper attention bottlenec
分组密码算法与DES算法

目录 1 分组密码的含义 1 1 分组密码介绍 1 2 分组密码的含义 1 3 分组密码的要求 2 分组密码的设计思想 2 1 分组密码的设计思想 3 分组密码的基本特点 3 1 分组密码的基本特点 3 2 分组密码的迭代结构 3 3 子密
网关ping不通

一 ping 网关 ping 10 0 0 254 ping sendto Host is down ping sendto Host is down Request timeout for icmp seq 0 ping sendto H
windows批处理：路径以\结尾 + unix换行 + rem + %~dp0时会导致报错

windows对unix和windows换行符都支持的但是遇到一种情况对unix不支持之前遇到过window10执行没问题但到了win7却有问题代码如下 set project dir name Lua515 rem dp0 aaa
轻松穿戴 IMU嵌入宽松衣服里做动作捕捉

在日常生活中保持正确姿势能够有效促进血液循环并降低慢性疾病的患病风险在康复环境中姿势监测可以帮助医护人员评估病情和治疗手段的效果从而改善患者的身体状况在以往的研究中往往要求IMU牢固固定在穿戴者的特定身体部位对穿戴要求较高操
codeblocks安装、使用、调试教程

一下载官方下载地址二安装运行codeblocks 20 03mingw setup exe或FossHUB 界面如下点击 Next gt 点击 I Agree 如上图所示的选择组件界面这时一定要勾选 MinGW Compile
Python实现某网站爬取小说（爬虫）

该代码仅供学习交流爬虫爬虫是一种自动化程序用于从互联网上获取和提取数据它模拟人类用户的行为在网页上浏览和抓取信息并将所需数据保存或处理下面演示的代码是爬取小说的先看运行效果图下载完成后直接合并为一个文件超方便好吧不是

Python实现某网站爬取小说（爬虫）

爬虫：

Python实现某网站爬取小说（爬虫） 的相关文章

随机推荐

热门标签

Python实现某网站爬取小说（爬虫）的相关文章