Python3 爬虫 requests+BeautifulSoup4(BS4) 爬取小说网站数据

2023-11-16

刚学Python爬虫不久，迫不及待的找了一个网站练手，新笔趣阁：一个小说网站。

前提准备

安装Python以及必要的模块（requests，bs4），不了解requests和bs4的同学可以去官网看个大概之后再回来看教程

爬虫思路

刚开始写爬虫的小白都有一个疑问，进行到什么时候爬虫还会结束呢？答案是：爬虫是在模拟真人在操作，所以当页面中的next链接不存在的时候，就是爬虫结束的时候。

1.用一个queue来存储需要爬虫的链接，每次都从queue中取出一个链接，如果queue为空，则程序结束
2.requests发出请求，bs4解析响应的页面，提取有用的信息，将next的链接存入queue
3.用os来写入txt文件

具体代码

需要把域名和爬取网站对应的ip 写入host文件中，这样可以跳过DNS解析，不这样的话，代码运行一段时间会卡住不动

'''
抓取新笔趣阁https://www.xbiquge6.com/单个小说
爬虫线路： requests - bs4 - txt
Python版本： 3.7
OS： windows 10
'''
import requests
import time
import sys
import os
import queue
from bs4 import BeautifulSoup 
# 用一个队列保存url
q = queue.Queue()
# 首先我们写好抓取网页的函数
def get_content(url):

    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',
        }

        r = requests.get(url=url, headers=headers)
        r.encoding = 'utf-8'
        content = r.text
        return content
    except:
        s = sys.exc_info()
        print("Error '%s' happened on line %d" % (s[1], s[2].tb_lineno))
        return " ERROR "

# 解析内容
def praseContent(content):
    soup = BeautifulSoup(content,'html.parser')
    chapter = soup.find(name='div',class_="bookname").h1.text
    content = soup.find(name='div',id="content").text
    save(chapter, content)
    next1 = soup.find(name='div',class_="bottem1").find_all('a')[2].get('href')
    # 如果存在下一个章节的链接，则将链接加入队列
    if next1 != '/0_638/':
        q.put(base_url+next1)
    print(next1)
# 保存数据到txt
def save(chapter, content):
    filename = "修罗武神.txt"
    f =open(filename, "a+",encoding='utf-8')
    f.write("".join(chapter)+'\n')
    f.write("".join(content.split())+'\n') 
    f.close

# 主程序
def main():
    start_time = time.time()
    q.put(first_url)
    # 如果队列为空，则继续
    while not q.empty():
        content = get_content(q.get())
        praseContent(content)
    end_time = time.time()
    project_time = end_time - start_time
    print('程序用时', project_time)

# 接口地址
base_url = 'https://www.xbiquge6.com'
first_url = 'https://www.xbiquge6.com/0_638/1124120.html'
if __name__ == '__main__':
    main()

总结

结果蛮成功的吧，就是过程比较慢，程序用时1个半小时。。23333继续学习，有改进方案的欢迎提出来，一起交流。
QQ:1156381157

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

运维

Python3 爬虫 requests+BeautifulSoup4(BS4) 爬取小说网站数据的相关文章

当默认 pip 为 pip2 时，升级 pip3 的正确格式是什么？

我为两者开发Python 2 and 3 因此我必须同时使用pip2 and pip3 使用时pip3 我收到此升级请求最后两行 pip3 install arrow Requirement already satisfied use
是否可以在 Sphinx 中隐藏 Python 函数参数？

假设我有以下函数该函数记录在Numpydoc 风格 https github com numpy numpy blob master doc HOWTO DOCUMENT rst txt 并且文档是自动生成的Sphinx http sph
如何在不破坏默认行为的情况下覆盖 __getattr__ ？

我如何覆盖 getattr https docs python org 3 reference datamodel html object getattr 类的方法而不破坏默认行为压倒一切 getattr 应该没事 getattr 仅作为
Python pandas：删除字符串中分隔符之后的所有内容

我有数据框其中包含例如 vendor a ProductA vendor b ProductA vendor a Productb 我需要删除所有内容包括两个以便我最终得到 vendor a vendor b vendor a 我尝
SQLAlchemy：检查给定值是否在列表中

问题在 PostgreSQL 中检查某个字段是否在给定列表中是使用IN操作员 SELECT FROM stars WHERE star type IN Nova Planet SQLAlchemy 的等价物是什么INSQL查询我尝试过
如何充分释放函数中使用的GPU内存

我在用着cupy在接收一个函数numpy数组将其推到 GPU 上对其进行一些操作并返回cp asnumpy它的副本问题函数执行后内存没有被释放如ndidia smi 我知道内存的缓存和重用cupy 但是这似乎仅适用于每个用户当
使用Python进行图像识别[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个想法就是我想识别图像中的字母可能是 bmp或 jpg 例如这是一个包含字母 S 的 bmp 图像我想做的是使用Pyth
将分布拟合到直方图

I want to know the distribution of my data points so first I plotted the histogram of my data My histogram looks like th
什么时候用==，什么时候用is？

奇怪的是 gt gt gt a 123 gt gt gt b 123 gt gt gt a is b True gt gt gt a 123 gt gt gt b 123 gt gt gt a is b False Seems a is b
如何将一串Python代码编译成一个可以调用函数的模块？

在 Python 中我有一串 Python 源代码其中包含以下函数 mySrc def foo print foo def bar print bar 我想将这个字符串编译成某种形式类似模块的对象这样我就可以调用代码中包含的函数这是我
Microsoft Azure 数据仓库和 SqlAlchemy

我正在尝试使用 python 的 sqlalchemy 库连接到 microsoft azure 数据仓库并收到以下错误 pyodbc Error HY000 HY000 Microsoft ODBC SQL Server Driver
PyPI 上的轮子平台约束有什么限制吗？

是否有任何地方 PEP 或其他地方声明关于 Linux 轮子上传范围的限制 PyPI http pypi io 应该有具体来说上传是否被认为是可接受的做法linux x86 64轮子到 PyPI 而不是manylinux1 x86 6
使用 .map() 在 pandas DataFrame 中高效创建附加列

我正在分析形状与以下示例类似的数据集我有两种不同类型的数据 abc数据和xyz data abc1 abc2 abc3 xyz1 xyz2 xyz3 0 1 2 2 2 1 2 1 2 1 1 2 1 1 2 2 2 1 2 2 2 3
当我打印“查询”时获取 PY_VAR1

我正在制作一个简单的网络抓取代码当我尝试打印一个值时它给了我其他东西 def PeopleSearch query SearchTerm query what is query print str query SearchTerm St
如何使用 Selenium Webdriver (Python) 在上下文菜单中选择“将图像另存为...”来保存图像

我正在尝试使用 selenium webdriver 将特定图像保存到目录中我希望通过模拟右键单击 img 元素并选择将图像另存为来实现此目的使用以下代码我可以打开上下文菜单但无法选择正确的选项 browser WebDriver
Docker Build 找不到 pip

尝试关注一些 1 https aws amazon com blogs aws run docker apps locally using the elastic beanstalk eb cli 2 http docs aws amazo
为什么 tesseract 无法从这个简单的图像中读取文本？

我在 pytesseract 上阅读了大量的帖子但我无法让它从一个简单的图像中读取文本它返回一个空字符串这是图像我尝试过缩放它灰度化它调整对比度阈值模糊以及其他帖子中所说的一切但我的问题是我不知道 OCR 想要更好地工作
在Python中将罗马数字转换为整数

根据 user2486 所说这是我当前的代码 def romanMap map M 1000 CM 900 D 500 CD 400 C 100 XC 90 L 50 XL 40 X 10 IX 9 V 5 V 4 I 1 return
Matplotlib 渲染日期、图像的问题

我在使用 conda forge 的 Matplotlib v 3 1 3 和 python 3 7 时遇到问题我拥有 Matplotlib 所需的所有依赖项当我输入这段代码时它应该可以工作我得到了泼溅艺术它基于此 YouTube
将自定义属性添加到 Tk 小部件

我的主要目标是向小部件添加隐藏标签或字符串之类的内容以在其上保存简短信息我想到创建一个新的自定义 Button 类在本例中我需要按钮它继承所有旧选项这是代码 form tkinter import class NButton Bu

随机推荐

【Linux】常用的 Linux 命令行

目录写在前面一查看信息指令 1 df 查看磁盘驱动器的可用空间 2 free 显示可用内存二常用操作指令 1 pwd 查看当前目录 2 cd 改变目录 3 ls 列出目录内容 4 file 确定文件类型 5 切换 root 普通用
【LeetCode与《代码随想录》】数组篇：做题笔记与总结-Java版

代码随想录地址是学习过程中的笔记图来自代码随想录文章目录理论题目 704 二分查找 35 搜索插入位置 34 在排序数组中查找元素的第一个和最后一个位置 69 x 的平方根 367 有效的完全平方数理论数组是存放在连续内存空间
Nginx---进程锁的实现

http wang peng 1123 blog 163 com blog static 129821112201381311441180 在前面的源码分析中我们大致的介绍了一下nginx对负载均衡问题和惊群问题的解决方案在本次源码分析中
【C++】引用

1 引用的基本语法 2 引用注意事项 int b 错误 int b a 正确 3 引用做函数参数 int temp a a b b temp 4 引用做函数返回值出现问题 https www bilibili com video BV1e
微信小程序水平居中，和垂直居中

微信小程序水平居中和垂直居中 1 WXML信息展示
Windows文本编辑器——推荐、介绍与安装（1）

撰写时间 2023年4月11日目的介绍各种类型的文本编辑器阐述编辑器的优缺点并提供安装与使用方法前言文本编辑器是应用各种已有的编程语言进行软件开发的一种重要工具它能够帮助开发者更加高效地编写代码也能够帮助电脑小白快速上手各种
Qt Model View TreeView及对应Model

点击上方蓝字可直接关注方便下次阅读如果对你有帮助可以点个在看让它可以帮助到更多老铁一概述接着之前的话题继续如果把之前的QTableView改成QTreeView 我们在不改变Model的情况下可以直接得到一个没有结构层次的
Linux KVM 使用教程（一）

文章目录 1 KVM简介 2 KVM 的功能列表 3 KVM 工具集合 3 1 Virsh命令 1 KVM简介 1 KVM 全称是基于内核的虚拟机 Kernel based Virtual Machine 它是Linux 的一个内核模块
python2(基本)

实验02 基本一课内实验题共10小题 100分题型得分 100 描述编写程序从键盘输入两个整数计算并输出这两个整数的和平均值最小值和最大值平均值保留2位小数输入分行输入两个整数输出分行输出两个整数的和平均值最
JDK1.8 下载与安装

JDK安装 JDK1 8下载下载链接 https www oracle com java technologies javase javase jdk8 downloads html 根据操作系统版本下载这里以win10 64位操作系统
驱动程序里ioctl下switch问题

今天在写步进电机驱动程序时 switch语句引出3个分支 case 0 case 1 case 2 case 0 什么都不做 case 1让步进电机正向转动 case 2让步进电机反向转动但是测试时 case 2怎么也动不起来后来把ca
PLSQL Developer的配置方法

1 下载32位的版本instantclient basic nt 11 2 0 3 0 zip 因为PLSQLDev是32位的没有64位的版本这个和操作系统无关 2 instantclient下载完后是一个压缩文件不需要安装配置一
服务器系统如何清理,服务器清理内存怎么清理

服务器清理内存怎么清理内容精选换一换本节操作指导您完成Windows操作系统云服务器磁盘空间清理弹性云服务器匀出一部分磁盘空间来充当内存使用当内存耗尽时云服务器可以使用虚拟内存来缓解内存的紧张但当内存使用率已经非常高时频繁的
关于HTTP协议，一篇就够了

HTTP简介 HTTP协议是Hyper Text Transfer Protocol 超文本传输协议的缩写是用于从万维网 WWW World Wide Web 服务器传输超文本到本地浏览器的传送协议 HTTP是一个基于TCP IP通信协
TCP 连接管理机制(一)——TCP三次握手详解 + 为什么要有三次握手

TCP是面向连接的协议在通信之前需要先建立连接其本质就是打开一个socket文件这个文件有自己的缓冲区如果要发送数据上层把数据拷贝到发送缓冲区如果是接收数据 OS直接把来自网络的数据拷贝到接收缓冲区里那么三次握手期间 Serv
youversion.com的圣经无法使用、无法连接、无法下载离线版本的解决方法

最近 youversion com的圣经无法使用无法连接无法下载离线版本了这是一部很好用的圣经软件以前一直用着后来ipad越狱重新安装的时候就不能连接了后来无意间发现原来是这个网站被和谐了至于GCD为什么这么做以咱的智商尚不
接口自动化测试须知

一做接口测试需要哪些技能做接口测试需要的技能基本就是以下几点业务流了解系统及内部各个组件之间的业务逻辑交互数据流了解接口的I O input output 输入输出协议包括http协议 TCP IP协议族 http协议
CMD查杀端口的两种方式

第一种 netstat ano windows r输入cmd并打开输入netstat ano 记住对应的6052 输入杀掉端口 taskkill pid 6052 f 第二种 netstat aon findstr 8080 直接输入ne
Win10 + VS2017 + Ceres配置

前言 Ceres是google出品的一款基于C 的开源非线性优化库官方文档 Ceres官方文档地址依赖库 Eigen 官网 glog github gflags github Ceres github 配置过程 1 Eigen Eige
Python3 爬虫 requests+BeautifulSoup4(BS4) 爬取小说网站数据

刚学Python爬虫不久迫不及待的找了一个网站练手新笔趣阁一个小说网站前提准备安装Python以及必要的模块 requests bs4 不了解requests和bs4的同学可以去官网看个大概之后再回来看教程爬虫思路刚开始写爬虫