python爬取小说（二）书籍基本信息爬取

2023-11-01

爬完数据目录和内容后，我们来爬取书籍的基本信息。
在上篇博客的基础上，爬取书籍信息并存入字典
这里写图片描述

# -*- coding: utf-8 -*-
import urllib.request
import bs4
import re
import sqlite3

def getHtml(url):
    user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"
    headers = {"User-Agent":user_agent}
    request = urllib.request.Request(url,headers=headers)
    response = urllib.request.urlopen(request)
    html = response.read()
    return html


# 爬取整个网页
def parse(url):
    html_doc = getHtml(url)
    sp = bs4.BeautifulSoup(html_doc, 'html.parser', from_encoding="utf-8")
    return sp

# 爬取书籍基本信息
def get_book_baseinfo(url):
    # class = "info"信息获取
    info = parse(url).find('div',class_ = 'info')
    book_info = {}
    if info:
        book_info['title'] = ''
        book_info['img'] = ''
        # 标题
        book_info['title'] = info.find('h2').string
        
        # 图片链接
        img = info.find('div',class_ = 'cover')
        for im in img.children:
            # 图片地址想要访问，显然需要拼接
            book_info['img'] = 'http://www.biqukan.com' + im.attrs['src']

        # 基本信息存储
        ifo = info.find('div',class_ = 'small')
        bkinfo = []
        for b in ifo:
            for v in b.children:
                t = v.string
                if t:
                    bkinfo.append(''.join(t))

        # 将：后面的信息连起来
        spv = []
        cv = ''
        for v in bkinfo:
            if v.find('：') >= 0:
                if cv:
                    spv.append(cv)
                cv = v
            else:
                cv += v
        spv.append(cv)

        # 基本信息转成字典
        for element in spv:
            its = [v.strip() for v in element.split('：')]
            if len(its) != 2:
                continue
            nm = its[0].lower()  # 统一成小写
            if type(nm).__name__ == 'unicode':
                nm = nm.encode('utf-8')
            vu = its[1]
            book_info[nm] = vu
            
        # 发现这里获取到的字典键与后面将要获取的键重复了，所以这里改一下
        book_info['auther'] = book_info.pop('作者')

        #简介获取(与基本信息的获取方式一致)
        intro = info.find('div',class_ = 'intro')
        bkurl = []
        for b in intro:
            t = b.string
            if t:
                bkurl.append(''.join(t))

        bkjj = []
        cvx = ''
        for w in bkurl:
            if w.find('：') >= 0:
                if cvx:
                    bkjj.append(cvx)
                cvx = w
            else:
                cvx += w
        bkjj.append(cvx)

        for ele in bkjj:
            itis = [n.strip() for n in ele.split('：')]
            if len(itis) != 2:
                continue
            summ = itis[0].lower()  # 统一成小写
            if type(summ).__name__ == 'unicode':
                summ = summ.encode('utf-8')
            vux = itis[1]
            book_info[summ] = vux

    # 使用笨办法将字典的key转成英文状态，这样方便数据库存储
    book_info['type'] = book_info.pop('分类')
    book_info['status'] = book_info.pop('状态')
    book_info['num'] = book_info.pop('字数')
    book_info['updatatime'] = book_info.pop('更新时间')
    book_info['newchapter'] = book_info.pop('最新章节')
    book_info['authsummery'] = book_info.pop('作者')
    book_info['summery'] = book_info.pop('简介')
    book_info['notipurl'] = book_info.pop('无弹窗推荐地址')

    return book_info



# 获取书籍目录
def get_book_dir(url):
    books_dir = []
    name = parse(url).find('div', class_='listmain')
    if name:
        dd_items = name.find('dl')
        dt_num = 0
        for n in dd_items.children:
            ename = str(n.name).strip()
            if ename == 'dt':
                dt_num += 1
            if ename != 'dd':
                continue
            Catalog_info = {}
            if dt_num == 2:
                durls = n.find_all('a')[0]
                Catalog_info['name'] = (durls.get_text())
                Catalog_info['url'] = 'http://www.biqukan.com' + durls.get('href')
                books_dir.append(Catalog_info)
    return books_dir


# 获取章节内容
def get_charpter_text(curl):
    # 直接根据curl地址取章节内容就行了获取一篇文章？？！！！
    #  这是一个地址，你不要打开网页获取网页内容？这不是已经
    text = parse(curl).find('div', class_='showtxt')
    if text:
        cont = text.get_text()
        cont = [str(cont).strip().replace('\r \xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0', '').replace('\u3000\u3000', '')]
        c = " ".join(cont)
        ctext = re.findall(r'^.*?html', c)
        return ctext
    else:
        return ''


# 获取书籍
def get_book(burl):
    # 目录
    book = get_book_dir(burl)
    if not book:
        return book

    # 内容
    for d in book:
        curl = d['url']
        try:
            print('正在获取章节【{}】【内容】【{}】'.format(d['name'],d['url']))
            ctext = get_charpter_text(curl)
            d['text'] = ctext
            print(d['text'])
            print()
        except Exception as err:
            d['text'] = 'get failed'

    return book


if __name__ == '__main__':
	# 这里调用get_book_baseinfo函数看看效果
    book = get_book_baseinfo('http://www.biqukan.com/1_1094/')
    print(book)

结果展示：

{'title': '一念永恒', 'img': 'http://www.biqukan.com/files/article/image/1/1094/1094s.jpg', 'auther': '耳根', 'type': '玄幻小说', 'status': '连载', 'num': '3689058', 'updatatime': '2018-02-09 18:20:00', 'newchapter': '第1314章 你的选择（终）', 'authsummery': '耳根所写的《一念永恒》无弹窗免费全文阅读为转载作品,章节由网友发布。', 'summery': '一念成沧海，一念化桑田。一念斩千魔，一念诛万仙。唯我念……永恒', 'notipurl': 'http://www.biqukan.com/1_1094/?_t_t_t=0.4355400702253367'}

后面我们将这些信息存储到数据库。
创作不易，喜欢的话给喵喵赏点吧~（可怜眼神）
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫实战

python爬虫

beautifulSoup4

urllib

python

python爬取小说（二）书籍基本信息爬取的相关文章

在 pandas 中单独打印一列的原始值？

我有一个数据框 df pd DataFrame name george age 23 name anna age 26 现在我想检索乔治的年龄 df df name george age 但这会输出一些额外的信息以及原始值 0 23 Nam
如何使用 conda 在一行中安装多个包？

我需要使用 conda 安装以下多个软件包我不确定 conda forge 是什么有些使用 conda forge 有些不使用它是否可以将它们安装成一行而不需要一一安装谢谢 conda install c conda forge d
使用应用程序脚本将 MS Word 文件（保存在云端硬盘中）转换为 Google 文档

我被某些事情困住了找不到解决办法有没有办法使用文件 url 或 id 将存储在 Google Drive 中的 MS Word 文件转换为 Google 文档我目前有一个电子表格其中包含文件的网址或者也可以使用 python 脚
无法使用 BeautifulSoup 和 Requests 抓取下拉菜单

我想抓取百年灵网站上的产品页面以获取各种信息示例页面 https www breitling com gb en watches navitimer b01 chronograph 46 AB0127211C1A1 https www b
Python 的 mysqldb 晦涩文档

Python 模块 mysqldb 中有许多转义函数我不理解它们的文档而且我努力查找它们也没有发现任何结果 gt gt gt print mysql escape doc escape obj dict escape any speci
Paramiko SSHException 通道已关闭

我一直在使用 Paramiko 在 Linux Windows 机器上发送命令它可以很好地在 Ubuntu 机器上远程执行测试但是它不适用于 Windows 7 主机以下是我收到的错误 def unit for event self
numpy：大量线段/点的快速规则间隔平均值

我沿着一维线有许多约 100 万个不规则间隔的点 P 这些标记线段这样如果点是 0 x a x b x c x d 则线段从 0 gt x a x a gt x b x b gt x c x c gt x d 等我还有每个段的 y
按多个键分组并对字典列表的值进行汇总/平均值

在Python中按多个键进行分组并对字典列表进行汇总平均值的最Pythonic方法是什么假设我有一个字典列表如下所示 input dept 001 sku foo transId uniqueId1 qty 100 dept 001
reStructuredText：README.rst 未在 PyPI 上解析

我有一个托管在 Github 和 PyPI 上的 Python 项目在 Github 上 https github com sloria TextBlob blob master README rst https github com s
如何使用 PyMongo 在重复键错误后继续插入

如果我需要在 MongoDB 中插入尚不存在的文档 db stock update one document set document upsert True 将完成这项工作如果我错了请随时纠正我但是如果我有一个文档列表并想将它们全
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的
使用 WSGI 在 Windows XAMPP 中设置 Python 路径

我正在 Webfaction 上设置实时服务器的开发版本在本地计算机上的虚拟 Apache 服务器环境运行没有任何错误中运行 Django 应用程序 XP 使用 Python 2 6 运行 XAMPP Lite 我可以提交更改通过 G
为什么 __instancecheck__ 没有被调用？

我有以下 python3 代码 class BaseTypeClass type def new cls name bases namespace kwd result type new cls name bases namespace p
Selenium 不会在新选项卡中打开新 URL（Python 和 Chrome）

我想使用 Selenium WebDriver 和 Python 在不同的选项卡中打开相当多的 URL 我不确定出了什么问题 driver webdriver Chrome driver get url1 time sleep 5 driv
在 matplotlib 中绘制多边形的并集[重复]

这个问题在这里已经有答案了我正在尝试绘制几个多边形的并集matplotlib 具有一定的 alpha 水平我当前的代码在交叉点处颜色较深有没有办法让交叉路口与其他地方的颜色相同 import matplotlib pyplot as
在 Python 中访问 argparse 的参数值

我正在尝试为我的程序设置一些简单的标志参数但无法弄清楚如何访问它们我有 argparser parser argparse ArgumentParser description Simple PostScript Interpreter
Python：无法使用 os.system() 打开文件

我正在编写一个使用该应用程序的 Python 脚本pdftk http www pdflabs com tools pdftk the pdf toolkit 几次来执行某些操作例如我可以在 Windows 命令行 shell 中使用
Streamlabs API 405 响应代码

我正在尝试使用Streamlabs API https dev streamlabs com Streamlabs API 使用 Oauth2 来创建应用程序因此首先我将使用我的应用程序的用户发送到一个授权链接其中包含我的应用程序的客
如何从 nltk 下载器中删除数据/模型？

我在 python3 NLTK 中安装了一些 NLTK 包通过nltk download 尝试过它们但不需要它们现在想删除它们我怎样才能删除例如包large grammars来自我的 NLTK 安装我不想删除完整的 NLTK 安装

随机推荐

筛选kepler.csv中未下载到的kepid

In 1 判断输入字符串是否在路径中函数 import os def findfile2 keyword keyword 9d int keyword judgeExist False root os path join C Users 9
snapgene设计引物_分子克隆之引物设计（一）

分子克隆之引物设计一目的将目的基因Homosapiens interleukin 37利用引物扩增表达带上限制酶酶切位点再与载体pcDNA3 1 3xFlag C酶切连接师兄给定的酶切位点是固定 BamH I GGATCC Xh
bilibili直播间接收监听和发送弹幕api

参考文 https blog csdn net fei347795790 article details 111164254 Python实现自动发送B站直播弹幕软件 https blog csdn net fzq13994952987 a
双目相机计算稠密深度点云详解教程

点击上方计算机视觉工坊选择星标干货第一时间送达作者本文为3D视觉开发者社区特约作者熊猫飞天授权发布引言本教程主要内容为介绍如何使用双目相机计算出稠密的3D点云主要涉及到elas包的使用通过KITTI数据集和ZED相机进
node生成唯一设备id（node-machine-id）

npm安装 npm install node machine id yarn安装 yarn add node machine id 有异步同步两种生成方式 import machineId machineIdSync from nod
MYSQL

regexp extract regexp extract str regexp idx str是被解析的字符串或字段名 regexp 是正则表达式 idx是返回结果取表达式的哪一部分默认值为1 0表示把整个正则表达式对应的结果全部返回
Synchronized锁对象详解

synchronized 是我们的同步的一种选择加锁就要有对应的钥匙这个钥匙分为当前类对象当前class对象第三方对象 synchronized 可以修饰变量方法我们以方法举例可以有如下的几种情况修饰静态方法这里默认的锁
Netty和Tomcat区别

Netty与Tomcat区别它们的区别不少最大的区别就在于通信协议这是众所周知的 Tomcat是一个服务器它一定是基于Http协议的它的实质是一个基于http协议的web容器 Netty则不同 Netty可以通过编程自定义各种协议
docker学习：dockerfile介绍

这里主要是介绍dockerfile dockerfile就是用来构建docker镜像的脚本脚本就意味着会有相关的dockerfile命令也是我们要学习的一部分构建步骤 1 编写一个Dockerfile文件 2 docker build
win10网络诊断为DNS服务器未响应,Windows10网络诊断DNS服务器未响应的解决办法

Windows10网络诊断DNS服务器未响应怎么办不少win10系统用户在遇到网络无法连接的时候诊断网络会提示Windows10网络诊断DNS服务器未响应那么这个问题要如何解决呢下面小编为大家带来详细的解决办法 Windows10网
机器学习的概率统计模型（附代码）（一）

目录概率论 1 1 离散随机变量分布 1 伯努利分布 2 二项分布 3 泊松分布 1 2 连续随机变量分布 1 均匀分布 2 指数分布 3 正态分布总结系列文章目录概率论概率论是研究随机现象数量规律的数学分支随机现象是相对于决
openai Python库

OpenAI 是一个人工智能研究机构他们开发了一个 Python 库用于帮助开发者使用人工智能技术这个库包含了许多用于自然语言处理机器学习深度学习和其他人工智能应用的工具和算法您可以在 OpenAI 的 GitHub 页面上找到
Mysql连接问题

连接MySQL长时间不连接后报错 com mysql cj core exceptions ConnectionIsClosedException No operations allowed after connection closed
eNSP华为模拟器使用——（11）eNSP模拟无线AC和AP

eNSP模拟无线AC和AP 1 拓扑 2 需求实现AC和AP二层关联 3 配置 dhcp enable interface Vlanif 1 ip address 192 168 10 1 255 255 255 0 dhcp selec
MySql 字符串数据类型

字符串类型 CHAR CHAR类型是定长的会根据定义的长度分配空间当存储CHAR值时 mysql会删除所有的末尾空格 CHAR很适合存储很短的字符串或者所有的值都接近同一个长度例如 CHAR非常适合存储密码的MD5的值因为这是一个
Java毕设 SSM中药店商城系统(含源码+论文)

文章目录 1 项目简介 2 实现效果 2 1 界面展示 3 设计方案 3 1 概述 3 2 系统流程 3 3 系统结构设计 4 项目获取 1 项目简介 Hi 各位同学好呀这里是M学姐今天向大家分享一个今年 2022 最新完成的毕业设计项
id 重启event_系统已在未先正常关机的情况下重新启动事件ID:41

创建日期 2018 07 18 系统已在未先正常关机的情况下重新启动事件ID 41 日志名称 System 来源 Microsoft Windows Kernel Power 日期 2018 7 17 23 55 06 事件 ID 41
do...while(0)的妙用

在C 中有三种类型的循环语句 for while 和do while 但是在一般应用中作循环时我们可能用for和while要多一些 do while相对不受重视但是最近在读我们项目的代码时却发现了do while的一些十分聪明的用
Km Kcat Kcat/Km

max 是指最大反应速度当底物浓度足够大时体系中酶的活性中心达到饱和状态其反应速度达到最大由此可见最大反应速度 max 随酶浓度的变化而变化 kcat 指反应常数 catalytic constant kcat 可以由
python爬取小说（二）书籍基本信息爬取

爬完数据目录和内容后我们来爬取书籍的基本信息在上篇博客的基础上爬取书籍信息并存入字典 coding utf 8 import urllib request import bs4 import re import sqlite3 def

python爬取小说（二）书籍基本信息爬取

python爬取小说（二）书籍基本信息爬取 的相关文章

随机推荐

热门标签

python爬取小说（二）书籍基本信息爬取的相关文章