爬取起点网站图书信息（书名、作者、简介、图片url）

2023-11-11

# 爬取qidian网站图书信息（书名、作者、简介、图片url）
import requests
from lxml import etree
import json

class BookSpider(object):
    def __init__(self):
        self.url = 'https://www.qidian.com/finish?action=hidden&orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=2&page={}'
        self.headers = {
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
        }
        self.data_list = []
    # 1、构建所有url
    def get_url_list(self):
        url_list = []
        for i in range(1,6):
            url = self.url.format(i)
            url_list.append(url)
        return url_list
    # 2、发请求
    def send_request(self,url):
        data = requests.get(url,headers=self.headers).content.decode()
        print(url)
        return data
    # 3、解析数据 xpath
    def parse_xpath_data(self,data):
        parse_data = etree.HTML(data)
        # 1、解析出所有的书
        book_list = parse_data.xpath('//div[@class="book-img-text"]/ul/li')
        # 2、解析出每本书的信息
        for book in book_list:
            book_dict = {}
            # 1、书名字
            book_dict['book_name'] = book.xpath('.//div[@class="book-mid-info"]/h4/a/text()')[0]
            # book_name = book.xpath('//div[@class="book-mid-info"]/h4/a/text()') # //div前不加 . 解析（查找）的是全部范围  ，加 . 是再上一次解析（book）基础上继续解析（查询）
            # 2、书的图片url
            book_dict['book_img_url'] = book.xpath('.//div[@class="book-img-box"]/a/img/@src')[0]
            # 3、书的作者
            book_dict['book_author'] = book.xpath('.//div[@class="book-mid-info"]/p[@class="author"]/a[@class="name"]/text()')[0]
            # 4、书的简介
            book_dict['book_info'] = book.xpath('.//div[@class="book-mid-info"]/p[@class="intro"]/text()')[0].strip() #加strip（）去空格
            self.data_list.append(book_dict)
    # 4、保存数据
    def save_data(self):
        json.dump(self.data_list,open('book.json','w'))
    # 5、统筹调用
    def start(self):
        url_list = self.get_url_list()
        # 循环遍历，发送请求
        for url in url_list:
            data = self.send_request(url)
            self.parse_xpath_data(data)
            self.save_data()
BookSpider().start()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

笔记

xpath

json

python

爬取起点网站图书信息（书名、作者、简介、图片url）的相关文章

使用 pandas.date_range() 生成多个日期时间，每周两个日期

我在用着pd date range start date end date freq W MON 每周一生成每周频率日期时间start date 2017 01 01 and end date 2017 12 31 这意味着每月大约生成 4
有没有办法在 jqgrid treeGrid url 请求中传回附加数据？

i am 使用 jqgrid 树视图 http www trirand com jqgridwiki doku php id wiki 3atreegrid我正在传回 json 响应效果很好我想将一些有关请求的附加信息传递回 GUI 并
python array(10,1) 和 array(10,) 之间的区别

我正在尝试将 MNIST 数据集加载到数组中当我使用 X train y train X test y test mnist load data 我得到一个数组 y test 10000 但我希望它的形状为 10000 1 数组 1000
以类型化内存视图作为成员的结构定义

目前我正在尝试让一个具有类型化内存视图的结构能够工作例如 ctypedef struct node unsigned int inds 如果 inds 不是内存视图据我所知它可以完美地工作然而通过内存视图并使用类似的东西 def
是否有一个包可以维护所有带有符号的货币列表？

是否有一个 python 包提供所有或相当完整货币的列表与符号如美元的有优秀的pycountry 贪财的 https github com limist py moneyed and ccy http code google com
python 中的 h2o 框架子集

如何在 python 中对 h2o 框架进行子集化如果 x 是一个 df 并且 Origin 是一个变量那么在 pandas 中我们通常可以通过以下方式进行子集化 x x Origin AAF 但使用 h2o 框架会出现以下错误 H2O
Python MySQL 操作错误：1045，“用户 root@'localhost' 的访问被拒绝

我试图通过以下方式从我的 python 程序访问数据库 db mysql connect host localhost user Max passwd maxkim db TESTDB cursor db cursor 但是我在第一行代码
在 Mac OS X 上安装 libxml2 时出现问题

我正在尝试在我的 Mac 操作系统 10 6 4 上安装 libxml2 我实际上正在尝试在 Python 中运行 Scrapy 脚本这需要我安装 Twisted Zope 现在还需要安装 libxml2 我已经下载了最新版本 2 7 7
时间序列数据预处理 - numpy strides 技巧以节省内存

我正在预处理一个时间序列数据集将其形状从二维数据点特征更改为三维数据点时间窗口特征在这样的视角中时间窗口有时也称为回顾指示作为输入变量来预测下一个时间段的先前时间步长数据点的数量换句话说时间窗口是机器学习算法在对
Xpath 测试祖先属性不等于字符串

我正在尝试测试元素祖先的属性是否不等于字符串这是我的 XML
JSONP 使用 JQuery 从 HTTPS 协议获取 JSON

我正在尝试获取从 https 安全站点发送的 JSON 客户端希望不要使用任何服务器端语言全部都是 Javascript 我读到当使用 Jquery 中的 ajax 函数时我必须使用 JSONP 才能从安全站点加载 JSON 我的第一
为什么这个 if 语句会导致语法错误

我正在尝试设置一个 elif 语句如果用户按下 Enter 键代码将继续但是我不断遇到语法错误 GTIN 0 while True try GTIN int input input your gtin 8 number if len
Flask 应用程序路由中的多个参数

烧瓶怎么写app route如果我在 URL 调用中有多个参数这是我从 AJax 调用的 URL http 0 0 0 0 8888 createcm summary VVV change Feauure 我试图写我的烧瓶app rout
检索 geodjango 多边形对象的边界框

如何在 geodjango 中获取 MultiPolygon 对象的边界框在 API 中找不到任何内容http geodjango org docs geos html http geodjango org docs geos html
pygame：使用 sprite.RenderPlain 绘制精灵组的顺序

我有一个精灵组需要按一定的顺序绘制以便其精灵按应有的方式重叠然而即使使用运算符模块函数 sorted self sprites key attrgetter y x 对组进行排序顺序也是错误的我该如何解决这个问题直截了当地说
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
基于值而不是类型的单次调度

我在 Django 上构建 SPA 并且有一个庞大的功能其中包含许多功能if用于检查我的对象字段的状态名称的语句像这样 if self state new do some logic if self state archive do s
使用 selenium 和 python 来提取 javascript 生成的 HTML？萤火虫？

这里是Python新手我遇到的是数据收集问题我在这个网站上当我用 Firebug 检查我想要的元素时它显示了包含我需要的信息的源然而常规源代码没有 Firebug 不会给我这个信息这意味着我也无法通过正常的 selenium
在 numpy 中连接维度

我有x 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 2 3 I want 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 6 也就是说我想连接中间维度的所有项目在这种特殊情况下我可以得到这
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged

随机推荐

MySql的增删改查操作（初学者个人心得）

引言在上周粗略的学习了有关MySql的相关基础内容为了方便自己复习特写下这篇个人心得来记录MySql有关增删改查操作的内容 MySql学习中最重要的一部分启动数据库 DOS命令进入mysql的bin文件夹 net start my
Linux服务器安全 SSH 用户密钥认证登录

一 SSH基本简介 SSH 提供两种安全验证方式 1 基于口令客户端使用账号和口令登录服务器所有传输数据都会被加密但可能存在伪造服务器冒充真正的服务器与客户端进行交互不能避免中间人攻击 2 基于密钥使用一对密钥私钥公钥将公钥
ReentrantLock的使用和原理详解

文章目录一 ReentrantLock 小例子二 ReentrantLock的优点 1 可重入其实synchronized 也是可重入的 2 可中断 3 可限时 3 公平锁一 ReentrantLock 小例子 import jav
1 - 选择排序与冒泡排序

排序算法选择排序选择排序的思路依次遍历数组每次遍历数组的时候记录当前未排序的最小值的索引让最小值的索引和待排序的数组的第一个元素进行交换然后继续重复操作直到所有元素都排序 public class SelectionSort
关于JavaScript中map和reduce的分析

以前看js都是云里雾里的后来学了一些Java感觉稍微能看懂一些恰逢又回头看到了以前关于js在有道云上的一些笔记决定做一个关于map和reduce的分析 map map一般来说针对数组进行操作但是进行了一个很好的封装使得读者可以清晰的
PHP获取二维数组中指定Key的重复Value
C++获取类私有成员指针

获取类首地址根据成员定义顺序去计算想要的私有成员地址 class A private int a float b public A a 1 b 1 public float getB return b void test A a floa
图书管理系统2.0——mysql数据库

目录一简要介绍 1 使用技术 2 简要功能 3 源码二需求文档 1 登录 2 注册 3 用户菜单 3 1 借阅图书 3 1 归还图书 3 2 个人中心 3 2 1 查看所有借阅记录 3 2 2 查看借阅中的图书 3 2 3 签到领积
线程基础篇(十五)之使用ReentrantLock实现消费者生产者

author Dora date 2020 4 8 9 55 public class QueueLearn 使用读写锁实现队列的消费实现一个队列 static ConcurrentLinkedQueue queue new Concu
解决eclipse中出现BASE64Encoder cannot be resolved to a type

在eclipse中在进行文件下载时控制台出现 BASE64Encoder cannot be resolved to a type情况导致文件无法下载针对以上的情况可以试试以下方法第一种然后重新运行一下项目看是否成功如果不可以就
泰勒公式回顾贴

泰勒公式 sinx 和 arcsinx 第二项符号不同 sinx x 1 6 x 3 arcsinx x 1 6 x 3 sinx 和 cosx的区别 sinx的系数是奇数阶乘 1 3 5 cosx的系数是偶数阶乘 2 4 6 tanx 和
服务器主机本地系统开机,本地主机启动tomcat v9.0服务器错误

我试图启动一个tomcat v9 0服务器在本地主机上春天STS但它会弹出以下错误本地主机启动tomcat v9 0服务器错误本地主机起tomcat服务器V9 0遇到了问题没有使用的端口8080 所以这不应该是8080端口没有任何进程
Mac 10.15下安装brew

在Mac下初次使用brew命令会出现 bash brew command not found 随后找了各大博客要在命令行输入如下命令 bin zsh c curl fsSL https gitee com cunkai HomebrewC
历年研究生数学建模优秀论文汇总

全国研究生数学建模竞赛 National Post Graduate Mathematical Contest in Modeling 是全国研究生创新实践系列活动的主题赛事之一一般位于九月中旬历时四天竞赛题目一般来源于工程与管理
卷积神经网络实现人脸表情识别

文章目录一实现过程二运用训练的模型实现表情识别一实现过程 1 1 下载数据集 https github com truongnmt smile detection 1 2 根据猫狗数据集训练的方法来训练笑脸数据集 coding
HBase介绍（列存储）

HBase介绍列存储 2013 11 26 23 25 5871人阅读评论 2 收藏举报分类云存储 2 Hbase简介 started by chad walters and jim 2006 11 G release paper
FPGA-UART串口通信

目录前言 1 UART串口的介绍 2 实验开始前一些参数的计算 3 UART通信的时序 4 代码部分 1 接收部分代码 2 发送部分的代码前言本篇文章是为了记录自己FPGA的学习过程不完全正确仅供参考 1 UART串口的介绍 ua
02守护进程学习之创建守护进程的七步骤及其分析

02守护进程学习之创建守护进程的七步骤及其分析与守护进程相关的文章 01守护进程学习之会话的概念和创建会话包含Linux下相应id的总结一览 02守护进程学习之创建守护进程的七步骤及其分析 03守护进程学习之创建守护进程的代码例子 1
unicode,decode,encode在python的作用

字符串在Python内部的表示是unicode编码因此在做编码转换时通常需要以unicode作为中间编码即先将其他编码的字符串解码 decode 成unicode 再从unicode编码 encode 成另一种编码即其他编码 g
爬取起点网站图书信息（书名、作者、简介、图片url）

爬取qidian网站图书信息书名作者简介图片url import requests from lxml import etree import json class BookSpider object def init self s

爬取起点网站图书信息（书名、作者、简介、图片url）

爬取起点网站图书信息（书名、作者、简介、图片url） 的相关文章

随机推荐

热门标签

爬取起点网站图书信息（书名、作者、简介、图片url）的相关文章