python从入门到放弃篇34(selenium库开启万花筒写轮眼)开启无界面模式,爬取豆瓣名著

2023-10-27

今天,突然发现,selenium库不开万花筒的话,有点脑热,因为,每爬一页就打开一个网页,除非我是撕裂者3990X的CPU,64核,128线的,但是,我的CPU不是,所以,怕到时候打开页面太多,直接卡机废了。。我就去搜了开启万花筒模式,这样就更好了,直接爬数据不用打开浏览器页面。

这次案例的网址是:https://book.douban.com/tag/%E5%90%8D%E8%91%97?start=0&type=T

完整代码:

首先,我们先导入需要用到的库,selenium库和time库。然后,开启selenium的万花筒模式(无界面),即不打开网页就能爬取信息。所以有:
在这里插入图片描述
然后,我们观察url地址,发现,它的start值会随着翻页规律性增加,每次增加20,等到start值达到980的时候,停止增加,因为start=980的时候,就是最后一页了。所以,我们可以人为构造url地址,我们观察网页结构,发现通过提取ul标签,可以将整个页面的内容抓取下来,如下图:
在这里插入图片描述
在这里插入图片描述
所以有:
在这里插入图片描述
运行结果,随机抽取开头和结尾截图,剩下的就不截图了,请大家见谅。
在这里插入图片描述
在这里插入图片描述
接着,我们要给我们的工作留个纪念,要不然太亏了,我选择以csv的文件格式保存数据。修改代码,如下图:
在这里插入图片描述
静等一小段时间后,运行结果:
在这里插入图片描述
pycharm编辑器路径下面找到保存的文件,如下图:
在这里插入图片描述
打开,如下图,数据太多不便截图,请大家谅解:
在这里插入图片描述
在这里插入图片描述
pycharm编辑器中打开文件,如下图,数据太多不便截图,请大家谅解:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
过瘾,第一次爬了将近5000行的数据,就一个字,爽!!这次学会开启万花筒写轮眼,这将是我陷入万花筒不能自拔的开始。。。。

最后,感谢大家前来阅读鄙人的文章,文中或有诸多不妥之处,还望指出和海涵。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python从入门到放弃篇34(selenium库开启万花筒写轮眼)开启无界面模式,爬取豆瓣名著 的相关文章

随机推荐

  • 安卓架构组件实战——Lifecycle

    注 本文涉及代码请看 项目源码 Lifecycle是谷歌推出的一个架构组件 用于感知组件生命周期 并赋予了非组件对象感知生命周期的能力 Lifecycle组件用来响应另一个组件的生命周期状态变化 例如Activity和Fragment 可以
  • 软路由IP配置指南

    在网络设置中 正确地配置软路由IP是至关重要的一步 本文将以轻松风格为您提供详细解决方案 帮助您完成这个任务 并确保操作价值和专业度 随着互联网的普及 家庭或小型企业越来越需要强大而可靠的网络连接 使用软路由可以让我们更好地管理局域网内部流
  • 升级springboot2.0升级后出现的问题以及解决办法

    本来是准备升级springcloud的版本 Finchley RC1 gt Greenwich SR3 父模块的pom xml中springcloud版本由Finchley RC1升级到Greenwich SR3 对应的springboot
  • servlet获取表单数据

    Java servlet获取form表单数据 参数 在 Servlet 中如何使用 HttpServletRequest 获取请求参数和 request 对象传递数据有哪些方法 1 获取请求参数 在实际开发中 经常需要获取用户提交的表单数据
  • windows服务器tomcat部署Java项目并配置nginx

    下载安装jdk并配置环境变量 下载安装 百度网盘共享 win64位 提取码 1ytp 配置环境变量 第一步 配置JAVA HOME 值为JDK的安装目录 第二步 配置Path 需要注意Path路径一般是存在的 只需要追加即可 这里使用 JA
  • linux&树莓派开发——“交叉编译&软硬链接“ 工作中必然用到的技术 实现不同主机间交互开发

    交叉编译 一 交叉编译概念 二 为什么要交叉编译 交叉编译的基本知识 三 什么是交叉编译链 3 1 交叉编译链的命名规则 3 2 交叉编译工具链 交叉编译器 是什么 四 交叉编译工具链安装 1 临时有效 关闭窗口就无效了 2 永久有效 多少
  • 编写NodeJs脚本实现接口请求

    要编写运行脚本 需要先搭建开发环境 环境搭建 nodeJs脚本运行 当然需要先安装nodejs环境 官方地址在这里 nodejs官网 打开官网地址 可以看到下面一句话 Node js is an open source cross plat
  • 小程序权限设置:小程序下载图片保存到相册拒绝权限后,再次打开权限的解决方案

    小程序下载图片保存到相册功能 首次操作会提示 保存图片或视频到你的相册 有 拒绝 和 允许 两个选项 如果选择了拒绝就会保存失败 saveImageToPhotosAlbum fail auth deny 那么后续想打开该权限又该怎么操作呢
  • 今天才知道!华为手机摄像头可不止能拍照,它还能提高办公效率

    说起华为手机 大家首先想到的就是国产手机代表 拍照特别厉害 的确华为手机的拍照的确很厉害 但是你知道吗 华为手机的摄像头可不止能拍照哦 其实它还能提高工作效率 摄像头怎么办公 下面我们就一起看看吧 1 文档矫正功能 用相机拍摄文件 PPT幻
  • [Python系列-20]:爬虫 - urllib.request.urlopen(), 函数无法返回的解决办法

    作者主页 文火冰糖的硅基工坊 https blog csdn net HiWangWenBing 本文网址 https blog csdn net HiWangWenBing article details 119799484 最近是使用爬
  • SpringCloudAlibaba之Sentinel 熔断规则详解

    Sentinel 熔断降级简介 基本介绍 除了流量控制以外 对调用链路中不稳定的资源进行熔断降级也是保障高可用的重要措施之一 一个服务常常会调用别的模块 可能是另外的一个远程服务 数据库 或者第三方 API 等 例如 支付的时候 可能需要远
  • 记录一次docker安装pxc的坑 (unknown option --ck)

    centos7 docker pxc 安装教程可以参考 https blog csdn net u013218587 article details 80863054 遇到的坑 navicat连接不上mysql 首先解决宿主机防火墙问题 最
  • 制造业数字化转型的实战路线图

    转载本文需注明出处 微信公众号EAWorld 违者必究 中国在2015年发布制造强国战略第一个十年的行动纲领 中国制造2025 这是中国部署全面推进实施制造强国的战略文件 按照 中国制造2025 的战略 中国正加快推动新一代信息技术和制造技
  • ChatGPT 真的太强大了!

    如果你问我 2023年最大的机会是什么 那一定是 ChatGPT 从2月份GPT3 5版本发布 到现在的4 0PLUS升级版 ChatGPT的迭代速度已经完全超过了我们的想象 它已经可以替代很多行业的工作 比如说 文案 程序 客服 设计 律
  • redis集群环境搭建以及java中jedis客户端集群代码实现

    最近项目中用到了redis 所以就找了相关的资料学习了 然后搭建了redis集群 以及客户端的java代码实现 由于对linux不太熟悉 所以在Linux上搭建redis集群的时候碰到了很多问题 下面就大概总结下 redis相关网站 官网
  • 内核中关于启动条件的英文说明整理

    内核中关于启动条件的说明 Kernel startup entry point This is normally called from the decompressor code The requirements are MMU off
  • MiniNet的安装与使用

    直接下载Openflow Tutorial中已经安装好mininet的虚拟机镜像 http www openflow org wk index php OpenFlow Tutorial 放在VMWare中直接运行起来即可 VMware自身
  • Leetcode刷题日志2.0

    目录 前言 1 数字的补数 2 最大连续 1 的个数 3 下一个更大元素 I 4 斐波那契数 5 提莫攻击 6 557 反转字符串中的单词 III 前言 今天就分享一下最近刷到的leetcode习题吧 编程语言 Python3 废话不多说
  • 在Ubuntu上使用protobuf(C++)

    一 protobuf的下载和解压 protobuf提供了一些发布的版本 可以从里面下载指定语言的压缩包 例如 wget https github com protocolbuffers protobuf releases download
  • python从入门到放弃篇34(selenium库开启万花筒写轮眼)开启无界面模式,爬取豆瓣名著

    今天 突然发现 selenium库不开万花筒的话 有点脑热 因为 每爬一页就打开一个网页 除非我是撕裂者3990X的CPU 64核 128线的 但是 我的CPU不是 所以 怕到时候打开页面太多 直接卡机废了 我就去搜了开启万花筒模式 这样就