Python+Selenium-5-driver.page_source获取页面源码

2023-10-26

driver.page_source

selenium的page_source方法可以获取到页面源码

跟爬虫有点相似，获取到页面资源，提取出我们需要的信息

案例

以煎蛋网为例，获取首页的全部title（获取页面源码 -- 使用re正则提取需要的title）

代码

#coding:utf-8
from selenium import webdriver
import re
class JianDan():
    def __init__(self):
        self.browser = webdriver.Chrome()
        self.browser.get("http://jandan.net/")
        self.browser.maximize_window()
        self.browser.implicitly_wait(3)

    def get_page_title(self):
        self.page = self.browser.page_source
        # 非贪婪匹配，匹配所有满足'target="_blank">....</a></h2>'格式的信息，结果显示是一个列表
        self.titles = re.findall(r'target="_blank">(.*?)</a></h2>',self.page)
        for title in self.titles:
            print(title)

if __name__ == '__main__':
    jian_dan = JianDan()
    jian_dan.get_page_title()

结果

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PythonSelenium自动化

Python+Selenium-5-driver.page_source获取页面源码的相关文章

【直达本质讲运放】运放的“第一原理”式定量分析法

数电模电那两本书我也完整地翻过一二遍诶我为什么用也下面就是来点不复杂的如果是那还不如直接把书的内容粘过来呢对于运放的定量分析虚短虚断就如同奇变偶不变一样喜闻乐见的普及但是对于什么时候用虚短什么时候用虚断学习的
Ridge和Lasso回归

上周看了看回归方面的知识顺便复 xue 习一下Ridge 岭回归和Lasso回归套索回归瞅到了一篇英文博客讲得不错翻译一下本文翻译自 Ridge and Lasso Regression 本文是一篇Josh Starmer关于
常用网络协议神图
凸优化（一）——Introduction

Introduction 一最优化问题的数学表达在最优问题中其数学表达往往能化成标准形式如下 minimizef0 x subject tofi x bi i 1 m begin aligned minimize quad f 0
微信小程序对上传的图片进行裁剪

背景使用uniapp中uni chooseImage的裁剪参数crop只能在App中生效在微信小程序中不生效实现思路 uni chooseImage打开相册获取图片路径 uni chooseImage OBJECT uni app官网
c++面试记录

1 数组与指针区别数组数组是用于储存多个相同类型数据的集合指针指针是一个变量但是它和普通变量不一样它存放的是其它变量在内存中的地址赋值数组只能一个一个元素的赋值或拷贝指针指针变量可以相互赋值表示范围数组有效范围就是
flink table 使用Kafka Connector处理嵌套json

使用flink table api 连接kafka 处理json类型数据单层json处理比较简单官方或网上都有很多例子处理嵌套的json数据没什么介绍处理嵌套json数据主要是schema定义 StreamExecutionEnvi
Linux系统之使用yum安装Redis数据库

Linux系统之使用yum安装Redis数据库一 redis介绍 1 redis解释 2 redis特点 3 redis使用场景二检查系统版本 1 检查系统版本 2 检查内核版本三检查yum仓库状态四查看系统默认提供的redi
mysql数据恢复，使用binlog配置恢复未备份数据

使用mysqlbinlog配置恢复数据库什么是mysqlbinlog binlog是记录所有数据库表结构变更例如CREATE ALTER TABLE 以及表数据修改 INSERT UPDATE DELETE 的二进制日志 binlog
命令行参数设计

1 目的众多通用的小功能制作为一个小工具然后通过命令行来进行交互使用非常的简便本规范是为了统一命令行参数的设计使得大家在制作或使用命令行工具时能够更加有共享进行会更加方便 2 适用范围所有命令行工具参数的设计 3 基本原则
#SATA# SATA 实际管脚接线图

前言概述实际接线管脚图 PATA 接口 M 2 U 2 AHCI NVMe 概述 SATA是Serial ATA的缩写即串行ATA 它是一种电脑总线主要功能是用作主板和大量存储设备如硬盘及光盘驱动器之间的数据传输这是一种完全不
迁移学习：他山之石，可以攻玉【VALSE Webinar】Panel实录

编者按迁移学习是机器学习与计算机视觉中的重要研究问题之一旨在研究如何将一个领域的知识迁移到另外的领域具有重要的研究意义与应用价值但迁移学习又会存在哪些局限性在实际应用中的价值是什么未来的发展方向在哪里为此 VALSE Webi

随机推荐

docker 数据持久化

文章目录定制镜像持久化需求实现数据卷持久化数据卷简介数据卷的特性创建读写数据卷停止容器后的操作查看数据卷详情创建只写数据卷查看数据卷详情创建共享数据卷 Dockerfile持久化创建Dockerfile 构建和运行
大二上学期数据结构课程设计

1 报数问题问题描述有n个小朋友围成一圈玩游戏小朋友从1至n编号 2号小朋友坐在1号小朋友的顺时针方向 3号小朋友坐在2号小朋友的顺时针方向 1号小朋友坐在n号小朋友的顺时针方向游戏开始从1号小朋友开始顺时针报数接下来每个小朋友
安装TensorFlow遇到no module named ‘tensorflow’问题解决方法

按照这个博客https blog csdn net qq 16633405 article details 79941696里的步骤安装TensorFlow时遇到no module named tensorflow 虽然作者给出了一个解决方
文本多分类之Doc2Vec实战篇

本文链接 https blog csdn net weixin 42608414 article details 88391760 版权在我之前的几篇博客中我介绍了两种文档向量化的表示方法如Sklearn的CountVectorize
1.3. 分治法—最近点对问题

1 问题描述给定平面S上n个点找其中的一对点使得在n个点组成的所有点对中该点对间的距离最小 2 求解过程划分将集合S分成两个大小基本相等的子集 S 1 S 1 S1 和 S
linux 基础知识考试试题,Linux常识型试题

Linux常识型试题发布时间 2011 06 06 18 11 10来源红联作者 lijiang i s 本帖最后由 lijiang 于 2011 10 22 17 51 编辑 i 一填空题 1 链接分为和 2 安装Linux系统对
解决Linux界面显示问号字符?与Failed to set locale, defaulting to C报错

解决方法暂时性处理 export LC ALL zh CN UTF 8 一劳永逸 vim etc bashrc 然后在最后一行写入 export LC ALL zh CN UTF 8 问题复现解析当输入 locale 会得到如下结果
数据结构----利用栈实现表达式的计算

利用栈实现表达式的计算例如 12 5 6 9 7 8 5 6 8 5 6 12 要解决的问题主要有两个和的运算顺序的处理问题括号内的表达式优先运算问题这里利用栈来解决这两个问题首先我们设置两个栈一个符号栈一个数字栈下面我们
Novell数据备份

从昨天下午到现在才搞定关总不提示的情况下我一直认为xvRf是更新备份数据 cvRf是全部备份其实则不然关总告诉我 xvRf是导入数据而cvRf才是备份数据如果网络成功链接的话那NDS服务器的数据就会被老数据覆盖了幸好幸好
Android Studio day_01 初识线性布局和相对布局还有按钮

序章今天学习了线性布局 LinearLayout 和相对布局 RelativeLayout 还有Button按钮布局是要用和进行结束的至于Botton按钮嘛使用 gt 结束就好啦相对布局 RelativeLayout 相对布局我理
卸载npm和安装npm_使用`npm uninstall`卸载npm软件包

卸载npm和安装npm To uninstall a package you have previously installed locally using npm install
激光雷达对植被冠层结构和SIF同时探测展望

前言陆表植被在全球碳循环中起着不可替代的作用但现阶段人们对气候变化与植被生态理化功能的关系的研究还不够完善为了提高气候预测以及缓解气候恶化的速率对植被参数比如叶面积指数 leaf 植被冠层结构 canopy 和生态系统以及区域尺
Linux服务器程序规范

Linux服务器程序规范 Linux服务器程序一般都是以后台进程形式运行后台进程又称为守护进程 daemon 其没有控制终端不会意外接收到用户输入守护进程的父进程通常是init进程 PID为1的进程 Linux服务器程序通常有一套日志
Tomcat启动不了报 java.net.BindException “Address already in use: NET_Bind“这个异常

Tomcat在IDEA运行报以下错误启动不了Tomcat Error running Tomcat 8 5 57开关 Unable to open debugger port 127 0 0 1 63840 java net BindEx
Hive文件格式

文章目录 1 概述 1 1 行存储列存储 2 TEXTFILE 3 SEQUENCEFILE 3 RCFILE 4 ORCFILE 5 Parquet 8 区别 8 1 空间对比磁盘空间占用大小比较 8 2 查询语句运行时间大小比较 9
socket链接检测超时时间过短导致的问题

新增了另外一个区域的代理跨州原来的代理可达性检测只有50ms 就不够了导致大量报错更换为1000毫秒后就正常了需要注意网络中几个连接超时时间的设置问题 1 链接超时时间一般是1 5秒全内网服务器可以设置得更短一些 2 等待
《消息队列高手课》消息积压了该如何处理？

据我了解在使用消息队列遇到的问题中消息积压这个问题应该是最常遇到的问题了并且这个问题还不太好解决我们都知道消息积压的直接原因一定是系统中的某个部分出现了性能问题来不及处理上游发送的消息才会导致消息积压所以我们先来分析
CSS背景属性Background详解

本文详解了CSS的背景属性Background 包括CSS3中新增的背景属性如果你是个CSS初学者还可以查看之前介绍的CSS浮动属性和CSS透明属性详解 css2 中的背景 background CSS2 中有5个主要的背景 backg
Maven详解之仓库------本地仓库、远程仓库

Dragon s Life 坚持完成每一个目标目录视图摘要视图订阅征文从高考到程序员深度学习与TensorFlow入门一课搞定每周荐书 Web扫描 HTML 5 Python 评论送书 Maven详解之仓库本地仓库远程
Python+Selenium-5-driver.page_source获取页面源码

driver page source selenium的page source方法可以获取到页面源码跟爬虫有点相似获取到页面资源提取出我们需要的信息案例以煎蛋网为例获取首页的全部title 获取页面源码使用re正则提取需要的t

Python+Selenium-5-driver.page_source获取页面源码

driver.page_source

案例

Python+Selenium-5-driver.page_source获取页面源码 的相关文章

随机推荐

热门标签

Python+Selenium-5-driver.page_source获取页面源码的相关文章