Python_selenium之获取页面上的全部邮箱

2023-11-08

Python_selenium之获取页面上的全部邮箱

一、思路拆分

  1. 获取网页(这里以百度的“联系我们”为例),网址http://home.baidu.com/contact.html
  2. 获取页面的全部内容(driver.page_source)
  3. 运用正则表达式,导入re模块找到邮箱的字段
  4. 循环打印出邮箱(去重)

二、测试脚本

1. 源代码如下:

#coding:utf-8

from selenium import webdriver

import re#导入re模块

 

driver=webdriver.Firefox()

driver.maximize_window()

driver.implicitly_wait(8)

 

driver.get("http://home.baidu.com/contact.html")

doc=driver.page_source#获取网页所有的内容

emails=re.findall(r'[\w]+@[\w\.-]+',doc)#邮箱的正则表达式

for email in list(set(emails)):#去掉重复的邮箱

print email

2. 测试结果如下图1所示

 

转载于:https://www.cnblogs.com/Rita-LJ/p/7965406.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python_selenium之获取页面上的全部邮箱 的相关文章

随机推荐

  • 解决问题记录14:若依微服务版本报错记录

    1 网关启动报错 Failed to bind properties under spring cloud sentinel datasource ds1 nacos rule type to com alibaba cloud senti
  • Python内存缓存实现

    Python内存缓存实现 内存缓存是一种常用的优化技术 它可以将计算结果存储在内存中 以避免重复计算 提高程序的性能 在Python中 我们可以使用装饰器来实现内存缓存功能 本文将介绍如何使用Python实现一个简单的内存缓存 并提供相应的
  • VMware 虚拟机安装Linux(Ubuntu)系统教程

    VMware 虚拟机安装Linux Ubuntu 系统教程 1 准备的工具 2 虚拟机中新建Ubuntu系统 1 准备的工具 1 首先安装VMware 虚拟机软件 2 在linux Ubuntu官网下载iso镜像文件或者我放了个百度云盘的链
  • 设计模式-多业务,统一入口

    比如对接一些第三方 会有异步通知 或者在第三方设置唯一回调接口 或者统一验签等场景 这个时候可能就需要我们搞一个统一入口来处理不同的业务 1 定义统一入口 RestController RequestMapping value notify
  • GitHub和Gitee的源码下载

    1 使用clone命令下载 如果本地安装了Git环境的话 可以直接在命令行中使用git clone命令把仓库中的文件全部下载到本地 通过GitHub下载源码 执行如下命令 git clone https github com git 其中后
  • BigDecimal详解

    文章目录 前言 一 BigDecimal类 二 常用方法 1 构造方法 2 基本的运算 加法 减法 乘法 除法 3 保留小数 精确到几位 4 舍入的类型 ROUND UP向上舍入 ROUND DOWN向下舍入 ROUND CEILING正向
  • iOS import包

    Frameworks Frameworks 顾名思义就是框架 是第三方打包完成看不到源码 可以直接使用的 在项目中引用方式 OC 引用某一个文件 Frameworks一般会提供一个h文件引用全部其他文件 import
  • 【100天精通python】Day27:文件与IO操作_CSV文件处理

    目录 专栏导读 1 CSV文件格式简介 2 csv模块的使用方法 3 读写CSV文件的示例 3 1 读取CSV文件示例 3 2 写入CSV文件示例 4 CSV文件的常用数据处理 4 1 读取CSV文件的特定列 4 2 读取CSV文件的特定行
  • maven打包时和 deploy时候将不会 依赖包含在生成的项目 jar中方法

    用 provided
  • Python模块学习:glob 文件路径查找

    文章转载自 伯乐在线 原文出处 Darkbull Python模块学习 glob 文件路径查找 glob模块是最简单的模块之一 内容非常少 用它可以查找符合特定规则的文件路径名 跟使用windows下的文件搜索差不多 查找文件只用到三个匹配
  • 第2.2章 使用两个“半加器”实现一个“全加器”

    刚才的电路考虑了加法的运算结果可能会有进位 当A和B都为1时 可以作为最低位的运算电路 但不能计算其他位 十位 百位等 因为没有考虑低位的进位结果 因此 只能叫做半加器 Half Adder 实际上 一个完整的加法器的输入端有3个 A B和
  • 04-3. Huffman Codes (30)

    04 3 Huffman Codes 30 时间限制 200 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者 CHEN Yue In 1953 David A Huffman publishe
  • 1、若依VUE代码结构:官方文档+资料+总结

    来自官方文档 build 构建相关 bin 执行脚本 public 公共文件 favicon ico favicon图标 index html html模板 robots txt 反爬虫 src 源代码 api 所有请求 assets 主题
  • js实现数组扁平化的几种方式

    数组扁平化 数组的扁平化就是将一个嵌套多层的数组转换为只有一层的数组 扁平化也是面试中常见的考题 举个简单的例子 假设有个名为 flatDeep 的函数能实现数组扁平化效果 代码运行效果如下面 var array 1 2 3 4 5 con
  • 大模型攻防|Prompt 提示词攻击

    前言 本文介绍大模型攻防领域中 Prompt提示词攻击 的相关知识 目录 Prompt 提示词攻击 提示词注入攻击 提示词泄露攻击 提示词越狱攻击 假装 其他 越狱 方法 AI 的进步 防御方法 Prompt 提示词攻击 提示词作为人和大语
  • 尚硅谷 Vue2.0 + Vue3.0 入门到精通教程学习笔记 (一)

    目录 第1章 Vue 核心 1 1 Vue 简介 1 1 1 官网 1 1 2 介绍与描述 1 1 3 Vue 的特点 1 1 4 与其他 JS 框架的关联 1 1 5 Vue 周边库 1 2 初始 Vue 1 3 模板语法 1 4 数据绑
  • Qt学习笔记八 二维图形(2) 坐标系统变换

    在 Qt 中 可以改变系统默认的屏幕坐标系 在 QPainter 默认的坐标系中 点 0 0 位于屏幕的左上角 X 轴向右 Y 轴向下 每个像素占 1x1 大小 1 移动坐标系 改变坐标系原点 0 0 位置 通过 QPainter setW
  • 搭建一个基于https://www.zuoye.com:22222访问的web网站

    创建目录 编辑网站内容 接下来定义配置文件 etc httpd conf d https conf vim etc httpd conf d https conf 分别在虚拟机和Windows主机上添加域名 关闭selinux和防火墙 重启
  • 决策树与随机森林

    首先 在了解树模型之前 自然想到树模型和线性模型有什么区别呢 其中最重要的是 树形模型是一个一个特征进行处理 之前线性模型是所有特征给予权重相加得到一个新的值 决策树与逻辑回归的分类区别也在于此 逻辑回归是将所有特征变换为概率后 通过大于某
  • Python_selenium之获取页面上的全部邮箱

    Python selenium之获取页面上的全部邮箱 一 思路拆分 获取网页 这里以百度的 联系我们 为例 网址http home baidu com contact html 获取页面的全部内容 driver page source 运用