selenium数据提取学习(1)

2023-11-08

import time
from selenium import webdriver
# 设置浏览器
driver = webdriver.Edge()
# 控制浏览器访问地址
driver.get("https://www.baidu.com/")
time.sleep(3)

# 在百度中搜索python
driver.find_element_by_id('kw').send_keys('python')  # 定位 并输入
# 点击百度搜索
driver.find_element_by_id('su').click()  # 点击


time.sleep(6)
driver.quit()
from selenium import webdriver

url = 'http://www.baidu.com'

driver=webdriver.Edge()

driver.get(url)

# driver.find_element_by_xpath('//*[@id="kw"]').send_keys('python3')
# driver.find_element_by_css_selector('#kw').send_keys('python3')
driver.find_element_by_name('wd').send_keys('python3')
driver.find_element_by_id('su').click()

# 通过文本进行元素定位
# driver.find_element_by_link_text('hao123').click()
driver.find_element_by_partial_link_text('hao').click()

# 目标元素在当前html中是唯一标签的时候 才能使用
driver.find_element_by_tag_name('title')
'''
find_element_by_xxx
    定位到是一个对象
    定位不到报错
find_elements_by_xxx
    定位到是一个列表
    否则空列表
'''
import time

from selenium import webdriver

url='http://www.baidu.com'

# 创建一个浏览器对象
driver = webdriver.Edge()

# 访问指定url地址
driver.get(url)

# 显示源码
print(driver.page_source)
# 显示响应对应的url
print(driver.current_url)
print(driver.title)

time.sleep(2)
driver.get('http://www.douban.com')
time.sleep(2)
driver.back()
time.sleep(2)
driver.forward()
time.sleep(2)
# driver.close()
# 保存网页截图/快照
driver.save_screenshot('baidu.png')
driver.quit()






# Boss 数据提取
from selenium import webdriver
url='https://www.zhipin.com/chengshi/c101091000/?sid=sem_pz_bdpc_dasou_title'
driver=webdriver.Edge()
driver.get(url)

el_list=driver.find_elements_by_xpath('//*[@id="main"]/div/div[3]/ul[1]/li/div/a')
for el in el_list:
    print(el.text,el.get_attribute('href'))

# el.click()   点击
# el.send_keys()   输入元素
# el.clear()   清空操作

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

selenium数据提取学习(1) 的相关文章

随机推荐

  • config:invalid signature

    之前服务器换了IP 啥都配置对了 就是IP没改过来 好了 又是花了半天时间排查问题 问题解决 微信config invalid signature 的其中一个错误就是ip地址问题 需在公众号后台 gt 基本配置 gt 设置IP白名单 欢迎关
  • Python time time()方法返回的是秒

    描述 Python time time 返回当前时间的时间戳 1970纪元后经过的浮点秒数 语法 time 方法语法 time time 参数 NA 返回值 返回当前时间的时间戳 1970纪元后经过的浮点秒数 实例 以下实例展示了 time
  • Linux目录操作命令

    1 查看目录命令 ls 用法 ls 选项 目录名 常用选项 a 显示所有文件 包含隐藏文件 l 显示长文件信息 案例 查看 user下的所有文件 ls a user ls 文件或目录路径信息 ls d 查看目录信息 ls l 文件或目录信息
  • Unity Shader入门精要文章目录

    前言 从今天开始 我将每天开始学习一些有关于Shader的知识 并把所学到的知识简化 写成文章来供大家参考或者学习 一方面是为了巩固知识 另一方面是我也没有找到什么系统的文章来学习Shader的知识 我的Shader学习大部分是参考了Uni
  • GDI+ 中路径类使用总结

    背景 路径是一系列相互连接的直线和曲线 由许多不同类型的点所构成 用于表示复杂的不规则图形 GraphicsPath 类表示 要绘制一组图形 如线条 矩形 多边形和曲线等 可以通过 Graphcis 类的 DrawPath 方法一次性绘制
  • 《Python进阶系列》二十六:面试题目:[lambda x: x*i for i in range(4)]

    quad quad 闲着无聊 看了道面试题 瞬间涨姿势了 特地做个总结 题目 题目如下 lst lambda x x i for i in range 4 res m 2 for m in lst print res 上述式子的输出结果 预
  • VirtualBox中出现 UUID have already exists : 修改 UUID

    VirtualBox中出现UUID have already exists 解决方法 要点 C Program Files Oracle VirtualBox VBoxManage exe internalcommands sethduui
  • C++——vector

    文章目录 vector的介绍 vector的使用 为什么vector不提供find 排序 sort vector的模拟实现 搭一个最简单的架子 构造函数和析构函数 尾插 尾删 operator 迭代器 insert erase 迭代器失效
  • [caffe安装]配置环境过程中出现的问题及解决

    今天要跑一下Convolutional Autoencoder for Loop Closure 轻量级神经网络闭环方法 caffe安好之后编译程序出现以下错误 Scanning dependencies of target deeplcd
  • React 之常用组件类型

    无状态组件 主要用于内部没有状态更新操作的组件 同构props进行基本的数据渲染或常量展示 该类组件职责单一 有利于组件的高复用 const PureComponent props gt div props list map txt ind
  • 金融市场概览

    文章目录 金融市场的功能 金融市场的分类 主要金融机构 中国金融市场概况 本文简要展现真实世界中的金融市场的面貌 介绍其基本结构 主要玩家 交易的主要资产 以及主要的业务形式 金融市场的功能 金融是通过交易金融资产来实现资金通融 很容易想到
  • Qt学习笔记3:Qt工程的目录结构

    经过前两篇的学习 已经可以使用Qt空项目模板创建自己的工程了 通过本篇的学习 整理一下如果使用Qt工程的目录结构 使项目更规范和容易管理 当前的目录结构 如图所示 这是前篇中创建的工程 只有main cpp和widget cpp widge
  • postman-接口批量执行、接口串联

    一 接口批量执行 1 点击postman左侧Collections下面有个添加文件夹图标 就可以创建测试项目 2 该目录下还可以创建子目录 进行测试用例的细分 3 创建测试用例 创建接口测试用例 即新建http请求 选择请求方式 写好url
  • 【AUTOSAR】CCP协议的代码分析与解读(四)----CCP协议数据下载和上传

    数据下载 DNLOAD DNLOAD指令负责将CRO中的数据下载到ECU中 起始地址为先前设定的MTA0 下载完毕后MTA0指针自增 自增的字数为下载的字节数 DNLOAD命令的CRO数据场结构 如下所示 位 置 类 型 描 述 0 字节
  • redis&mariadb + keepalived 高可用

    目录 机器准备 安装后服务 redis 安装redis mariadb 安装mariadb 启动和配置 互为主从同步配置 keepalived keepalived安装 修改主从 keepalived的配置 主从配置 mariadb监控 主
  • Java实现数据结构----插入排序直接插入排序

    七大基于比较的排序之插入排序 直接排序 直接插入排序 原理 主要步骤 1 先假设第一个元素已经排好序 2 然后依次取出还需要进行排序的下一个元素 也就是排序完成的元素后面的下一个元素 取出下一个元素 设为待插入元素 在已经排序的元素序列中从
  • MySQL 数据库性能优化之缓存参数优化

    https blog csdn net truelove12358 article details 51956356 博客 学院 下载 图文课 论坛 APP 问答 商城 VIP会员 活动 招聘 ITeye GitChat 写博客 赚零钱 传
  • [构思]依据verilog源文件中的关键代码及其注释,使用脚本命令生成代码文档

    verilog代码文档的内容需求 生成文档的实现思路 依据verilog源文件中的关键代码及其注释 使用脚本命令生成代码文档 跟Doxygen工具功能类似 针对的场景是工程里的代码没有文档 阅读不方便 注释没有章法 代码越长 阅读直观感受越
  • RIP综合实验

    配置IP RI r1 int g 0 0 0 r1 GigabitEthernet0 0 0 ip address 12 0 0 1 24 Apr 6 2022 13 18 35 08 00 r1 01IFNET 4 LINK STATE
  • selenium数据提取学习(1)

    import time from selenium import webdriver 设置浏览器 driver webdriver Edge 控制浏览器访问地址 driver get https www baidu com time sle