python爬虫学习笔记3

2023-11-17

【1、selenium】

1、什么是selenium?
(1) Selenium是一个用于Web应用程序测试的工具
(2) Selenium测试直接运行在浏览器中,就像真正的用户在操作一样
(3) 支持通过各种driver(FirfoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver)驱动真实浏览器完成测试
(4) selenium也是支持无界面浏览器操作的。

2、为什么使用selenium?
模拟浏览器功能,自动执行网页中的js代码,实现动态加载
github中的selenium地址:https://liushilive.github.io/github_selenium_drivers/md/Selenium.html

3、如何安装selenium?
(1)操作谷歌浏览器驱动下载
http://chromedirver.storage.googleapis.com/index.html
https://liushilive.github.io/github_selenium_drivers/md/Chrome.html
(2)谷歌驱动和谷歌浏览器版本之间的映射表
http://blog.csdn.net/huilan_same/article/details/51896672
(3)查看谷歌浏览器版本
谷歌浏览器右上角 --> 帮助 --> 关于
(4)pip install selenium

4、selenium的使用步骤?
(1) 导入:from selenium import webdriver
(2) 创建谷歌浏览器的操作对象:
path = 谷歌浏览器驱动文件路径z
browser = webdriver.Chrome(path)
(3) 访问网站
url = 要访问的地址
browser.get(url)

4-1 selenium的元素定位?
元素定位:自动化要做的就是模拟鼠标和键盘来操作这些元素,点击、输入等等。操作这些元素前首先要找到它们,WebDriver提供很多定位元素的方法
方法:
1、find_element_by_id
eg:button = browser.find_element_by_id(‘su’)
2、find_elements_by_name
eg:name = browser.find_elements_by_name(‘wd’)
3、find_elements_by_xpath
eg: xpath1 = browser.find_elements_by_xpath(’//input[@id=“su”]’)
4、find_elements_by_tag_name
eg:names = browser.find_elements_by_tag_name(‘input’)
5、find_elements_by_css_selector
eg: my_list = browser.find_elements_by_css_selector(’#kw’)[0]
6、find_elements_by_link_text
eg:browser.find_element_by_link_text(“新闻”)

4-2 访问元素信息
获取元素属性
.get_attribute(‘class’)
获取元素文本
.text
获取标签名
.tag_name

4-3 交互
点击:click()
输入:send_keys()
后退操作:browser.back()
前进操作:browser.forword()
模拟JS滚动:
js = ‘document.documentElement.scrollTop=10000’
browser.execute_script(js) 执行js代码
获取网页代码:page_source
退出:browser.quit()

【2、Phantomjs】

1、什么是Phantomjs?
(1) 是一个无界面的浏览器
(2) 支持页面元素查找,js的执行等
(3) 由于不进行css和gui渲染,运行效果要比真实的浏览器要快很多
(4) Phantomjs下载地址:https://phantomjs.org/download.html

2、如何使用Phantomjs?
(1) 获取PhantomJS.exe文件路径path
(2) browser = webdriver.PhantomJS(path)
(3) browser.get(url)
扩展:保存屏幕快照:browser.save_screenshot(‘baidu.png’)

【3、Chrome handless】

Chrome-headless模式,Google针对Chrome浏览器59版新增的一种模式,可以让你不打卡UI界面的情况下使用Chrome浏览器,所以运行效果与Chrome保持完美一致。

1、配置要求
Chrome
Unix/Linux : chrome>=59
windows:chrome>=60
Python3.6
Selenium3.4.*
ChromeDriver
2.31

2、配置
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')

path = r'C:\Program Files (x86)\Google\Chrome\Application\chrome.exe'
chrome_options.binary_location = path

browser = webdriver.Chrome(chrome_options=chrome_options)

browser.get('http://www.baidu.com/')

3、配置封装
from selenium import webdriver
# 这个是浏览器自带的, 不需要我们做任何额外的操作
from selenium.webdriver.chrome.options import Options

def share_browser():
	# 初始化
	chrome_options = Options()
	chrome_options.add_argument('--headless')
	chrome_options.add_argument('--disable-gpu')
	
	# 浏览器的安装路径 打开文件位置
	# 这个路径是你谷歌浏览器的路径
	path = r'C:\Program Files (x86)\Google\Chrome\Application\chrome.exe'
	chrome_options.binary_location = path
	
	browser = webdriver.Chrome(chrome_options=chrome_options)
	
	return browser

封装调用:
from handless import share_browser

browser = share_browser()

browser.get('http://www.baidu.com/')

browser.save_screenshot('handless.png')

(1)导入selenium

from selenium import webdriver

# (2)创建浏览器操作对象

path = ‘chromedriver.exe’

browser = webdriver.Chrome(path)

# (3)访问网站

# url = ‘https://www.baidu.com’

# browser.get(url)

url = ‘https://www.jd.com’

browser.get(url)

# page_source 获取网页源码

content = browser.page_source

print(content)

【selenium元素定位】

from selenium import webdriver

path = ‘chromedriver.exe’

browser = webdriver.Chrome(path)

url = ‘https://www.baidu.com’

browser.get(url)

元素定位

根据id来找到对象

button = browser.find_element_by_id(‘su’)

print(button)

根据标签属性的属性值来获取对象的

button = browser.find_element_by_name(‘wd’)

print(button)

根据xpath语句来获取对象

button = browser.find_element_by_xpath(’//input[@id=“su”]’)

print(button)

根据标签的名字来获取对象

button = browser.find_element_by_tag_name(‘input’)

print(button)

使用的bs4的语法来获取对象

button = browser.find_element_by_css_selector(’#su’)

print(button)

button = browser.find_element_by_link_text(‘新闻’)

print(button)

【元素信息及交互】

from selenium import webdriver

path = ‘chromedriver.exe’

browser = webdriver.Chrome(path)

url = ‘https://www.baidu.com’

browser.get(url)

input = browser.find_element_by_id(‘su’)

# 获取标签的属性

print(input.get_attribute(‘class’))

# 获取标签的名字

print(input.tag_name)

# 获取元素文本

print(input.text)

import urllib.request
from selenium import webdriver

创建浏览器对象

path = ‘chromedriver.exe’
browser = webdriver.Chrome(path)

url

url = ‘https://cn.bing.com/’

创建浏览器的操作对象

browser.get(url)

import time
time.sleep(2)

获取文本框的对象

input = browser.find_element_by_id(‘sb_form_q’)

在文本框中发送内容

input.send_keys(‘周杰伦’)

time.sleep(2)

获取搜索的按钮(注意确定该id的具体是哪个标签的id)

button = browser.find_element_by_id(‘search_icon’)

点击按钮

button.click()

time.sleep(2)

滑到底部

js_bottom = ‘document.documentElement.scrollTop=100000’
browser.execute_script(js_bottom)

time.sleep(2)

next_page = browser.find_element_by_xpath(’//a[@class="sb_pagN sb_pagN_bp b_widePag sb_bp "]’)

点击下一页

next_page.click()

time.sleep(5)

回到上一页

browser.back()

time.sleep(3)

回去 Goes one step forward in the browser history

browser.forward()

time.sleep(3)

退出

browser.quit()

print(input)

【phantomjs的基本操作】

selenium最新的版本中不包含Phontomjs了

需要使用 pip install selenium==2.48.0

from selenium import webdriver

from selenium.webdriver.chrome import options

from selenium.webdriver.chrome.options import Options

创建浏览器对象

path = ‘phantomjs.exe’

options = Options()

options.add_argument(’-headless’)

browser = webdriver.PhantomJS(path)

访问地址

url = ‘https://cn.bing.com/’
browser.get(url)

import time

time.sleep(2)

获取搜素框对象

input = browser.find_element_by_id(‘sb_form_q’)

向搜索框发送内容

input.send_keys(‘CSDN’)

time.sleep(3)

获取搜素按钮的对象

button = browser.find_element_by_id(‘search_icon’)

点击搜素按钮

button.click()

time.sleep(3)

将页面滑到最下面

js_bottom = ‘document.documentElement.scrollTop=100000’

browser.execute_script(js_bottom)

js_bottom = ‘document.documentElement.scrollTop=100000’
browser.execute_script(js_bottom)

time.sleep(3)

获取下一页的按钮

next_page = browser.find_element_by_xpath(’//a[@class="sb_pagN sb_pagN_bp b_widePag sb_bp "]’)

next_page.click()

time.sleep(3)

拍摄快照

browser.save_screenshot(‘cn_bing.png’)

【handless基本操作】

需要本地的Chrome的chrome.exe地址

C:\Program Files\Google\Chrome\Application

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

# 固定配置

chrome_options = Options()

chrome_options.add_argument(’–headless’)

chrome_options.add_argument(’–disable-gpu’)

# path是自己本地chrome浏览器的文件路径

path = r’C:\Program Files\Google\Chrome\Application\chrome.exe’

chrome_options.binary_location = path

browser = webdriver.Chrome(chrome_options = chrome_options)

url = ‘https://cn.bing.com’

browser.get(url)

# 对页面进行快照保存

browser.save_screenshot(‘bing.png’)

【封装handless】

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import random
import time

def share_browser(ip):
chrome_options = Options()
chrome_options.add_argument(’–headless’)
chrome_options.add_argument(’–disable-gpu’)
# 使用代理服务器
# print(ip): 此处是=等于号
print(ip)
chrome_options.add_argument(’–proxy-server=http://’+ ip)
# chrome_options.add_argument(’–proxy-server=http://14.20.235.32:45770’)

# 此处的r是什么意思呢?  使用r就防止了\n的转义 放置转义
path = r'C:\Program Files\Google\Chrome\Application\chrome.exe'
browser = webdriver.Chrome(chrome_options = chrome_options)
return browser

if name == ‘main’:
proxies_pool = [
‘220.135.165.38:8080’,
‘183.195.106.118:8118’,
‘121.232.148.118:9000’,
‘117.41.38.19:9000’
]

proxy_ip = random.choice(proxies_pool)

browser = share_browser(proxy_ip)

# *******该地址会返回访问的ip地址**********
# url = 'http://httpbin.org/ip'
# browser.get(url)
# 用于测试代理是否起到作用
# print(browser.page_source)
# time.sleep(20)

url = 'http://httpbin.org/ip'
# url = 'https://ip.cn/'
browser.get(url)
print(browser.page_source)
# time.sleep(2)
# browser.save_screenshot('ip.png')

browser.quit()

print('执行完成')

【requests】
1、基本使用
1、文档
官网文档
http://cn.python-requests.org/zh_CN/latest/
快速上手
http://cn.python-requests.org/zh_CN/latest/user/quickstart.html
2、安装
pip install requests
3、response的属性以及类型
类型 :models.Response
r.text : 获取网站源码
r.encoding :访问或定制编码方式
r.url : 获取请求的url
r.content : 响应的字节类型
r.status_code : 响应的状态码
r.headers : 响应的头信息

import requests

url = ‘https://cn.bing.com/’

response = requests.get(url = url)

一个类型和六个属性

<class ‘requests.models.Response’>

Response类型

print(type(response))

设置响应的编码格式

response.encoding = ‘utf-8’

以字符串的形式来返回了网页的源码

content = response.text

with open(‘bing.html’,‘w’,encoding=‘utf-8’) as fs:

fs.write(content)

返回一个url地址

print(response.url)

返回的是二进制的数据

print(response.content)

返回响应的状态码

print(response.status_code)

返回的是响应头

print(response.headers)

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫学习笔记3 的相关文章

  • Spark 请求最大计数

    我是 Spark 的初学者 我尝试请求允许我检索最常访问的网页 我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
  • 如何在 AWS CDK 创建的 Python Lambda 函数中安装外部模块?

    我在 Cloud9 中使用 Python AWS CDK 并且我部署简单的 Lambda 函数那应该是发送 API 请求到 Atlassian 的 API当对象上传到 S3 存储桶时 也是由 CDK 创建的 这是我的 CDK 堆栈代码 fr
  • python future 和元组解包

    实现像使用 future 进行元组解包这样的事情的优雅 惯用的方法是什么 我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货 理想情况下我想写一些类似的东西 a b c ex submit f x y
  • Python逻辑运算符优先级[重复]

    这个问题在这里已经有答案了 哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假 我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
  • 通过列表理解压平列表列表

    我正在尝试使用 python 中的列表理解来展平列表 我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目 我编写了这个函数 def flat listoflist for item in listoflis
  • 填充两个函数之间的区域

    import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
  • 从零开始的 numpy 形状意味着什么

    好的 我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况 这对我来说是有意义的 它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑 为什么这么定义呢 据我所知 这只是表达空数组的
  • Pandas 数据帧到 numpy 数组 [重复]

    这个问题在这里已经有答案了 我对 Python 很陌生 经验也很少 我已经设法通过复制 粘贴和替换我拥有的数据来使一些代码正常工作 但是我一直在寻找如何从数据框中选择数据 但无法理解这些示例并替换我自己的数据 总体目标 如果有人真的可以帮助
  • python suds SOAP 请求中的名称空间前缀错误

    我使用 python suds 来实现客户端 并且在发送的 SOAP 标头中得到了错误的命名空间前缀 用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件 请参见下文 问题出在函数上GetRecord
  • 如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题?

    在尝试从 S3 重新分区数据帧时 我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
  • 首先对列表中最长的项目进行排序

    我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
  • 将 JSON 对象传递给带有请求的 url

    所以 我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
  • 在 Pandas 中使用正则表达式的多种模式

    我是Python编程的初学者 我正在探索正则表达式 我正在尝试从 描述 列中提取一个单词 数据库名称 我无法给出多个正则表达式模式 请参阅下面的描述和代码 描述 Summary AD1 Low free DATA space in data
  • 创建嵌套字典单行

    您好 我有三个列表 我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
  • Tkinter - 浮动窗口 - 调整大小

    灵感来自this https stackoverflow com a 22424245 13629335问题 我想为我的根窗口编写自己的调整大小函数 但我刚刚注意到我的代码显示了一些性能问题 如果你快速调整它的大小 你会发现窗口没有像我希望
  • 无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

    我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求 到目前为止 这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
  • 具有自定义值的 Django 管理外键下拉列表

    我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
  • 字典和数组作为类变量与实例变量

    这是赚取积分的简单方法 请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d
  • Elastic Beanstalk 中的 enum34 问题

    我正在尝试在 Elastic Beanstalk 中设置 django 环境 当我尝试通过requirements txt 文件安装时 我遇到了python3 6 问题 File opt python run venv bin pip li
  • 检查字典键是否有空值

    我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典 但是 它不会包含带有空字符串的键 它不会包

随机推荐

  • 【Mac】电脑维修 换电池之被坑记

    文章目录 1 概述 1 概述 今天遇到一个糟心的事情 我的mac电脑 电池坏了 想换电池 然后以前查了一下 发现要1000块 因为电池没坏透彻 就没去换 这次想去换了 然后当时脑子蒙了 直接去店里 然后问了一下换电池400块 但是要订购电池
  • Hadoop在Windows10下的安装及简单操作

    Hadoop环境搭建 准备工作 首先从网站https www oracle com technetwork java javase downloads jdk8 downloads 2133151 html下载匹配Windows x64的J
  • java游戏主角叶开,逸之老板的天机城与叶开大神女魃墓,决赛场上谁更抢眼?...

    精锐组 逸之老板的天机城与叶开大神女魃墓 决赛场上谁更抢眼 逸之老板150级无级别刀 出场效果到底是不是很一般 吃货分队 逸之的天机城在精锐组也算是佼佼者 扛上150级无级别刀 如虎添翼 在决赛中 变身机甲 对方宝宝根本招架不住 摸一下就飞
  • 微信小程序上线后无法调用后端接口

    我们要在小程序设置里把request请求域名加上保存就可以了
  • 生信入门(二)——使用limma、Glimma和edgeR,RNA-seq数据分析

    生信入门 二 使用limma Glimma和edgeR RNA seq数据分析 文章目录 生信入门 二 使用limma Glimma和edgeR RNA seq数据分析 一 简介 二 数据背景 三 初始配置 四 数据整合 1 数据下载 2
  • Vue使用axios实现跨域请求

    在前后端分离的项目中 关键的一步就是能够进行跨域请求 可以通过前端发送请求访问不同端口的服务器获取数据 为了解决这一问题使用的是axios来实现跨域请求 一 安装axios 使用npm安装 npm install axios save 首先
  • less 命令详解

    less 命令详解 less 与more命令类似 但可以通过翻页键查看上下页的内容 b lt 缓冲区大小 gt 设置缓冲区的大小 e 当文件显示结束后 自动离开 f 强迫打开特殊文件 例如外围设备代号 目录和二进制文件 g 只标志最后搜索的
  • 通过域策略登录脚本收集域用户的登录/注销信息

    1 我们需要在域控制器上新建一个隐藏的共享文件夹 shoujifile 专门用于存放收集到的资料 如下图所示 登录和注销脚本代码如下 收集域用户注销计算机信息 On Error Resume Next strComputer Set lia
  • IDEA中部署git

    IDEA中使用 git 1 在Idea中配置 git 安装好 IntelliJ IDEA后 如果Git 安装在默认路径下 那么 idea 会自动找到 git 的位置 如果更改了 Git 的安装位置则需要手动配置下Git 的路径 选择 Fil
  • C# 语音识别

    在 NET4 0中 我可以借助System Speech组件让电脑来识别我们的声音 以上 当我说 你好 显示 Darren 我说 age 显示 永远21 如何做呢 首先要开启电脑的语音识别功能 右键电脑右下方的扬声器 选择 录音设备 点击默
  • 实现labelme批量json_to_dataset方法

    labelme可以帮助我们快速的实现Mask RCNN中数据集json文件的生成 然而还需要我们进一步的将json转成dataset 可以直接在cmd中执行labelme json to dataset exe C Users Admini
  • 校验码在线计算工具

    符合在合种场景下开发使用 LRC校验码在线计算器 ME2在线工具
  • NE555 + CD4017流水灯

    NE555 CD4017流水灯 1 完成此物只需要清楚2个点 1 NE555充当信号发生器 产生方波 信号即电信号 有高低电平之分 所谓方波就是在一个周期内 保持前a时间高电平 持续1 a时间内的低电平 0
  • js中如何实现字符串去重?

    聚沙成塔 每天进步一点点 专栏简介 使用 Set 数据结构 使用循环遍历 写在最后 专栏简介 前端入门之旅 探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅 这个专栏是为那些对Web
  • 一个页面好几个地方调用ajax,如何使用一个jquery ajax调用来更新页面上的多个区域?...

    我目前正在使用jQuery Ajax和PHP实现购物车 并且大部分工作正在进行 然而 我目前卡在如何更新购物车页面内容时 我更新购物车 因为此刻我返回的HTML更新侧栏中的购物车区域 工作正常 如何使用一个jquery ajax调用来更新页
  • 头条号个人中心登录_手把手教你如何在头条号中绑定百家号?

    现在的自媒体平台很多 很多人做自媒体时注册了多个平台 一般都是将自己制作的内容发到不同平台 由于每个平台都要审核发布内容是否符合平台规定 如果发现网上有相同内容被认为是抄袭可能审核不通过 因此 帐号之间关联在一起 平台就知道是这内容是同一作
  • 一种基于Redisson实现简单的分布式定时任务执行方案

    一般在springcloud下单机执行定时任务的代码 EnableScheduling public class TestTask Scheduled cron 0 public void test System out println s
  • SSM项目遇到的问题(5)

    SSM项目中前端传递的方式为post且格式为Json 遇到的问题 问题解决 遇到的问题 简单介绍一下 遇到的问题 前端传送的数据为Json格式 方法为post 也就是这样子的 但是在后端获取到的数据 死活都为null 不管接受的参数 是这样
  • 解决Error:Flash Download failed -“Cortex-M3”问题

    自己用的ST link下载程序 按照网友配置ST Link在keil5上的应用 结果就是这样的 首先我用的STM32F103ZET6建的工程 想把程序下载到STM32F103C8T6上 我看到其他博友说的问题有如下 1 在KEIL5上配置错
  • python爬虫学习笔记3

    1 selenium 1 什么是selenium 1 Selenium是一个用于Web应用程序测试的工具 2 Selenium测试直接运行在浏览器中 就像真正的用户在操作一样 3 支持通过各种driver FirfoxDriver Iter