python爬虫学习笔记3

2023-11-17

【1、selenium】

1、什么是selenium？
(1) Selenium是一个用于Web应用程序测试的工具
(2) Selenium测试直接运行在浏览器中，就像真正的用户在操作一样
(3) 支持通过各种driver(FirfoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver)驱动真实浏览器完成测试
(4) selenium也是支持无界面浏览器操作的。

2、为什么使用selenium?
模拟浏览器功能，自动执行网页中的js代码，实现动态加载
github中的selenium地址：https://liushilive.github.io/github_selenium_drivers/md/Selenium.html

3、如何安装selenium?
(1)操作谷歌浏览器驱动下载
http://chromedirver.storage.googleapis.com/index.html
https://liushilive.github.io/github_selenium_drivers/md/Chrome.html
(2)谷歌驱动和谷歌浏览器版本之间的映射表
http://blog.csdn.net/huilan_same/article/details/51896672
(3)查看谷歌浏览器版本
谷歌浏览器右上角 --> 帮助 --> 关于
(4)pip install selenium

4、selenium的使用步骤？
(1) 导入：from selenium import webdriver
(2) 创建谷歌浏览器的操作对象：
path = 谷歌浏览器驱动文件路径z
browser = webdriver.Chrome(path)
(3) 访问网站
url = 要访问的地址
browser.get(url)

4-1 selenium的元素定位？
元素定位：自动化要做的就是模拟鼠标和键盘来操作这些元素，点击、输入等等。操作这些元素前首先要找到它们，WebDriver提供很多定位元素的方法
方法：
1、find_element_by_id
eg:button = browser.find_element_by_id(‘su’)
2、find_elements_by_name
eg:name = browser.find_elements_by_name(‘wd’)
3、find_elements_by_xpath
eg: xpath1 = browser.find_elements_by_xpath(’//input[@id=“su”]’)
4、find_elements_by_tag_name
eg:names = browser.find_elements_by_tag_name(‘input’)
5、find_elements_by_css_selector
eg: my_list = browser.find_elements_by_css_selector(’#kw’)[0]
6、find_elements_by_link_text
eg:browser.find_element_by_link_text(“新闻”)

4-2 访问元素信息
获取元素属性
.get_attribute(‘class’)
获取元素文本
.text
获取标签名
.tag_name

4-3 交互
点击：click()
输入：send_keys()
后退操作：browser.back()
前进操作：browser.forword()
模拟JS滚动：
js = ‘document.documentElement.scrollTop=10000’
browser.execute_script(js) 执行js代码
获取网页代码：page_source
退出：browser.quit()

【2、Phantomjs】

1、什么是Phantomjs?
(1) 是一个无界面的浏览器
(2) 支持页面元素查找，js的执行等
(3) 由于不进行css和gui渲染，运行效果要比真实的浏览器要快很多
(4) Phantomjs下载地址：https://phantomjs.org/download.html

2、如何使用Phantomjs？
(1) 获取PhantomJS.exe文件路径path
(2) browser = webdriver.PhantomJS(path)
(3) browser.get(url)
扩展：保存屏幕快照：browser.save_screenshot(‘baidu.png’)

【3、Chrome handless】

Chrome-headless模式，Google针对Chrome浏览器59版新增的一种模式，可以让你不打卡UI界面的情况下使用Chrome浏览器，所以运行效果与Chrome保持完美一致。

1、配置要求
Chrome
Unix/Linux ： chrome>=59
windows:chrome>=60
Python3.6
Selenium3.4.*
ChromeDriver2.31

2、配置
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')

path = r'C:\Program Files (x86)\Google\Chrome\Application\chrome.exe'
chrome_options.binary_location = path

browser = webdriver.Chrome(chrome_options=chrome_options)

browser.get('http://www.baidu.com/')

3、配置封装
from selenium import webdriver
# 这个是浏览器自带的，不需要我们做任何额外的操作
from selenium.webdriver.chrome.options import Options

def share_browser():
	# 初始化
	chrome_options = Options()
	chrome_options.add_argument('--headless')
	chrome_options.add_argument('--disable-gpu')
	
	# 浏览器的安装路径 打开文件位置
	# 这个路径是你谷歌浏览器的路径
	path = r'C:\Program Files (x86)\Google\Chrome\Application\chrome.exe'
	chrome_options.binary_location = path
	
	browser = webdriver.Chrome(chrome_options=chrome_options)
	
	return browser

封装调用：
from handless import share_browser

browser = share_browser()

browser.get('http://www.baidu.com/')

browser.save_screenshot('handless.png')

（1）导入selenium

from selenium import webdriver

# (2)创建浏览器操作对象

path = ‘chromedriver.exe’

browser = webdriver.Chrome(path)

# （3）访问网站

# url = ‘https://www.baidu.com’

# browser.get(url)

url = ‘https://www.jd.com’

browser.get(url)

# page_source 获取网页源码

content = browser.page_source

print(content)

【selenium元素定位】

from selenium import webdriver

path = ‘chromedriver.exe’

browser = webdriver.Chrome(path)

url = ‘https://www.baidu.com’

browser.get(url)

元素定位

根据id来找到对象

button = browser.find_element_by_id(‘su’)

print(button)

根据标签属性的属性值来获取对象的

button = browser.find_element_by_name(‘wd’)

print(button)

根据xpath语句来获取对象

button = browser.find_element_by_xpath(’//input[@id=“su”]’)

print(button)

根据标签的名字来获取对象

button = browser.find_element_by_tag_name(‘input’)

print(button)

使用的bs4的语法来获取对象

button = browser.find_element_by_css_selector(’#su’)

print(button)

button = browser.find_element_by_link_text(‘新闻’)

print(button)

【元素信息及交互】

from selenium import webdriver

path = ‘chromedriver.exe’

browser = webdriver.Chrome(path)

url = ‘https://www.baidu.com’

browser.get(url)

input = browser.find_element_by_id(‘su’)

# 获取标签的属性

print(input.get_attribute(‘class’))

# 获取标签的名字

print(input.tag_name)

# 获取元素文本

print(input.text)

import urllib.request
from selenium import webdriver

创建浏览器对象

path = ‘chromedriver.exe’
browser = webdriver.Chrome(path)

url

url = ‘https://cn.bing.com/’

创建浏览器的操作对象

browser.get(url)

import time
time.sleep(2)

获取文本框的对象

input = browser.find_element_by_id(‘sb_form_q’)

在文本框中发送内容

input.send_keys(‘周杰伦’)

time.sleep(2)

获取搜索的按钮(注意确定该id的具体是哪个标签的id)

button = browser.find_element_by_id(‘search_icon’)

点击按钮

button.click()

time.sleep(2)

滑到底部

js_bottom = ‘document.documentElement.scrollTop=100000’
browser.execute_script(js_bottom)

time.sleep(2)

next_page = browser.find_element_by_xpath(’//a[@class="sb_pagN sb_pagN_bp b_widePag sb_bp "]’)

点击下一页

next_page.click()

time.sleep(5)

回到上一页

browser.back()

time.sleep(3)

回去 Goes one step forward in the browser history

browser.forward()

time.sleep(3)

退出

browser.quit()

print(input)

【phantomjs的基本操作】

selenium最新的版本中不包含Phontomjs了

需要使用 pip install selenium==2.48.0

from selenium import webdriver

from selenium.webdriver.chrome import options

from selenium.webdriver.chrome.options import Options

创建浏览器对象

path = ‘phantomjs.exe’

options = Options()

options.add_argument(’-headless’)

browser = webdriver.PhantomJS(path)

访问地址

url = ‘https://cn.bing.com/’
browser.get(url)

import time

time.sleep(2)

获取搜素框对象

input = browser.find_element_by_id(‘sb_form_q’)

向搜索框发送内容

input.send_keys(‘CSDN’)

time.sleep(3)

获取搜素按钮的对象

button = browser.find_element_by_id(‘search_icon’)

点击搜素按钮

button.click()

time.sleep(3)

将页面滑到最下面

js_bottom = ‘document.documentElement.scrollTop=100000’

browser.execute_script(js_bottom)

js_bottom = ‘document.documentElement.scrollTop=100000’
browser.execute_script(js_bottom)

time.sleep(3)

获取下一页的按钮

next_page = browser.find_element_by_xpath(’//a[@class="sb_pagN sb_pagN_bp b_widePag sb_bp "]’)

next_page.click()

time.sleep(3)

拍摄快照

browser.save_screenshot(‘cn_bing.png’)

【handless基本操作】

需要本地的Chrome的chrome.exe地址

C:\Program Files\Google\Chrome\Application

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

# 固定配置

chrome_options = Options()

chrome_options.add_argument(’–headless’)

chrome_options.add_argument(’–disable-gpu’)

# path是自己本地chrome浏览器的文件路径

path = r’C:\Program Files\Google\Chrome\Application\chrome.exe’

chrome_options.binary_location = path

browser = webdriver.Chrome(chrome_options = chrome_options)

url = ‘https://cn.bing.com’

browser.get(url)

# 对页面进行快照保存

browser.save_screenshot(‘bing.png’)

【封装handless】

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import random
import time

def share_browser(ip):
chrome_options = Options()
chrome_options.add_argument(’–headless’)
chrome_options.add_argument(’–disable-gpu’)
# 使用代理服务器
# print(ip): 此处是=等于号
print(ip)
chrome_options.add_argument(’–proxy-server=http://’+ ip)
# chrome_options.add_argument(’–proxy-server=http://14.20.235.32:45770’)

# 此处的r是什么意思呢？  使用r就防止了\n的转义 放置转义
path = r'C:\Program Files\Google\Chrome\Application\chrome.exe'
browser = webdriver.Chrome(chrome_options = chrome_options)
return browser

if name == ‘main’:
proxies_pool = [
‘220.135.165.38:8080’,
‘183.195.106.118:8118’,
‘121.232.148.118:9000’,
‘117.41.38.19:9000’
]

proxy_ip = random.choice(proxies_pool)

browser = share_browser(proxy_ip)

# *******该地址会返回访问的ip地址**********
# url = 'http://httpbin.org/ip'
# browser.get(url)
# 用于测试代理是否起到作用
# print(browser.page_source)
# time.sleep(20)

url = 'http://httpbin.org/ip'
# url = 'https://ip.cn/'
browser.get(url)
print(browser.page_source)
# time.sleep(2)
# browser.save_screenshot('ip.png')

browser.quit()

print('执行完成')

【requests】
1、基本使用
1、文档
官网文档
http://cn.python-requests.org/zh_CN/latest/
快速上手
http://cn.python-requests.org/zh_CN/latest/user/quickstart.html
2、安装
pip install requests
3、response的属性以及类型
类型：models.Response
r.text : 获取网站源码
r.encoding ：访问或定制编码方式
r.url : 获取请求的url
r.content : 响应的字节类型
r.status_code : 响应的状态码
r.headers : 响应的头信息

import requests

url = ‘https://cn.bing.com/’

response = requests.get(url = url)

一个类型和六个属性

<class ‘requests.models.Response’>

Response类型

print(type(response))

设置响应的编码格式

response.encoding = ‘utf-8’

以字符串的形式来返回了网页的源码

content = response.text

with open(‘bing.html’,‘w’,encoding=‘utf-8’) as fs:

fs.write(content)

返回一个url地址

print(response.url)

返回的是二进制的数据

print(response.content)

返回响应的状态码

print(response.status_code)

返回的是响应头

print(response.headers)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫学习笔记3 的相关文章

Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
如何在 AWS CDK 创建的 Python Lambda 函数中安装外部模块？

我在 Cloud9 中使用 Python AWS CDK 并且我部署简单的 Lambda 函数那应该是发送 API 请求到 Atlassian 的 API当对象上传到 S3 存储桶时也是由 CDK 创建的这是我的 CDK 堆栈代码 fr
python future 和元组解包

实现像使用 future 进行元组解包这样的事情的优雅惯用的方法是什么我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货理想情况下我想写一些类似的东西 a b c ex submit f x y
Python逻辑运算符优先级[重复]

这个问题在这里已经有答案了哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
从零开始的 numpy 形状意味着什么

好的我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况这对我来说是有意义的它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑为什么这么定义呢据我所知这只是表达空数组的
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包

随机推荐

【Mac】电脑维修换电池之被坑记

文章目录 1 概述 1 概述今天遇到一个糟心的事情我的mac电脑电池坏了想换电池然后以前查了一下发现要1000块因为电池没坏透彻就没去换这次想去换了然后当时脑子蒙了直接去店里然后问了一下换电池400块但是要订购电池
Hadoop在Windows10下的安装及简单操作

Hadoop环境搭建准备工作首先从网站https www oracle com technetwork java javase downloads jdk8 downloads 2133151 html下载匹配Windows x64的J
java游戏主角叶开,逸之老板的天机城与叶开大神女魃墓，决赛场上谁更抢眼？...

精锐组逸之老板的天机城与叶开大神女魃墓决赛场上谁更抢眼逸之老板150级无级别刀出场效果到底是不是很一般吃货分队逸之的天机城在精锐组也算是佼佼者扛上150级无级别刀如虎添翼在决赛中变身机甲对方宝宝根本招架不住摸一下就飞
微信小程序上线后无法调用后端接口

我们要在小程序设置里把request请求域名加上保存就可以了
生信入门（二）——使用limma、Glimma和edgeR,RNA-seq数据分析

生信入门二使用limma Glimma和edgeR RNA seq数据分析文章目录生信入门二使用limma Glimma和edgeR RNA seq数据分析一简介二数据背景三初始配置四数据整合 1 数据下载 2
Vue使用axios实现跨域请求

在前后端分离的项目中关键的一步就是能够进行跨域请求可以通过前端发送请求访问不同端口的服务器获取数据为了解决这一问题使用的是axios来实现跨域请求一安装axios 使用npm安装 npm install axios save 首先
less 命令详解

less 命令详解 less 与more命令类似但可以通过翻页键查看上下页的内容 b lt 缓冲区大小 gt 设置缓冲区的大小 e 当文件显示结束后自动离开 f 强迫打开特殊文件例如外围设备代号目录和二进制文件 g 只标志最后搜索的
通过域策略登录脚本收集域用户的登录/注销信息

1 我们需要在域控制器上新建一个隐藏的共享文件夹 shoujifile 专门用于存放收集到的资料如下图所示登录和注销脚本代码如下收集域用户注销计算机信息 On Error Resume Next strComputer Set lia
IDEA中部署git

IDEA中使用 git 1 在Idea中配置 git 安装好 IntelliJ IDEA后如果Git 安装在默认路径下那么 idea 会自动找到 git 的位置如果更改了 Git 的安装位置则需要手动配置下Git 的路径选择 Fil
C# 语音识别

在 NET4 0中我可以借助System Speech组件让电脑来识别我们的声音以上当我说你好显示 Darren 我说 age 显示永远21 如何做呢首先要开启电脑的语音识别功能右键电脑右下方的扬声器选择录音设备点击默
实现labelme批量json_to_dataset方法

labelme可以帮助我们快速的实现Mask RCNN中数据集json文件的生成然而还需要我们进一步的将json转成dataset 可以直接在cmd中执行labelme json to dataset exe C Users Admini
校验码在线计算工具

符合在合种场景下开发使用 LRC校验码在线计算器 ME2在线工具
NE555 + CD4017流水灯

NE555 CD4017流水灯 1 完成此物只需要清楚2个点 1 NE555充当信号发生器产生方波信号即电信号有高低电平之分所谓方波就是在一个周期内保持前a时间高电平持续1 a时间内的低电平 0
js中如何实现字符串去重？

聚沙成塔每天进步一点点专栏简介使用 Set 数据结构使用循环遍历写在最后专栏简介前端入门之旅探索Web开发的奇妙世界记得点击上方或者右侧链接订阅本专栏哦几何带你启航前端之旅欢迎来到前端入门之旅这个专栏是为那些对Web
一个页面好几个地方调用ajax,如何使用一个jquery ajax调用来更新页面上的多个区域？...

我目前正在使用jQuery Ajax和PHP实现购物车并且大部分工作正在进行然而我目前卡在如何更新购物车页面内容时我更新购物车因为此刻我返回的HTML更新侧栏中的购物车区域工作正常如何使用一个jquery ajax调用来更新页
头条号个人中心登录_手把手教你如何在头条号中绑定百家号？

现在的自媒体平台很多很多人做自媒体时注册了多个平台一般都是将自己制作的内容发到不同平台由于每个平台都要审核发布内容是否符合平台规定如果发现网上有相同内容被认为是抄袭可能审核不通过因此帐号之间关联在一起平台就知道是这内容是同一作
一种基于Redisson实现简单的分布式定时任务执行方案

一般在springcloud下单机执行定时任务的代码 EnableScheduling public class TestTask Scheduled cron 0 public void test System out println s
SSM项目遇到的问题(5)

SSM项目中前端传递的方式为post且格式为Json 遇到的问题问题解决遇到的问题简单介绍一下遇到的问题前端传送的数据为Json格式方法为post 也就是这样子的但是在后端获取到的数据死活都为null 不管接受的参数是这样
解决Error：Flash Download failed -“Cortex-M3”问题

自己用的ST link下载程序按照网友配置ST Link在keil5上的应用结果就是这样的首先我用的STM32F103ZET6建的工程想把程序下载到STM32F103C8T6上我看到其他博友说的问题有如下 1 在KEIL5上配置错
python爬虫学习笔记3

1 selenium 1 什么是selenium 1 Selenium是一个用于Web应用程序测试的工具 2 Selenium测试直接运行在浏览器中就像真正的用户在操作一样 3 支持通过各种driver FirfoxDriver Iter