爬虫实战(二):Selenium 模拟登录并爬取信息

2023-11-18

前叙

系列文章:

爬虫实战(一):爬取微博用户信息

爬虫实战(二):Selenium 模拟登录并爬取信息

爬虫实战(三):微博用户信息分析

该系列文章介绍了什么?

1.爬虫分析和处理方法

2.Python中的数据库操作方法

3.Selenium浏览器自动化以及无头浏览器使用方法

4.对数据进行词云分析的方法

5.对数据进行可视化的方法

6.LDA隐含狄利克雷分布模型的建模和使用方法

前言

前一篇文章 爬虫实战(一):爬取微博用户信息 中爬取的是 weibo.cn 这个网页,但是由于该网页缺少维护,微博官方可能加了一些限制,导致稍微频繁一点的访问都会报 403 错误,加上每次手动获取 cookies 也比较麻烦,不友好,所以针对这些情况,我使用了一种新的抓取方式,也是一种更为高级的爬虫手段。

我之前在文章里面提到“ 爬取微博主页 weibo.com/ 或者 m.weibo.cn/ 较为困难 ”,为什么会这么说呢?因为这两种页面较新,所以采用的技术比较新颖,反爬措施做得要好一些。特别是它们采用了滚动式页面,每次向下滚动到底后会加载出新的内容,这种动态加载模式使得传统的改变网页地址中的页码获得相应内容的方法失效了,含有用户信息内容的源码需要抓包获取,或者直接操作浏览器获取。后者一般都是Selenium+PhantomJS来实现。

由于 Phantom.js 的维护者 Slobodin 在Google论坛上发帖表示,鉴于Chrome 59推出了无头浏览特性,他认为“Chrome比PhantomJS更快,更稳定”,没有理由再继续维护Phantom.js(开发者很有自知之明:P,不过 Phantom.js 确实是一个很好用的东西),所以本文采用 Selenium+Chrome/Firefox 无头浏览器的方式进行模拟登录和抓取用户动态信息的操作。

Selenium

Selenium 是一个浏览器自动化测试框架,起初是为了自动化测试开发的,在爬虫流行起来以后,也成为了一种爬虫的工具。它的功能简单来说就是可以控制浏览器,用代码模拟人对浏览器的操作,实现自动化。

安装

和大多数 python 包一样,selenium 可以使用 pip 进行安装:

# python 2
pip install selenium

# python 3
pip3 install selenium
复制代码

因为 selenium 是对浏览器进行控制,所以首先要装对应的驱动(driver),Selenium 针对几个主流的浏览器都有相应的官方 driver。读者可以根据自己的情况下载并安装。比如笔者是使用的 Linux 系统上的 Chrome 浏览器最新版本,那么便下载相应版本的 driver ,下载完成以后,执行命令:

#/usr/bin 或者 /usr/local/bin
sudo cp 下载的driver位置 /usr/bin
sudo chmod +x /usr/bin/chromedriver
复制代码

安装完成以后测试一下是否成功。

测试

首先来测试一下是否安装成功:

from selenium import webdriver
 
browser = webdriver.Chrome()
browser.get('http://www.baidu.com/')
复制代码

运行这段代码,会自动打开浏览器访问百度。

如果程序执行错误,浏览器没有打开,那么可能是没有装 Chrome 浏览器或者 Chrome 驱动没有配置在环境变量里或者驱动和浏览器版本不匹配。

模拟登录

登录微博需要使用验证码,自动识别验证码这一块我研究了一下,使用图像识别,也不难,但是因为我们可以将cookies 持久化保存下来,使用手动输入验证码并不麻烦,所以自动识别验证码可以暂时先放一放,后面慢慢来研究。

使用 selenium 控制浏览器,通过对页面的元素进行定位来模拟人的操作,API 详细介绍请见 参考文档 。模拟登录代码如下:

def get():
    conf, engine = Connect('conf.yaml')  # 获取配置文件的内容
    loginname = conf.get('loginname')
    password = conf.get('password')

    loginname = list(loginname.values())
    password = list(password.values())
    with open('cookies.pkl', 'wb') as f:
        for i in range(len(password)):  # 将每个账号的cookies保存下来.
            try:
                driver = webdriver.Chrome()
                driver.set_window_size(1124, 850)  # 防止得到的WebElement的状态is_displayed为False,即不可见
                driver.get("http://www.weibo.com/login.php")
                time.sleep(5)
                #自动点击并输入用户名
                driver.find_element_by_xpath('//*[@id="loginname"]').clear()
                driver.find_element_by_xpath('//*[@id="loginname"]').send_keys(loginname[i])
                driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[2]/div/input').clear()

                time.sleep(2)
                #自动点击并输入登录的密码
                driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[2]/div/input').send_keys(
                    password[i])
                driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[6]/a').click()
				
                #输入验证码
                driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[3]/div/input').send_keys(
                    input("输入验证码: "))

                time.sleep(1)
                driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[6]/a').click()
            except Exception as e:
                print("验证码输入错误,请重新输入!")
                driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[3]/div/input').send_keys(
                    input("输入验证码: "))
                time.sleep(1)
                driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[6]/a').click()
            cookies = driver.get_cookies()
            pickle.dump(cookies, f)#序列化cookies对象
复制代码

代码注释应该写得比较清楚,其中有一个细节就是我们需要将获取的 cookies 序列化。什么是序列化?

我们把变量从内存中变成可存储或传输的过程称之为序列化,即把数据写入临时或持久性存储区,而把变量内容从序列化的对象重新读到内存里称之为反序列化。

意思是在这里将 cookies 以二进制形式保存下来,这样可以方便后续爬虫使用。

使用 selenium 爬取用户信息

爬取用户信息的大致思路和上一篇文章 爬虫实战(一):爬取微博用户信息 差不多 ,但仍然有以下区别:

  • 爬取 https://m.weibo.cn/ 而不是 https://weibo.cn/
  • 使用 seenium 代替 requests 获取源码
  • 使用 selenium 加载滚动页面直到所有动态信息加载完成
  • 先使用正常的Chrome调试,调试完成以后再改成无头浏览器

首先我们来看微博 html5 移动端的页面长什么样:

为什么选这个网址而不是PC端的页面呢?因为PC端的页面每向下滑动三次需要跳页,操作要繁琐一些,而且 selenium 容易因为失去焦点导致跳转失败,我也没找到很好的解决方法,而 html5 移动端的页面多次滑动到底便可以获得所有动态信息,不需要跳页,所以要简单很多。

再来看看使用 selenium 如何操作浏览器滑动到底,下面是相关的处理函数,这个函数将 web 页面滑动多次直到无法再滑动(即滑动到底了)并使用正则表达式提取出动态和动态发布时间:

#获取用户所有动态信息和动态发布时间并返回
def execute_times(driver):
    dynamic = []
    T = []
    d = re.compile(r'og"><div class="weibo-text">(.*?)<', re.S)  # 匹配动态
    t = re.compile(r'<span class="time">(.*?)<', re.S)  # 匹配动态发布时间
	
	#返回滚动高度
    last_height = driver.execute_script("return document.body.scrollHeight")

    while True:
        # 滑动一次
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

        # 等待加载
        time.sleep(random.random())

        # 计算新的滚动高度并与上一个滚动高度进行比较
        new_height = driver.execute_script("return document.body.scrollHeight")
        if new_height == last_height:
            break
        last_height = new_height

    html = driver.page_source

    dynamic += re.findall(d, html)
    T += re.findall(t, html)
    return dynamic, T #返回用户所有动态信息和动态发布时间列表
复制代码

得到用户所有动态信息和动态发布时间列表以后,其他处理和前一篇文章类似,在此不再累述,详情请见源码 weibo_spider.py

因为每次运行程序都需要弹出浏览器窗口,而且速度较慢,所以可以将浏览器设置成无头模式:

#Chrome
opt = webdriver.ChromeOptions()  # 创建chrome参数对象
opt.set_headless()  # 把chrome设置成无头模式,不论windows还是linux都可以,自动适配对应参数
driver = webdriver.Chrome(options=opt)#不制定options选项则是普通有头浏览器

#Firefox
opt = webdriver.FirefoxOptions()  
opt.set_headless() 
driver = webdriver.Firefox(options=opt)
复制代码

至此模拟登录并爬取信息方法介绍完毕。

源码地址:https://github.com/starFalll/Spider

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫实战(二):Selenium 模拟登录并爬取信息 的相关文章

随机推荐

  • 树莓派4B之Windows XP系统安装游戏(二)

    上一篇博文 树莓派4B之Windows XP系统安装游戏 一 上上篇博文 树莓派4B安装windows xp windows 95 windows xp windows 95 for raspberry pi 4B 目录 一 获取游戏下载途
  • re模块----你也可以玩得很溜正则表达式

    目录 re模块 compile pattern flags 0 flag匹配模式 match pattern string flags 0 search pattern string flags 0 findall pattern stri
  • java file类总结

    直入正题 代码 自己可以复制去看 里面主要 介绍了文件的File类的新建 删除 重命等操作 以及File文件的属性方法 package com gx iodemo import java awt BufferCapabilities Fli
  • APP漏洞挖掘(二)同开发商的多款APP存在通用漏洞

    0x01 前言 测某一APP时 根据信息收集 测试 发现APP的后台系统存在SQL注入 XSS 弱口令 信息泄漏等漏洞 此APP本身存在逻辑漏洞与SQL注入漏洞 再通过观察酷传搜索的结果发现此APP开发商开发了三十几个APP 猜测可能存在相
  • video-09-video音频视频 进度条无法正常使用问题

    开发过程中遇到了 进度条无法使用 吓我一跳 还以为是开发有问题呢 目录 一 现象 二 原因 三 解决 一 现象 网页播放器能够正常播放文件 但是播放器的进度条只能显示进度 没办法拖动 二 原因 视频url链接缺少响应头 三 解决 https
  • Allegro整体旋转

    1 激活MOVE命令 然后在Options栏Point选择User Pick 在Find栏勾上所有ALL ON 2 空白处 右击选中Temp Group 3 选中要旋转的部分 右击选中Complete 4 点击一点作为User Pick旋转
  • spi总线之通信原理及linux驱动读写实现

    一 SPI简介 1 SPI 全称SerialPerripheral Interface 也就是串行外围设备接口 是一种高速全双工穿的同步通信总线 SPI时钟频率相比I2C要高得多 最高可以达到上百MHz SPI以主从方式工作 通常是一个主设
  • CM4 启用SPI6(cs0)

    vim boot config txt dtparam spi on dtoverlay spi6 1cs cs0 pin 18
  • VS2022+PCL1.13.0配置保姆级教程

    文章目录 VS2022 PCL1 13 0配置保姆级教程 参考博客 1 VS和PCL的下载与安装 2 配置pcl环境变量 3 配置VS项目 属性 3 1 C C 常规 SDL检查 否 3 2 C C 语言 符合模式 否 3 3 C C 语言
  • 【blender】基础操作

    blender基础操作 相机视角跟随移动 n 打开右侧工具栏 视图 锁定相机到视图 进入四视图视角 ctrl alt q 选中物体进入合适观察视角 聚焦 物体回到世界中心 alt g 物体沿y轴移动6m g y 6 物体在xy平面上移动 g
  • Angular1.x规范

    原文地址 https github com johnpapa angular styleguide tree master a1 Angular规范 Angular Team Endorsed 非常感谢领导Angular团队的Igor Mi
  • python绘制混淆矩阵

    之前就了解过混淆矩阵 但是一直没有实践 今天刚好有数据实践一下 这里记录一下代码实现过程 方便以后查阅 python绘制混淆矩阵 matplotlib实现 sklearn实现 sklearn metrics ConfusionMatrixD
  • 我也来一个“羊了个羊”

    演示以及原理讲解 源码地址 https gitee com 13026118978 sheep asheep 实现 1 定义变量 动物数组 const animals export const configData animals 动物数组
  • JAVA中的权限限定修饰符

    今日份鼓励 改变世界的根本是在改变自己 目录 一 访问权限修饰符 二 public修饰符 三 protected修饰符 四 不使用修饰符 默认修饰符 五 private修饰符 六 类的访问修饰符不使用private与protected的原因
  • HTML5-单、多选框,按钮

    属性 说明 type 指定元素的类型 text password checkbox radio submit reset file hidden image和button 默认为text name 指定表单元素的名称 value 元素的初始
  • Qt的Line使用

    当使用Qt设计师拖动 Horizontal Line 或 Vertical Line 来作为widget的分割线时 如果要给分割线设置颜色并让其生效 必须设置 frameShadow 属性为 Plain 同时使用样式表设置该分割线的颜色为指
  • 培训Python三个月拿高薪?起底人工智能“速成班”忽悠大法

    python基础教程www pythonf com 学完Python 可以上天 零基础入门 小白三天也能学会 近期 社会上兴起了各种人工智能 速成 班 声称可以通过几个月的学习 实现 转行 和人生逆袭 记者调查发现 这类机构往往存在讲师资质
  • h5 canvas绘制网络图片并导出

    html部分
  • win11 安装arcgis 10.8 arcMap 发生错误无法启动

    今天安装arcgis 10 5与arcGIS 10 8 遇到 arcMap 无法启动 弹窗应用程序出现错误 无法启动 期间百度google了各种 从删文档模板 改python2 7注册名 删安装目录文件等各种操作均无效 后面根据GIS知乎的
  • 爬虫实战(二):Selenium 模拟登录并爬取信息

    前叙 系列文章 爬虫实战 一 爬取微博用户信息 爬虫实战 二 Selenium 模拟登录并爬取信息 爬虫实战 三 微博用户信息分析 该系列文章介绍了什么 1 爬虫分析和处理方法 2 Python中的数据库操作方法 3 Selenium浏览器