【Python3爬虫(四)】【urlib.request模块】【ssl认证+cookies(字符串类型转换、session)】

2023-11-15

上一篇：【Python3爬虫(三)】【urlib.request模块】【cookie+Request】

++++++++++开始线++++++++++++++++++

文章目录

一、 ssl认证
二、 cookies
- 2.1 字符串类型转换
- 2.2 session

一、 ssl认证

03-requests_ssl.py

import requests
import urllib3

url = 'https://www.12306.cn/mormhweb/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/70.0.3538.67 Safari/537.36 '
}

# 因为https是有第三方CA证书认证的
# 但是12306虽然是https,但是它不是CA证书, 他是自己颁布的证书
# 解决方法是:告诉 web忽略证书访问

# 移除认证后控制台总是抛出警告
# InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly
# advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
requests.packages.urllib3.disable_warnings()

# Python3访问HTTPS时移除SSL认证
response = requests.get(url=url, headers=headers, verify=False)
data = response.content.decode()

with open('03-ssl.html', 'w', encoding='utf-8') as f:
    f.write(data)

二、 cookies

2.1 字符串类型转换

04-requests_cookies.py
在这里插入图片描述

import requests

# 请求数据url
member_url = 'https://www.yaozh.com/member/'

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/70.0.3538.67 Safari/537.36 '
}

# 'https://www.yaozh.com/member/'的headers里的cookie
# cookies的字符串
cookies = '_ga=GA1.2.1820447474.1535025127; MEIQIA_EXTRA_TRACK_ID=199Tty9OyANCXtHaSobJs67FU7J; ' \
          'WAF_SESSION_ID=7d88ae0fc48bffa022729657cf09807d; PHPSESSID=70kadg2ahpv7uuc8docd09iat4; ' \
          '_gid=GA1.2.133568065.1540383729; _gat=1; MEIQIA_VISIT_ID=1C1OdtdqpgpGeJ5A2lCKLMGiR4b; ' \
          'yaozh_logintime=1540383753; yaozh_user=381740%09xiaomaoera12; yaozh_userId=381740; ' \
          'db_w_auth=368675%09xiaomaoera12; UtzD_f52b_saltkey=ylH82082; UtzD_f52b_lastvisit=1540380154; ' \
          'UtzD_f52b_lastact=1540383754%09uc.php%09; ' \
          'UtzD_f52b_auth=f958AVKmmdzQ2CWwmr6GMrIS5oKlW%2BkP5dWz3SNLzr%2F1b6tOE6vzf7ssgZDjhuXa2JsO%2FIWtqd' \
          '%2FZFelWpPHThohKQho; yaozh_uidhas=1; yaozh_mylogin=1540383756; ' \
          'MEIQIA_EXTRA_TRACK_ID=199Tty9OyANCXtHaSobJs67FU7J; WAF_SESSION_ID=7d88ae0fc48bffa022729657cf09807d; ' \
          'Hm_lvt_65968db3ac154c3089d7f9a4cbb98c94=1535025126%2C1535283389%2C1535283401%2C1539351081%2C1539512967' \
          '%2C1540209934%2C1540383729; MEIQIA_VISIT_ID=1C1OdtdqpgpGeJ5A2lCKLMGiR4b; ' \
          'Hm_lpvt_65968db3ac154c3089d7f9a4cbb98c94=1540383761 '

# 需要的是字典类型，将cookies字符串类型转换为字典类型
cook_dict = {}
# 先用；拆分
cookies_list = cookies.split('; ')
for cookie in cookies_list:
    cook_dict[cookie.split('=')[0]] = cookie.split('=')[1]


# 字典推导式
cook_dict = {cookie.split('=')[0]: cookie.split('=')[1] for cookie in cookies.split('; ')}

response = requests.get(member_url, headers=headers, cookies=cook_dict)

data = response.content.decode()

with open('05-cookie.html', 'w', encoding='utf-8') as f:
    f.write(data)

2.2 session

05-requests_cookies2.py

import requests

# 请求数据url
member_url = 'https://www.yaozh.com/member/'

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/70.0.3538.67 Safari/537.36 '
}
# session类可以自动保存cookies，可以理解为cookiesJar
session = requests.session()
# 1.代码登录
login_url = 'https://www.yaozh.com/login'
login_form_data = {
    'username': 'xiaomaoera12',
    'pwd': 'lina081012',
    'formhash': '54AC1EE419',
    'backurl': 'https%3A%2F%2Fwww.yaozh.com%2F',
}
login_response = session.post(login_url, data=login_form_data, headers=headers)
# print(login_response.content.decode())
# 2.登录成功之后，带着有效的cookies访问请求目标数据
data = session.get(member_url, headers=headers).content.decode()

with open('05-cookie2.html', 'w', encoding='utf-8') as f:
    f.write(data)

++++++++++结束线++++++++++++++++++

下一篇：【Python3爬虫(五)】【数据解析】【正则表达式】

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫

python

Session

SSL

Cookie

【Python3爬虫(四)】【urlib.request模块】【ssl认证+cookies(字符串类型转换、session)】的相关文章

在 python 的 Visual Studio 工具中按下 ctrl+F5 后，控制台窗口立即关闭

我已经安装了 Visual Studio 的 Python 工具但在控制台窗口中看不到输出就像我在 Visual Studio 中运行 C 控制台应用程序时按以下快捷键时看到的输出一样 F5 开始调试程序并关闭 C 和 Python 中
在 python 2 和 3 的spyder之间切换

根据我在文档中了解到的内容它指出您只需使用命令提示符创建一个新变量即可轻松在 2 个 python 环境之间切换如果我已经安装了 python 2 7 则 conda create n python34 python 3 4 anaco
如何在算术表达式的结果上添加 SQLAlchemy 标签？

我如何将这样的东西翻译成 SQLAlchemy select x y as difference 我知道该怎么做 x label foo 但我不确定在哪里放置下面的 label 方法调用 select table c x table c y
DataFrame 中的字符串，但 dtype 是对象

为什么 Pandas 告诉我我有对象尽管所选列中的每个项目都是一个字符串即使在显式转换之后也是如此这是我的数据框
将 Django 表单中的所有 CharField 表单字段输入转换为小写

我使用 Django 表单进行用户注册用户可以在其中输入优惠券代码我希望在优惠券代码字段中输入的所有字符都转换为小写我尝试过在保存方法自定义清理方法和自定义验证器中使用 lower 但这些方法没有运气下面是我的代码 class S
使用 Python 中的 IAM 角色访问 AWS API Gateway

我有一个 AWS API 网关我想使用它来保护其安全IAM 角色 http docs aws amazon com apigateway latest developerguide permissions html 我正在寻找一个包来帮助
使用 Python 抓取维基百科数据

我正在尝试从以下内容中检索 3 列 NFL 球队球员姓名大学球队维基百科页面 http en wikipedia org wiki 2008 NFL draft 我是 python 新手一直在尝试使用 beautifulsoup 来
以编程方式将列名称添加到 numpy ndarray

我正在尝试将列名称添加到 numpy ndarray 然后按名称选择列但这不起作用我无法判断问题是在添加名称时出现还是在稍后尝试调用它们时出现这是我的代码 data np genfromtxt csv file delimiter
在 Spring Boot application.properties 中指定信任存储信息

我在用springBoot版本1 2 0 RELEASE 我正在尝试通过配置我的密钥库和信任库application properties 当我添加以下设置时我可以使密钥库正常工作但不能使信任库正常工作 server ssl key s
如何将同步函数包装在异步协程中？

我在用着aiohttp https github com aio libs aiohttp构建一个 API 服务器将 TCP 请求发送到单独的服务器发送 TCP 请求的模块是同步的对于我来说是一个黑匣子所以我的问题是这些请求阻塞了整
如何解码 dtype=numpy.string_ 的 numpy 数组？

我需要使用 Python 3 解码按以下方式编码的字符串 gt gt gt s numpy asarray numpy string hello nworld gt gt gt s array b hello nworld dtype S1
如何在 Keras 中使用部分输入进行训练，其余部分用于损失函数

我是 Keras 新手正在尝试实现神经网络机器学习模型输入张量看起来像 X1 X2 和输出 Y 注意 X1 和 X2 是相关的在模型中只有 X1 将用于训练但 X1 和 X2 都将传递给损失函数该损失函数是 X1 X2 y pr
Matplotlib 将颜色图 tab20 更改为三种颜色

Matplotlib 有一些新的且非常方便的颜色图选项卡颜色图 https matplotlib org examples color colormaps reference html 我错过的是生成像 tab20b 或 tab20c 这
如何将reportlab与Google应用程序引擎一起使用

我无法在谷歌应用程序引擎下正确导入reportlab 根据以下guide http blog notdot net 2010 04 Generating PDFs on App Engine Python and introducing M
使用 pandas 绘制带有误差线的条形图

我正在尝试从 DataFrame 生成条形图如下所示 Pre Post Measure1 0 4 1 9 这些值是我从其他地方计算出来的中值我还有它们的方差和标准差以及标准误差我想将结果绘制为具有适当误差线的条形图但指定多个误差值
dask allocate() 或 apply() 中的变量列名

我有适用于pandas 但我在将其转换为使用时遇到问题dask 有一个部分解决方案here https stackoverflow com questions 32363114 how do i change rows and column
scrapy python 请求未定义

我在这里找到了答案 code for site in sites Link site xpath a href extract CompleteLink urlparse urljoin response url Link yield Re
Python“self”关键字[重复]

这个问题在这里已经有答案了我是 Python 新手通常使用 C 最近几天开始使用它在类中是否需要在对该类的数据成员和方法的任何调用前添加前缀因此如果我在该类中调用方法或从该类获取值我需要使用self method or sel
Django - 缺少 1 个必需的位置参数：'request'

我收到错误 get indiceComercioVarejista 缺少 1 个必需的位置参数要求当尝试访问 get indiceComercioVarejista 方法时我不知道这是怎么回事 views from django ht
如何将 Pandas Dataframe 中的字符串转换为字符列表或数组？

我有一个名为的数据框data 其中一列包含字符串我想从字符串中提取字符因为我的目标是对它们进行一次性编码并使之可用于分类包含字符串的列存储在预测因子如下 predictors pd DataFrame data columns Seq

随机推荐

python异步爬虫

本文主要包括以下内容线程池实现并发爬虫回调方法实现异步爬虫协程技术的介绍一个基于协程的异步编程模型协程实现异步爬虫线程池回调协程我们希望通过并发执行来加快爬虫抓取页面的速度一般的实现方式有三种线程池方式开一个线程池
2023华为od机试统一考试B卷【雨花石难题】

题目描述 MELON是一个热爱雨花石的人他拥有一堆数量为n的精美雨花石每块石头的重量都不相同现在 MELON想要将这些雨花石平均分给他的朋友S和W 以使两人所得到的石头的重量相等你需要设计一个程序来帮助MELON确认是否可以实现这
近期思维片段

1 感觉360这样的公司就是让少数明眼人讨厌让大多数人不知不觉接受 2 点子 lt 我买了 gt 购物分享把自己买过的经验分享出来 3 不要负面思维 No negative thinking 4 突然想起几年前那些熟悉的名字现在都没有
js匹配数组中对应的值_JS 数组中查找符合条件的数据索引

日常工作中经常会需要我们前端获取后端为我们传递的数据放在页面中渲染的问题大批量的数据后端会根据具体的情况来放在数组中传递给我们但是如果遇到数组中有需要特殊需要处理的数据怎么办原来100个数据渲染规则完全一致这个时候我们用一个循环就
阿里云服务器安装宝塔面板图文教程

购买完云服务器ECS后对于新手而言如何搭建Web环境是比较棘手的分享一款简单易用的主机面板宝塔面板分享阿里云服务器安装宝塔面板图文教程本文以 Linux云服务器 CentOS 7 4 64位系统为例一开放安全组端口什么是安全
【已解决】使用pyaudio内录声卡声音及相关问题

使用pyaudio内录声卡声音及相关问题解决目录使用pyaudio内录声卡声音及相关问题解决 1 实现代码 1 1 Recorder类 1 2 调用方法 2 问题一选择设备实现内录外录解决报错 OSError Errno 9999
java中的异常

throw和throws的区别相同都是用于做异常的抛出处理的不同点使用的位置 throws 使用在函数上 throw使用在函数内后面接受的内容的个数不同 throws 后跟的是异常类可以跟多个用逗号隔开 throws只声明异常
python中rsa解密_python中的RSA加密和J中的解密

我对密码学完全陌生我想从服务器端生成RSA密钥对并将其发送到所有客户端浏览器但在此之前我只需在python中加密数据并发送到索引 html文件并尝试用JavaScript解密问题是当我通过random generator Ran
CMake 用法导览

原文地址 http www cnblogs com coderfenghc archive 2013 01 20 2846621 html Preface 本文是CMake官方文档CMake Tutorial http www cmake
Unity中定时器的简易使用

定时器写法1 float total time void Update this total time Time deltaTime if total time gt 5 5秒后停止 return 定时器写法2 void Hello thi
Linux部署Tomcat无法访问

前言环境 RedHat7 0 Tomcat7 JDK7 安装配置成功之后启动tomcat服务然后使用本地浏览器访问http xx xx xx xx 8080 无法访问解决过程首先怀疑是配置问题终端输出 echo JAVA HOM
Java CSV文件读取、写入及追加工具类

Java CSV文件读取写入及追加工具类追加 FileOutputStream out new FileOutputStream file true 第二个参数true代表追加 CSVUtil java import lombok ex
计算机毕业设计-基于微信小程序高校学生课堂扫码考勤签到系统-校园考勤打卡签到小程序

注意该项目只展示部分功能如需了解评论区咨询即可本文目录 1 开发环境 2 系统的设计背景 3 各角色功能模块 3 1 用户 3 2 管理员 4 系统页面展示 4 1 学生端功能模块展示 4 2 教师端功能模块展示 5 更多推荐 6
【JavaScript数据结构与算法】字符串类（计算二进制子串）

个人简介个人主页前端杂货铺学习方向主攻前端方向也会涉及到服务端 Node js 个人状态在校大学生一枚已拿多个前端 offer 秋招未来打算为中国的工业软件事业效力 n 年推荐学习前端面试宝典 Vue2 Vue3 Vu
unity之跳一跳（完整版）

1 场景 1 creat gt 3D objict gt plane 并重命名为ground 做为地面如下图 2 并调整颜色大小至适合如下图调正颜色创建material project creat gt Material 用与当作
Prometheus热重启

Prometheus热重启启动prometheus时添加参数 web enable lifecycle nohup prometheus web enable lifecycle 然后热重启 dos下执行如下命令 curl XPOST
JS 条件判断if语句

1 流程控制 JS程序一般是按照书写的顺序来执行的这种运行称为顺序运行是程序流的默认方向与顺序运行不同的是另一种的运行将程序流转换到脚本的另外的部分也就是说不按照程序流运行下一条语句而是实现别的语句为了试这个脚本可以使用这个控
mysql-workbench使用中遇到的坑

1 mysql workbench的安装问题 1 弹出找不到C 的库解决 1 的确缺少了这个库按提示下载一个就好安装框的左下角有下载地址 2 有这个库但就是找不到可能是win10的问题 win10安装msi的文件需要管理员权限
JVM内存JAVA_OPTS参数说明

JAVA OPTS server Xms2048m Xmx2048m Xss512k server 一定要作为第一个参数在多个CPU时性能佳 Xms 初始Heap大小使用的最小内存 cpu性能高时此值应设的大一些 Xmx java he
【Python3爬虫(四)】【urlib.request模块】【ssl认证+cookies(字符串类型转换、session)】

上一篇 Python3爬虫三 urlib request模块 cookie Request 开始线文章目录一 ssl认证二 cookies 2 1 字符串类型转换 2 2 session 一 ssl认证 03 requests ss