python爬虫返回百度安全验证

2023-11-16

我一开始用的是requests库,header加了accept和user-agent,这是一开始的代码:

import requests

headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36',
}

url = "https://www.baidu.com/s?wd=python"
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'
print(response.text)

 返回结果:

然后我用urllib.request试了一下

import urllib.request

headers = {
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36 Edg/83.0.478.50',
     'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9'
}

url = "https://www.baidu.com/s?wd=python"

req = urllib.request.Request(url=url, headers=headers)
html = urllib.request.urlopen(req).read().decode('UTF-8')

# with open(r'new.html', mode='w',encoding='utf-8') as f:
#      f.write(html)
print(html)

# with open('new.html', mode='rb') as f:
#      #f.read()
#      html = f.read().decode("utf-8")
#      soup = BeautifulSoup(html, 'html.parser')
#      bs = soup.select('#content_left')
#      print(bs)
#      f.close()

 就可以返回了...

大概因为requests是第三方库比较容易被识别?哪位大神知道可以在评论区告诉我一下怎么用requests绕过吗(〃'▽'〃)

再一个问题,爬虫是不是也跟浏览器的版本有关系?我和上面这个header的区别也就是浏览器版本不一样吧


#这个是我自己浏览器的header,不管是requests还是urllib.request都是拿不到的
headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36',
# }

ps:如果请求参数想加中文的话,可以用quote

from urllib.parse import quote
text = quote("从万米高空降临", 'utf-8') #把中文进行url编码
url = "https://www.baidu.com/s?wd="+ text

===更新==============2023.07.02=====================

感谢评论区友友的提示!我这边尝试了一下直接换http协议,不行;想起了之前我试过的headers里面加Cookie,用http协议请求成功(这个我直接用的高版本chrome的User-Agent)~~

实现如下:

 urllib.request同理,headers里面加Cookie,用http请求,User-Agent高版本同样可行。如图:

Cookie是浏览器f12随手拿的:

之前查过很多文章都说加cookie就可以了,但是我怎么试都不行,没想到换个http协议就ok了,果然我还是学的太浅了

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫返回百度安全验证 的相关文章

随机推荐

  • LevelDB源码分析之内存管理类arena

    LevelDB源码分析之内存管理类arena Leveldb的大部分内存管理依赖于C 语言的默认实现 也就是不对内存进行管理 只是在memtable的实现中用到了一个简单的内存管理器 arena 因为memtable的内部实现skip li
  • ElasticSearch6.x 之路由规则

    1 创建文档指定路由 语法规则 http elasticsearch 服务器访问地址 索引名称 文档名称 文档主键编号 routing 路由名称 Put请求 携带文档属性参数 实列 http 192 168 1 74 9200 shoppi
  • @Override异常

    文章目录 异常 异常 异常现象 导入一个新的maven项目发现很奇怪的一个bug 提示错误 Override is not allowed when implementing interface method 异常原因 Override从j
  • PAT乙级1057 数零壹 (20 分)

    1057 数零壹 20 分 一 问题描述 给定一串长度不超过 10 5 的字符串 本题要求你将其中所有英文字母的序号 字母 a z 对应序号 1 26 不分大小写 相加 得到整数 N 然后再分析一下 N 的二进制表示中有多少 0 多少 1
  • 使用Java实现JDBC 驱动程序,连接本地文件

    要使用Java实现JDBC驱动程序以连接您的本地文件 您可以使用H2数据库提供的嵌入式数据库引擎 import java sql import java util Properties public class LocalFileDrive
  • 回归评估指标:MSE、R2

    原数据标签 预测结果 平均值 1 均方误差 MSE Mean Squared Error 2 均方根误差 RMSE 对MSE开平方 3 R2 R Square 注 R2一般取 0 1 0表示拟合效果不好 如果出现负值 首先考虑数据集是否有问
  • 读书笔记 -《Python 黑帽子》 ( 二 )

    读书笔记系列文章 一直都在读书 读了忘 忘了再读 不如把每次学到的东西都写下来 第三章 网络 原始套接字和流量嗅探 我的工作内容就是用C 语言写嗅探工具和 DPI 基本的工作原理和本章的内容是非常相似的 所以理解起来会比较容易一些 arp
  • Java计算当天剩余秒、当月剩余天

    日常开发中会遇到关于日期的计算比如 当天剩余的秒数 当月的天数 当月剩余天数等等 实现思路 获取当天剩余的秒数 获取当月的天数 获取当天是是这个月的第几天 计算两个时间的差值 代码如下 LocalDateTime midnight Loca
  • ubuntu安装ElasticSearch-head插件

    插件安装 1 下载插件 默认你已经安装git git clone https github com mobz elasticsearch head git 2 检查是否安装node node v 如果没有安装 先安装python sudo
  • 0.43 版本frp 穿透后 404,内网访问正常

    解决办法 把 frps ini 中 common 块中加的 vhost http port 6001 删除就好 nginx 配置 6001 端口 然后 frpc ini 配置如下 web type http local ip 127 0 0
  • ConcurrentHashMap原理,jdk7和jdk8版本的区别

    jdk7 分段锁 数据结构 ReentrantLock Segment HashEntry 一个Segment中包含一个HashEntry数组 每个 HashEntry又是一个链表结构 元素查询 二次hash 第一次Hash定位到Segme
  • 记录一次优化运行时间的经验,QTableWidget竟有这么大的坑

    前两天接到一个任务 一个VS2015 qt5 osgEarth实现的项目 在向osgEarth场景中添加卫星时 用时过长 首先看一下代码逻辑 点击 添加 按钮并选择要添加的卫星后 我选择了七百多颗卫星 先将卫星相关参数添加到QTableWi
  • JS document.write()换行

    一开始想到的是用 n 未能达到换行效果 通过多个参数实现换行效果 通过传递多个参数 即可实现换行效果 document write br ar 效果 示例源码
  • Qt实战 信号槽有哪些连接方式?

    相信大多数面试过Qt的同学都会被问的问题 是的 因为在Qt的世界中 这简直太太太基础啦 而你只知道Qt AutoConnection 从未关心过其他连接方式 如果被我说中了 那就耐心看完吧 Qt AutoConnection 自动连接 这是
  • 七大排序算法

    目录 直接插入排序 希尔排序 直接选择排序 堆排序 冒泡排序 快速排序 快速排序优化 非递归实现快速排序 归并排序 非递归的归并排序 排序 所谓排序 就是使一串记录 按照其中的某个或某些关键字的大小 递增或递减的排列起来的操作 常见的排序算
  • redis基础4——RDB持久化、AOF持久化全面深入解读

    文章目录 一 redis持久化机制 1 1 持久化的背景 1 2 两种持久化概念 1 2 1 快照方式 RDB 1 2 2 文件追加方式 AOF 1 3 rdb持久化 Redis Database 1 3 1 快照原理 1 3 2 触发机制
  • 组合聚合的概念

    聚合的概念 聚合 Aggregation 关系是关联关系的一种 是强的关联关系 聚合是整体和个体之间的关系 例如 汽车类与引擎类 轮胎类 以及其它的零件类之间的关系便整体和个体的关系 聚合关系也是通过实例变量实现的 在聚合关系中 两个类是处
  • shell脚本中遇到错误时中断程序运行,不再执行后面的程序

    shell脚本中遇到错误时中断程序运行 不再执行后面的程序 当你在脚本中写了一连串的代码时 如果后面的代码需要前面代码执行正确才能继续执行时 你可以使用set e vim test sh新建一个脚本文件 bin bash 设置程序出错时不再
  • 【软件工程】静态测试与动态测试

    静态测试 桌前检查 代码走查 代码审查 动态测试 黑盒测试 等价类划分 确定无效与有效等价类 设计用例尽可能多的覆盖有效类 设计用例只覆盖一个无效类 边界值分析 处理边界情况时最容易出错 选取的测试数据应该恰等于 稍小于或稍大于边界值 错误
  • python爬虫返回百度安全验证

    我一开始用的是requests库 header加了accept和user agent 这是一开始的代码 import requests headers Accept text html application xhtml xml appli