python爬虫返回百度安全验证

2023-11-16

我一开始用的是requests库，header加了accept和user-agent，这是一开始的代码：

import requests

headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36',
}

url = "https://www.baidu.com/s?wd=python"
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'
print(response.text)

返回结果：

然后我用urllib.request试了一下

import urllib.request

headers = {
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36 Edg/83.0.478.50',
     'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9'
}

url = "https://www.baidu.com/s?wd=python"

req = urllib.request.Request(url=url, headers=headers)
html = urllib.request.urlopen(req).read().decode('UTF-8')

# with open(r'new.html', mode='w',encoding='utf-8') as f:
#      f.write(html)
print(html)

# with open('new.html', mode='rb') as f:
#      #f.read()
#      html = f.read().decode("utf-8")
#      soup = BeautifulSoup(html, 'html.parser')
#      bs = soup.select('#content_left')
#      print(bs)
#      f.close()

就可以返回了...

大概因为requests是第三方库比较容易被识别？哪位大神知道可以在评论区告诉我一下怎么用requests绕过吗(〃'▽'〃)

再一个问题，爬虫是不是也跟浏览器的版本有关系？我和上面这个header的区别也就是浏览器版本不一样吧


#这个是我自己浏览器的header，不管是requests还是urllib.request都是拿不到的
headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36',
# }

ps:如果请求参数想加中文的话，可以用quote

from urllib.parse import quote
text = quote("从万米高空降临", 'utf-8') #把中文进行url编码
url = "https://www.baidu.com/s?wd="+ text

===更新==============2023.07.02=====================

感谢评论区友友的提示！我这边尝试了一下直接换http协议，不行；想起了之前我试过的headers里面加Cookie，用http协议请求成功（这个我直接用的高版本chrome的User-Agent）~~

实现如下：

urllib.request同理，headers里面加Cookie，用http请求，User-Agent高版本同样可行。如图：

Cookie是浏览器f12随手拿的：

之前查过很多文章都说加cookie就可以了，但是我怎么试都不行，没想到换个http协议就ok了，果然我还是学的太浅了

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

python爬虫返回百度安全验证的相关文章

如何跳过财务图中的空日期（周末）

ax plot date dates dates highs lows 我目前正在使用此命令来绘制财务高点和低点Matplotlib http en wikipedia org wiki Matplotlib 效果很好但如何删除 x 轴上
如何在 kubernetes 上使多个 pod 相互通信

我是 Kubernetes 新手我正在尝试通过 microk8s 将应用程序部署到 Kubernetes 该应用程序包含Python Flask后端 Angular前端 Redis和MySQL数据库我将映像部署在多个 Pod 中状态显
HoughLinesP后如何合并线？

My task is to find coordinates of lines startX startY endX endY and rectangles 4 lines Here is input file 我使用下一个代码 img c
Python Pandas 从宽到长的格式更改以及列标题拆分

我有一个包含以下列标题和行示例的表 Subject Test1 Result1 Test1 Result2 Test2 Result1 Test2 Result2 0 John 10 0 5 20 0 3 我想将其改造成 Subject l
Python pandas：删除字符串中分隔符之后的所有内容

我有数据框其中包含例如 vendor a ProductA vendor b ProductA vendor a Productb 我需要删除所有内容包括两个以便我最终得到 vendor a vendor b vendor a 我尝
来自数据框 groupby 的条形图

import pandas as pd import numpy as np import matplotlib pyplot as plt df pd read csv arrests csv df df replace np nan 0
获取 HTML 代码的结构

我正在使用 BeautifulSoup4 我很好奇是否有一个函数可以返回 HTML 代码的结构有序标签这是一个例子 h1 Simple example h1 p This is a simple example of html page
将查询参数添加到 URL

我正在尝试自动从网站下载数据我需要将动态参数传递到每天更改的站点 html 的结构是表格而不是表单如何传递参数并从 url 获取结果这是我尝试过的它需要在 python 2 7 中 import urllib url https d
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
Numpy 通过一个数组的值总结另一个数组

我正在尝试找到一种矢量化方法来完成以下任务假设我有一个 x 和 y 值的数组请注意 x 值并不总是整数并且可以为负数 import numpy as np x np array 1 1 1 3 2 2 2 5 4 4 dtype flo
当我打印“查询”时获取 PY_VAR1

我正在制作一个简单的网络抓取代码当我尝试打印一个值时它给了我其他东西 def PeopleSearch query SearchTerm query what is query print str query SearchTerm St
django 中的“管理器”是什么？

我已经阅读了Django官方中的定义文档 https docs djangoproject com en dev topics db managers 我仍然对什么感到困惑Manager does 文档说它们允许您操作数据库表模型但我仍
让 TensorFlow 在 ARM Mac 上使用 GPU

我已经安装了TensorFlow在 M1 上 ARM Mac 根据这些说明 https github com apple tensorflow macos issues 153 一切正常然而模型训练正在进行CPU 如何将培训切换到GPU
Python：使用for循环更改变量后缀

我知道这个问题被问了很多但到目前为止我无法使用理解答案我想改变for循环中变量的后缀我尝试了 stackoverflow 搜索提供的所有答案但很难理解提问者经常提出的具体代码因此为了清楚起见我使用一个简单的示例这并不意味着
使用 plone.api 创建文件的 Python 脚本在设置文件时出现错误 WrongType

Dears 我正在创建一个脚本python来在Plone站点中批量上传文件安装是UnifiedInstaller Plone 4 3 10 该脚本读取了一个txt 并且该txt以分号分隔在新创建的项目中设置文件时出现错误下面是脚本 f
如何使用 Ajax 在 Flask 中发布按钮值而不刷新页面？

我有一个问题当我单击 Flask 应用程序中的按钮时我想避免重新加载我知道有 Ajax 解决方案但我想知道如何将我的按钮链接到 ajax 函数以发布按钮值并运行链接到其值的 python 函数这是我的 html 按钮 div di
如何从外语线程调用Python函数（C++）

我正在开发一个程序使用 DirectShow 来抓取音频数据媒体文件 DirectShow 使用线程将音频数据传递给回调我的程序中的函数然后我让该回调函数调用另一个函数 Python 中的函数我使用 Boost Python 来包
用户的完整 UNIX 用户名

想知道您是否知道是否有一种巧妙的方法可以从 shell 获取完整的用户名示例如果我的 UNIX 用户名是 froyo 那么我想获取我的全名在本例中如系统中注册的那样 froyo Abhishek Pratap Finger 命令可以
Django 迁移错误 'TypeError: 序列项 1: 需要一个类似字节的对象，在 mysql-connector-pythoncursor_cent.py 文件上找到 str'

我正在 Django 项目中使用 mysql connector 来处理 mysql 请求问题是我正在使用 django admin startproject project 设置一个简单的项目当我尝试进行简单的管理 py 迁移时这是
使用Python的线程模块调用ctypes函数比使用多处理更快？

我一生都无法找出这个问题的答案我编写了一个可以执行数百次繁重计算的脚本我有一个绝妙的主意将这些计算任务编写为 C 然后使用 Python 的 ctypes 与它们交互我心想我什至可以使用并行性进一步优化它我最初的方法是使用线程

随机推荐

LevelDB源码分析之内存管理类arena

LevelDB源码分析之内存管理类arena Leveldb的大部分内存管理依赖于C 语言的默认实现也就是不对内存进行管理只是在memtable的实现中用到了一个简单的内存管理器 arena 因为memtable的内部实现skip li
ElasticSearch6.x 之路由规则

1 创建文档指定路由语法规则 http elasticsearch 服务器访问地址索引名称文档名称文档主键编号 routing 路由名称 Put请求携带文档属性参数实列 http 192 168 1 74 9200 shoppi
@Override异常

文章目录异常异常异常现象导入一个新的maven项目发现很奇怪的一个bug 提示错误 Override is not allowed when implementing interface method 异常原因 Override从j
PAT乙级1057 数零壹 (20 分)

1057 数零壹 20 分一问题描述给定一串长度不超过 10 5 的字符串本题要求你将其中所有英文字母的序号字母 a z 对应序号 1 26 不分大小写相加得到整数 N 然后再分析一下 N 的二进制表示中有多少 0 多少 1
使用Java实现JDBC 驱动程序，连接本地文件

要使用Java实现JDBC驱动程序以连接您的本地文件您可以使用H2数据库提供的嵌入式数据库引擎 import java sql import java util Properties public class LocalFileDrive
回归评估指标：MSE、R2

原数据标签预测结果平均值 1 均方误差 MSE Mean Squared Error 2 均方根误差 RMSE 对MSE开平方 3 R2 R Square 注 R2一般取 0 1 0表示拟合效果不好如果出现负值首先考虑数据集是否有问
读书笔记 -《Python 黑帽子》 ( 二 )

读书笔记系列文章一直都在读书读了忘忘了再读不如把每次学到的东西都写下来第三章网络原始套接字和流量嗅探我的工作内容就是用C 语言写嗅探工具和 DPI 基本的工作原理和本章的内容是非常相似的所以理解起来会比较容易一些 arp
Java计算当天剩余秒、当月剩余天

日常开发中会遇到关于日期的计算比如当天剩余的秒数当月的天数当月剩余天数等等实现思路获取当天剩余的秒数获取当月的天数获取当天是是这个月的第几天计算两个时间的差值代码如下 LocalDateTime midnight Loca
ubuntu安装ElasticSearch-head插件

插件安装 1 下载插件默认你已经安装git git clone https github com mobz elasticsearch head git 2 检查是否安装node node v 如果没有安装先安装python sudo
0.43 版本frp 穿透后 404，内网访问正常

解决办法把 frps ini 中 common 块中加的 vhost http port 6001 删除就好 nginx 配置 6001 端口然后 frpc ini 配置如下 web type http local ip 127 0 0
ConcurrentHashMap原理，jdk7和jdk8版本的区别

jdk7 分段锁数据结构 ReentrantLock Segment HashEntry 一个Segment中包含一个HashEntry数组每个 HashEntry又是一个链表结构元素查询二次hash 第一次Hash定位到Segme
记录一次优化运行时间的经验，QTableWidget竟有这么大的坑

前两天接到一个任务一个VS2015 qt5 osgEarth实现的项目在向osgEarth场景中添加卫星时用时过长首先看一下代码逻辑点击添加按钮并选择要添加的卫星后我选择了七百多颗卫星先将卫星相关参数添加到QTableWi
JS document.write()换行

一开始想到的是用 n 未能达到换行效果通过多个参数实现换行效果通过传递多个参数即可实现换行效果 document write br ar 效果示例源码
Qt实战信号槽有哪些连接方式？

相信大多数面试过Qt的同学都会被问的问题是的因为在Qt的世界中这简直太太太基础啦而你只知道Qt AutoConnection 从未关心过其他连接方式如果被我说中了那就耐心看完吧 Qt AutoConnection 自动连接这是
七大排序算法

目录直接插入排序希尔排序直接选择排序堆排序冒泡排序快速排序快速排序优化非递归实现快速排序归并排序非递归的归并排序排序所谓排序就是使一串记录按照其中的某个或某些关键字的大小递增或递减的排列起来的操作常见的排序算
redis基础4——RDB持久化、AOF持久化全面深入解读

文章目录一 redis持久化机制 1 1 持久化的背景 1 2 两种持久化概念 1 2 1 快照方式 RDB 1 2 2 文件追加方式 AOF 1 3 rdb持久化 Redis Database 1 3 1 快照原理 1 3 2 触发机制
组合聚合的概念

聚合的概念聚合 Aggregation 关系是关联关系的一种是强的关联关系聚合是整体和个体之间的关系例如汽车类与引擎类轮胎类以及其它的零件类之间的关系便整体和个体的关系聚合关系也是通过实例变量实现的在聚合关系中两个类是处
shell脚本中遇到错误时中断程序运行,不再执行后面的程序

shell脚本中遇到错误时中断程序运行不再执行后面的程序当你在脚本中写了一连串的代码时如果后面的代码需要前面代码执行正确才能继续执行时你可以使用set e vim test sh新建一个脚本文件 bin bash 设置程序出错时不再
【软件工程】静态测试与动态测试

静态测试桌前检查代码走查代码审查动态测试黑盒测试等价类划分确定无效与有效等价类设计用例尽可能多的覆盖有效类设计用例只覆盖一个无效类边界值分析处理边界情况时最容易出错选取的测试数据应该恰等于稍小于或稍大于边界值错误
python爬虫返回百度安全验证

我一开始用的是requests库 header加了accept和user agent 这是一开始的代码 import requests headers Accept text html application xhtml xml appli

python爬虫返回百度安全验证

python爬虫返回百度安全验证 的相关文章

随机推荐

热门标签

python爬虫返回百度安全验证的相关文章