requests.get()参数

2023-05-16

查询参数-params

1.参数类型

  字典,字典中键值对作为查询参数

2.使用方法


1、res = requests.get(url,params=params,headers=headers)
2、特点: 
   * url为基准的url地址,不包含查询参数
   * 该方法会自动对params字典编码,然后和url拼接  

3.示例


import requests

baseurl = 'http://tieba.baidu.com/f?'
params = {
  'kw' : '赵丽颖吧',
  'pn' : '50'
}
headers = {'User-Agent' : 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3)'}
# 自动对params进行编码,然后自动和url进行拼接,去发请求
res = requests.get(baseurl,params=params,headers=headers)
res.encoding = 'utf-8'
print(res.text)  

web客户端验证 参数-auth

1.作用类型


1、针对于需要web客户端用户名密码认证的网站
2、auth = ('username','password')  

2.通过用户名账号密码获取笔记名称案例


import requests
from lxml import etree
import os

class NoteSpider(object):
    def __init__(self):
        self.url = 'http://code.com.cn/Code/aid1904/redis/'
        self.headers = {'User-Agent':'Mozilla/5.0'}
        self.auth = ('code','code_2013')

    # 获取
    def get_html(self):
        html = requests.get(url=self.url,auth=self.auth,headers=self.headers).text
        return html

    # 解析提取数据 + 把笔记压缩包下载完成
    def parse_page(self):
        html = self.get_html()
        xpath_bds = '//a/@href'
        parse_html = etree.HTML(html)
        # r_list : ['../','day01','day02','redis_day01.zip']
        r_list = parse_html.xpath(xpath_bds)
        for r in r_list:
            if r.endswith('zip') or r.endswith('rar'):
                print(r)

if __name__ == '__main__':
    spider = NoteSpider()
    spider.parse_page()  

思考:爬取具体的笔记文件?


import requests
from lxml import etree
import os

class NoteSpider(object):
    def __init__(self):
        self.url = 'http://code.com.cn/Code/redis/'
        self.headers = {'User-Agent':'Mozilla/5.0'}
        self.auth = ('code','code_2013')

    # 获取
    def get_html(self):
        html = requests.get(url=self.url,auth=self.auth,headers=self.headers).text
        return html

    # 解析提取数据 + 把笔记压缩包下载完成
    def parse_page(self):
        html = self.get_html()
        xpath_bds = '//a/@href'
        parse_html = etree.HTML(html)
        # r_list : ['../','day01','day02','redis_day01.zip']
        r_list = parse_html.xpath(xpath_bds)
        for r in r_list:
            if r.endswith('zip') or r.endswith('rar'):
                file_url = self.url + r
                self.save_files(file_url,r)

    def save_files(self,file_url,r):
        html_content = requests.get(file_url,headers=self.headers,auth=self.auth).content
        # 判断保存路径是否存在
        directory = '/home/redis/'
        filename = directory + r
     #适用频率很高
     #if not os.path.exists('路径'):
     #  os.makedirs('路径') 可递归创建
     #  os.mkdir('路径')不能递归创建
if not os.path.exists(directory): os.makedirs(directory)
     with open(filename,
'wb') as f: f.write(html_content) print(r,'下载成功') if __name__ == '__main__': spider = NoteSpider() spider.parse_page()

SSL证书认证参数-verify

1.适用网站及场景


1、适用网站: https类型网站但是没有经过 证书认证机构 认证的网站
2、适用场景: 抛出 SSLError 异常则考虑使用此参数  

2.参数类型


1、verify=True(默认)   : 检查证书认证
2、verify=False(常用): 忽略证书认证
# 示例
response = requests.get(
    url=url,
    params=params,
    headers=headers,
    verify=False
)  

代理参数-proxies 

1.定义


1、定义: 代替你原来的IP地址去对接网络的IP地址。
2、作用: 隐藏自身真实IP,避免被封。  

2.普通代理

  获取代理IP网站


西刺代理、快代理、全网代理、代理精灵、... ...   

  参数类型


1、语法结构
       proxies = {
           '协议':'协议://IP:端口号'
       }
2、示例
    proxies = {
        'http':'http://IP:端口号',
        'https':'https://IP:端口号'
    }  

  示例代码

    (1)使用免费普通代理IP访问测试网站: http://httpbin.org/get


import requests

url = 'http://httpbin.org/get'
headers = {
    'User-Agent':'Mozilla/5.0'
}
# 定义代理,在代理IP网站中查找免费代理IP
proxies = {
    'http':'http://112.85.164.220:9999',
    'https':'https://112.85.164.220:9999'
}
html = requests.get(url,proxies=proxies,headers=headers,timeout=5).text
print(html)  

    考: 建立一个自己的代理IP池,随时更新用来抓取网站数据


1.从代理IP网站上,抓取免费的代理IP
2.测试抓取的IP,可用的保存在文件中  

    (2)一个获取收费开放代理的接口


# 获取开放代理的接口
import requests

def test_ip(ip):
    url = 'http://www.baidu.com/'
    proxies = {
        'http':'http://{}'.format(ip),
        'https':'https://{}'.format(ip),
    }
    try:
        res = requests.get(url=url,proxies=proxies,timeout=8)
        if res.status_code == 200:
               return True
       except Exception as e:
               return False

# 提取代理IP
def get_ip_list():
  api_url = 'http://dev.kdlapi.com/api/getproxy/?orderid=946562662041898&num=100&protocol=1&method=2&an_an=1&an_ha=1&sep=2'
  html = requests.get(api_url).content.decode('utf-8','ignore')
  ip_port_list = html.split('\n')

  for ip in ip_port_list:
    with open('proxy_ip.txt','a') as f:
        if test_ip(ip):
            f.write(ip + '\n')

if __name__ == '__main__':
    get_ip_list()  
实现代码

    (3)使用随机收费开放代理IP写爬虫


import random
import requests

class BaiduSpider(object):
    def __init__(self):
        self.url = 'http://www.baidu.com/'
        self.headers = {'User-Agent' : 'Mozilla/5.0'}
        self.blag = 1

    def get_proxies(self):
        with open('proxy_ip.txt','r') as f:
            #f.readlines:['1.1.1.1:111\n','2.2.2.2:22\n']
            result = f.readlines()
        #[:-1] -> 切掉ip,port后的\n
        proxy_ip = random.choice(result)[:-1]
        proxy_ip = {
            'http':'http://{}'.format(proxy_ip),
            'https': 'https://{}'.format(proxy_ip)
        }
        return proxy_ip

    def get_html(self):
        proxies = self.get_proxies()
        if self.blag <= 3:
            try:
                html = requests.get(url=self.url,proxies=proxies,headers=self.headers,timeout=5).text
                print(html)
            except Exception as e:
                print('Retry')
                self.blag += 1
                self.get_html()

if __name__ == '__main__':
    spider = BaiduSpider()
    spider.get_html()  
实现代码

3.私密代理

  语法格式


1、语法结构
proxies = {
    '协议':'协议://用户名:密码@IP:端口号'
}

2、示例
proxies = {
    'http':'http://用户名:密码@IP:端口号',
    'https':'https://用户名:密码@IP:端口号'
}  

  示例代码


import requests
url = 'http://httpbin.org/get'
proxies = {
    'http': 'http://309435365:szayclhp@106.75.71.140:16816',
    'https':'https://309435365:szayclhp@106.75.71.140:16816',
}
headers = {
    'User-Agent' : 'Mozilla/5.0',
}

html = requests.get(url,proxies=proxies,headers=headers,timeout=5).text
print(html)  

urllib和urllib2关系


#python2
urllib :URL地址编码
urllib2:请求
#python3 - 把python2中urllib和urllib2合并
urllib.parse:编码
urllib.requests: 请求  

控制台抓包

打开方式几常用选项


1、打开浏览器,F12打开控制台,找到Network选项卡
2、控制台常用选项
   1、Network: 抓取网络数据包
        1、ALL: 抓取所有的网络数据包
        2、XHR:抓取异步加载的网络数据包
        3、JS : 抓取所有的JS文件
   2、Sources: 格式化输出并打断点调试JavaScript代码,助于分析爬虫中一些参数
   3、Console: 交互模式,可对JavaScript中的代码进行测试
3、抓取具体网络数据包后
   1、单击左侧网络数据包地址,进入数据包详情,查看右侧
   2、右侧:
       1、Headers: 整个请求信息
            General、Response Headers、Request Headers、Query String、Form Data
       2、Preview: 对响应内容进行预览
       3、Response:响应内容  

 

转载于:https://www.cnblogs.com/maplethefox/p/11348491.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

requests.get()参数 的相关文章

  • 可以使用 API GET 但不能使用 API POST

    我正在 VS 2013 中处理现有的 Windows 服务项目 我添加了一个 Web API 控制器类 我现在不记得它是 v2 1 还是 v1 控制器类 无论如何我将其称为 SyncPersonnelViaAwsApiController
  • 在 php 中的 _GET 中发送数组

    php 提供了从 GET 发送数组的能力 example test php var1 abc arr 0 1 arr 3 test 将输出 Array var1 gt abc arr gt Array 0 gt 1 3 gt test 这是
  • 如何使用 AngularJS 删除 GET 参数?

    order 123 status success 到达路线 order id 并采取OrderCtrl 一旦我们访问 routeParams query 我们想要清除 url order 123 如何才能实现这一目标 使用 location
  • 如何在Django中获取所有GET请求值?

    如何在 Django 中获取所有这些 url 参数 1 12 18 5 生日快乐 https domain method 1 12 18 5 Happy birthday 我努力了 parameter request GET get 1 但
  • 用 Java 创建一个简单的 HTTP 服务器?

    使用 Java 创建简单 HTTP 服务器的最简单方法是什么 是否有任何公共图书馆可以促进这一点 我只需要回应GET POST 并且我无法使用应用程序服务器 实现这一目标的最简单方法是什么 Use Jetty https github co
  • 使用 PHP 和 $_GET[''] 在 中传递多个变量

    我正在使用 PHP 根据变量创建链接 目前我有这行代码 我已经使用过多次并且工作完美 echo a href value2 a 以上全部在一行 在接收页面我有 assignmentName GET assignName 它从 URL 中检索
  • jQuery:从文件系统读取文本文件

    我正在尝试使用 jquery 读取文本文件 如下所示 LOAD file and split line by line and append divs get myFile txt function data var lines data
  • jquery 使用智能投票插件进行轮询

    我一生都在努力让这个插件正常工作 但我不理解状态函数 因此重试不会触发 poll 10000 function retry get willfail function response status if status success Do
  • Yii搜索方法不起作用并且不与数据库中的数据进行比较

    您好 昨天我尝试了一种按日期时间创建搜索的方法 您可以看到链接 搜索任务 https stackoverflow com questions 23517282 yii search form by date from to criteria
  • Angular 下载大 blob

    我有一个类似的问题this one https stackoverflow com questions 46932213 how to download large file with javascript我成功下载了通过 HTTP GET
  • PHP GET 变量数组注入

    我最近了解到可以将数组注入 PHP GET 变量来执行代码 php a asd a asdasd b a 这就是我得到的例子 我不知道它是如何工作的 并且想知道这是否可能 PHP 将解析查询字符串 并将这些值注入到 GET超全局数组 同样适
  • jQuery 简单值与 .val() 出现问题

    我有以下代码 document ready function alert font someClass val 这里有一个Fiddle http jsfiddle net 2wwzD 1 用它 有谁知道为什么我无法返回字体标签的值 我是否假
  • 如何通过 Facebook Graph Api 获取用户的朋友在生日当天在用户墙上发布的帖子?

    我正在尝试构建一个 Chrome 扩展程序 我想获取人们专门在用户生日那天发布在用户墙上的所有帖子 我尝试通过 Facebook Javascript SDK 进行调用 但它没有返回我的朋友在生日那天发布的帖子 FB api me feed
  • jQuery 加载到变量

    我需要将 jQuery 加载结果插入到变量中 页面 ajax html 上带有 id 测试的元素的内容 result load ajax html test 尝试使用jQuery get http api jquery com jQuery
  • 我想向我的销售点的用户授予特权,但我不知道如何做,有什么建议吗?

    我有一个问题 我有一个用netBeans制作的销售点系统 2个用户可以在我的系统中注册 管理员 和 供应商 系统中有几个模块 包括 Inventario 模块允许您在数据库中输入 修改 删除和搜索文章 问题是我希望只有管理员有权限进入该模块
  • Servlet和路径参数如/xyz/{value}/test,如何在web.xml中映射?

    servlet是否支持url如下 xyz value test 其中值可以用文本或数字替换 如何在 web xml 中映射它 最好的选择是 URL 模式 xyz The 服务程序接口 https jakarta ee specificati
  • REST Web 服务 - 动态查询参数

    我需要将动态查询参数发送到 REST Web 服务 GET 方法 如下所示 主机 端口 应用程序 field1 XXX value1 VVV field2 XXX value2 XXX 消费者可以发送参数最多为字段和值 每个字段都映射到值
  • Elasticsearch:如何查询连接数?

    如何询问我的 Elasticsearch 服务器现在有多少个连接 这与插座数量相同吗 我也不知道如何获得这些数字 这与客户端的数量不同 对吧 因为每个客户端可能打开多个连接 找不到任何相关信息 但我确实发现您可以在 Elasticsearc
  • 来自链接参数的多个 $_GET

    我使用 js 将值发送到 php 文件 如下所示 validation php firstName test lastName test email test contactNumber test title test descriptio
  • 我应该使用多个 HttpClient 来进行批量异步 GET 请求吗?

    我有一个场景 我需要在尽可能短的时间内发出大量 GET 请求 想想大约 1000 个 我知道通常最好保留一个客户端并尽可能重用它 Create Single HTTP Client HttpClient client new HttpCli

随机推荐