爬虫(1)

2023-11-13

# 使用urllib获取百度首页源码
import urllib.request

#1. 定义一个url(就是你要访问的地址)
url = 'http://www.baidu.com'

#2. 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)

#3. 获取响应中的页面源码
#read方法 返回的是字节形式的二进制数据
#将二进制数据转换为字符串
#二进制--->字符串   解码 decode('编码的格式')
content = response.read().decode('utf-8')

#4. 打印数据
print(content)

在这里插入图片描述

# 使用urllib获取百度首页源码
import urllib.request

url = 'http://www.baidu.com'

#模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)

#3. 一个类型和六个方法
#response是HTTPResponse类型
print(type(response))

#按照一字节一字节读
content = response.read()
print(content)

#返回多少个字节
content = response.read(8)
print(content)

#读取一行
content = response.readline()
print(content)

#读取全部行
content = response.readlines()
print(content)

#返回状态码  如果是200了 证明逻辑没错
print(response.getcode())

#返回url地址
print(response.geturl())

#获取一个状态信息
print(response.getheaders())
import urllib.request

#下载网页
url_page = 'http://www.baidu.com'
urllib.request.urlretrieve(url_page,'baidu.html')

#下载图片
url_image = ''
urllib.request.urlretrieve(url_image,filename='Bently.jpg')

#下载视频
url_vedio ='https://www.bilibili.com/video/BV1MA411n7Fn?t=22.5'
urllib.request.urlretrieve(url_vedio,'威本联盟.mp4')

UA反爬

import urllib.request
url = 'https://www.baidu.com'

#url组成
#http/https

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.48'
}

#因为urlopen方法中不能存储字典,所以headers不能传递进去
#请求对象的定制!!!!!!!!!!!!
#注意:因为参数顺序问题,不能直接写urt和headers,中间有data,所以用关键字传参
request = urllib.request.Request(url=url,headers=headers)
response = urllib.request.urlopen(request)

content = response.read().decode('utf8')

print(content)

get请求quote方法

#获取 https://www.baidu.com/s?wd=%E5%91%A8%E6%9D%B0%E4%BC%A6周杰伦网页源码

import urllib.request

url = 'https://www.baidu.com/s?wd='

#请求对象定制为了解决反爬第一种手段
headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.48'
}

#将周杰伦三个字变成uicode编码格式
#使用urllib.parse
name = urllib.parse.quote('周杰伦')

url = url + name

#请求对象定制
request = urllib.request.Request(url=url,headers=headers)

#模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

#获取相应内容
content = response.read().decode('utf8')

#打印数据
print(content)
#urlencode应用场景:多个参数
import urllib.parse

#https://www.baidu.com/s?wd=周杰伦&sex=男&location=中国

data = {
    'wd':'周杰伦',
    'sex':'男',
    'location':'中国台湾省'
}

a = urllib.parse.urlencode(data)
print(a)

在这里插入图片描述

#获取https://www.baidu.com/s?wd=%E5%91%A8%E6%9D%B0%E4%BC%A6&sex=%E7%94%B7网页源码
import urllib.request
import urllib.parse

base_url = 'https://www.baidu.com/s?'

data = {
    'wd':'周杰伦',
    'sex':'男',
    'location':'中国台湾省'
}

new_data = urllib.parse.urlencode(data)

url = base_url + new_data

headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.48'
}

#请求对象定制
request = urllib.request.Request(url=url,headers=headers)

#模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

#获取相应内容
content = response.read().decode('utf8')

#打印数据
print(content)

requests模块(python中基于网络请求模块,作用:模拟浏览器发出请求)
1)urllib库
2)requests库

使用requests模块:
-指定url
-发起请求
-获取响应数据
-持久化存储

安装requests模块:pip install requests
在这里插入图片描述

爬取搜狗首页页面数据

import requests
#指定url
url = 'https://www.sogou.com/'
#发起请求
#get方法会返回一个响应对象
response = requests.get(url=url)
#获取相应数据
#.text返回的是字符串形式的响应数据
page_text = response.text
print(page_text)
#持久化存储
with open('./sogou.html','w',encoding='utf-8') as fp:
    fp.write(page_text)
print('爬取结束')

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫(1) 的相关文章

随机推荐