10个python爬虫入门实例

2023-11-12

1.爬取强大的BD页面,打印页面信息

# 第一个爬虫示例,爬取百度页面
import requests #导入爬虫的库,不然调用不了爬虫的函数
response = requests.get("http://www.baidu.com")  #生成一个response对象
response.encoding = response.apparent_encoding #设置编码格式
print("状态码:"+ str( response.status_code ) ) #打印状态码
print(response.text)#输出爬取的信息

2.常用方法之get方法实例,下面还有传参实例

# 第二个get方法实例
import requests #先导入爬虫的库,不然调用不了爬虫的函数
response = requests.get("http://httpbin.org/get")  #get方法
print( response.status_code ) #状态码
print( response.text )

3. 常用方法之post方法实例,下面还有传参实例

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:778463939
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
# 第三个 post方法实例
import requests #先导入爬虫的库,不然调用不了爬虫的函数
response = requests.post("http://httpbin.org/post")  #post方法访问
print( response.status_code ) #状态码
print( response.text )

4. put方法实例

# 第四个 put方法实例
import requests #先导入爬虫的库,不然调用不了爬虫的函数
response = requests.put("http://httpbin.org/put")  # put方法访问
print( response.status_code ) #状态码
print( response.text )

5.常用方法之get方法传参实例(1)

如果需要传多个参数只需要用&符号连接即可如下

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:778463939
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
# 第五个 get传参方法实例
import requests #先导入爬虫的库,不然调用不了爬虫的函数
response = requests.get("http://httpbin.org/get?name=hezhi&age=20")  # get传参
print( response.status_code ) #状态码
print( response.text )

6.常用方法之get方法传参实例(2)

params用字典可以传多个

# 第六个 get传参方法实例
import requests #先导入爬虫的库,不然调用不了爬虫的函数
data = {
	"name":"hezhi",
	"age":20
}
response = requests.get( "http://httpbin.org/get" , params=data )  # get传参
print( response.status_code ) #状态码
print( response.text )

7.常用方法之post方法传参实例(2) 和上一个有没有很像

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:778463939
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
# 第七个 post传参方法实例
import requests #先导入爬虫的库,不然调用不了爬虫的函数
data = {
	"name":"hezhi",
	"age":20
}
response = requests.post( "http://httpbin.org/post" , params=data )  # post传参
print( response.status_code ) #状态码
print( response.text )

8.关于绕过反爬机制,以zh爸爸为例

# 第好几个方法实例
import requests #先导入爬虫的库,不然调用不了爬虫的函数
response = requests.get( "http://www.zhihu.com")  #第一次访问知乎,不设置头部信息
print( "第一次,不设头部信息,状态码:"+response.status_code )# 没写headers,不能正常爬取,状态码不是 200
#下面是可以正常爬取的区别,更改了User-Agent字段
headers = {

		"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"

}#设置头部信息,伪装浏览器
response = requests.get( "http://www.zhihu.com" , headers=headers )  #get方法访问,传入headers参数,
print( response.status_code ) # 200!访问成功的状态码
print( response.text )

9.爬取信息并保存到本地,
因为目录关系,在D盘建立了一个叫做爬虫的文件夹,然后保存信息

注意文件保存时的encoding设置

# 爬取一个html并保存
import requests
url = "http://www.baidu.com"
response = requests.get( url )
response.encoding = "utf-8" #设置接收编码格式
print("\nr的类型" + str( type(response) ) )
print("\n状态码是:" + str( response.status_code ) )
print("\n头部信息:" + str( response.headers ) )
print( "\n响应内容:" )
print( response.text )
#保存文件
file = open("D:\\爬虫\\baidu.html","w",encoding="utf")  #打开一个文件,w是文件不存在则新建一个文件,这里不用wb是因为不用保存成二进制
file.write( response.text )
file.close()

10.爬取图片,保存到本地

#保存百度图片到本地
import requests #先导入爬虫的库,不然调用不了爬虫的函数
response = requests.get("https://www.baidu.com/img/baidu_jgylogo3.gif")  #get方法的到图片响应
file = open("D:\\爬虫\\baidu_logo.gif","wb") #打开一个文件,wb表示以二进制格式打开一个文件只用于写入
file.write(response.content) #写入文件
file.close()#关闭操作,运行完毕后去你的目录看一眼有没有保存成功
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

10个python爬虫入门实例 的相关文章

随机推荐

  • 用爱思助手自签名ipa文件成功后安装失败

    设备 iPad pro 2021 系统版本 ios15 6 1 ipa文件已签名成功
  • python 将数组中取某一值的元素全部替换为其他元素的方法

    这里的问题是在做House Price Prediction的时候遇到的 尝试对GarageArea做log转化 但是由于有些房子没有车库 所以GarageArea 0 再通过log转化变成 inf了 所以我想把所有 inf的数据全部再转化
  • MySQL学习笔记

    自己学习MySQL时整理的笔记 包括实操中遇到的问题 不同版本之间的差异 后续也会继续完善 有PDF文档版 学习视频 https www bilibili com video BV1Kr4y1i7ru t 1 9 怎么学 收获 基础篇 初级
  • redis持久化(RDB、AOF)

    redis是内存数据库 但是不仅限于内存 redis有其持久化的方式 共有三种持久化的方式 方式1 生成dump rdb文件 方式2 生成appendonly aof文件 方式3 master slave 主从复制读写分离 RDB redi
  • 神州数码高端ERP系统在上海田岛工具顺利实施

    通过计算机和先进的管理软件实施企业高效管理 上海田岛工具有限公司是一家日资企业 位于上海工业之重的松江 松江工业园 经过近十年发展 已初具规模 并日益壮大 2001年二期厂房扩建并投产 公司主要从事刀具 卷尺及建筑用激光水准仪系列产品的加工
  • 【决战Koa之巅-1】花三分钟搭建一个简单的 Koa 服务

    KOA 是什么 基于 Node js 的下一代 web 开发框架 更直白一些就是使用 JS 开发 API 接口服务 怎么搭建 1 创建一个文件夹 mkdir koa test 2 进入文件夹 初始化 npm 根据提示输入即可 npm ini
  • 校园网络技术需求分析

    路由技术 路由协议工作在 OSI 参考模型的第 3 层 因此它的作用主要是在通信 子网间路由数据包 路由器具有在网络中传递数据时选择最佳路径的能力 除了可以完成主要的路由任务 利用访问控制列表 Access Control List ACL
  • ELK日志平台搭建(一)

    ELK企业级日志分析系统 ELK是由Elasticsearch Logstash Kiban三个开源软件的组合 在实时数据检索和分析场合 三者通常是配合共用 而且又都先后归于 Elastic co 公司名下 故有此简称 ELK中日志处理步骤
  • python二级模拟题

    PYTHON二级模拟题 一 选择题 每题1分 总分40分 1 下列叙述中正确的是 A 算法的时间复杂度是指算法在执行过程中基本运算的次数 B 算法的时间复杂度是指算法执行所需要的时间 C 算法的时间复杂度是指算法执行的速度 D 算法复杂度是
  • 滑动条控制(Slider Control)

    所有的控件的创建基本都是同一套道路 第一步 h中创建一个CSliderCtrl 类的对象 CSliderCtrl m ctrlSlider 第二步 cpp中的void CMyDlg DoDataExchange CDataExchange
  • Primetime 的使用

    开始 先建立目录并将PrimeTime本身所带的一个例子拷到新建的目录下 在下面的内容中将要用到这个例子 mkdir primetime cd primetime cp r SYNOPSYS doc pt tutorial cd tutor
  • 51单片机TI发送中断标志位阻塞程序运行

    在利用51单片机学习嵌入式开发的过程中 通常会利用单片机串口进行字符或字符串的收发操作 博主最近在写一个小程序的过程中遇到了这样一个问题 在主函数内利用串口进行一个字符串的发送操作 并且对发送中断标志位进行置零或置一 此外 在串口中断函数内
  • c++指针最全总结(附源码和详细总结)

    目录 哈喽 我又来啦 指针是什么 What is a pointer 简单点说 一级指针的定义 指针的赋值 指针的输出 二级指针的定义 简单说 二级指针的赋值 二级指针的输出 改变一级指针指向 二级指针的步长 改变n 1级指针的指向 当指针
  • 【小教程】Potplayer配置 播完停止+打开单个文件非文件夹+单个播放器打开文件

    最近在练托福听力 用Potplayer听片段的时候有些需求 播放完听力片段后停止 而不是重听 打开听力片段时仅打开单个文件 而不是当前文件夹 播放完听力片段后 打开下一个听力片段时 使用当前单个播放器 而不是重新打开一个播放器播放 下面记录
  • SDK的使用步骤

    原文地址 SDK的使用步骤 远方是什么样子 博客园 cnblogs com SDK包括三种类型文件 1 头文件 h 2 库文件 lib 3 动态库 dll 第一步 在项目目录中新建一个Libs文件夹 再在该文件夹中分别新建inc文件夹和li
  • 手把手教你如何修改jar包,以及了解JVM虚拟机的重要性

    背景 公司要求修改以前的项目调用的代码 但是发现代码已经丢失了只剩下jar包了 想起来以前学习JVM的Javap 已经反编译jar包在此我都尝试了一下做一下记录方便以后遇到 一 常规Jar包修改流程 1 定位问题 通过通过procmon监控
  • 损失与损失函数L1、L2、MSE

    损失 是一个数值 表示对样本而言模型预测的准确程度 如果模型的预测完全正确 则损失为零 反之损失会很大 训练模型的目标是从所有的样本当中 找到一组损失较小的权重与偏差 其 损失较小 的考量取决于具体需要 损失函数 L1损失 基于模型预测的值
  • idea中创建jsp项目的详细实战步骤

    1 打开idea 在file gt new gt project中新建一个普通的java项目 2 在项目名右键Add Framework Support选项中 Web Application上打勾 点击OK 3 项目列表 gt web gt
  • Foxmail登录不上163邮箱。。。

    前不久重新装了系统 Foxmail重新安装 账号和密码一直登录不对 首先登录163网易邮箱 点击邮箱 设置 选择左侧栏的 POP3 SMTP IMAP 然后检查右侧窗格中是否开启对 POP3 SMTP服务 和 IMAP SMTP服务 的选择
  • 10个python爬虫入门实例

    1 爬取强大的BD页面 打印页面信息 第一个爬虫示例 爬取百度页面 import requests 导入爬虫的库 不然调用不了爬虫的函数 response requests get http www baidu com 生成一个respon