10个python爬虫入门实例

2023-11-12

1.爬取强大的BD页面，打印页面信息

# 第一个爬虫示例,爬取百度页面
import requests #导入爬虫的库，不然调用不了爬虫的函数
response = requests.get("http://www.baidu.com")  #生成一个response对象
response.encoding = response.apparent_encoding #设置编码格式
print("状态码:"+ str( response.status_code ) ) #打印状态码
print(response.text)#输出爬取的信息

2.常用方法之get方法实例，下面还有传参实例

# 第二个get方法实例
import requests #先导入爬虫的库，不然调用不了爬虫的函数
response = requests.get("http://httpbin.org/get")  #get方法
print( response.status_code ) #状态码
print( response.text )

3. 常用方法之post方法实例，下面还有传参实例

'''
遇到问题没人解答？小编创建了一个Python学习交流QQ群：778463939
寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！
'''
# 第三个 post方法实例
import requests #先导入爬虫的库，不然调用不了爬虫的函数
response = requests.post("http://httpbin.org/post")  #post方法访问
print( response.status_code ) #状态码
print( response.text )

4. put方法实例

# 第四个 put方法实例
import requests #先导入爬虫的库，不然调用不了爬虫的函数
response = requests.put("http://httpbin.org/put")  # put方法访问
print( response.status_code ) #状态码
print( response.text )

5.常用方法之get方法传参实例(1)

如果需要传多个参数只需要用&符号连接即可如下

'''
遇到问题没人解答？小编创建了一个Python学习交流QQ群：778463939
寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！
'''
# 第五个 get传参方法实例
import requests #先导入爬虫的库，不然调用不了爬虫的函数
response = requests.get("http://httpbin.org/get?name=hezhi&age=20")  # get传参
print( response.status_code ) #状态码
print( response.text )

6.常用方法之get方法传参实例(2)

params用字典可以传多个

# 第六个 get传参方法实例
import requests #先导入爬虫的库，不然调用不了爬虫的函数
data = {
	"name":"hezhi",
	"age":20
}
response = requests.get( "http://httpbin.org/get" , params=data )  # get传参
print( response.status_code ) #状态码
print( response.text )

7.常用方法之post方法传参实例(2) 和上一个有没有很像

'''
遇到问题没人解答？小编创建了一个Python学习交流QQ群：778463939
寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！
'''
# 第七个 post传参方法实例
import requests #先导入爬虫的库，不然调用不了爬虫的函数
data = {
	"name":"hezhi",
	"age":20
}
response = requests.post( "http://httpbin.org/post" , params=data )  # post传参
print( response.status_code ) #状态码
print( response.text )

8.关于绕过反爬机制，以zh爸爸为例

# 第好几个方法实例
import requests #先导入爬虫的库，不然调用不了爬虫的函数
response = requests.get( "http://www.zhihu.com")  #第一次访问知乎，不设置头部信息
print( "第一次,不设头部信息,状态码:"+response.status_code )# 没写headers，不能正常爬取，状态码不是 200
#下面是可以正常爬取的区别，更改了User-Agent字段
headers = {

		"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"

}#设置头部信息,伪装浏览器
response = requests.get( "http://www.zhihu.com" , headers=headers )  #get方法访问,传入headers参数，
print( response.status_code ) # 200！访问成功的状态码
print( response.text )

9.爬取信息并保存到本地,
因为目录关系，在D盘建立了一个叫做爬虫的文件夹，然后保存信息

注意文件保存时的encoding设置

# 爬取一个html并保存
import requests
url = "http://www.baidu.com"
response = requests.get( url )
response.encoding = "utf-8" #设置接收编码格式
print("\nr的类型" + str( type(response) ) )
print("\n状态码是:" + str( response.status_code ) )
print("\n头部信息:" + str( response.headers ) )
print( "\n响应内容:" )
print( response.text )
#保存文件
file = open("D:\\爬虫\\baidu.html","w",encoding="utf")  #打开一个文件，w是文件不存在则新建一个文件，这里不用wb是因为不用保存成二进制
file.write( response.text )
file.close()

10.爬取图片，保存到本地

#保存百度图片到本地
import requests #先导入爬虫的库，不然调用不了爬虫的函数
response = requests.get("https://www.baidu.com/img/baidu_jgylogo3.gif")  #get方法的到图片响应
file = open("D:\\爬虫\\baidu_logo.gif","wb") #打开一个文件,wb表示以二进制格式打开一个文件只用于写入
file.write(response.content) #写入文件
file.close()#关闭操作，运行完毕后去你的目录看一眼有没有保存成功

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

编程语言

python

10个python爬虫入门实例的相关文章

pywinauto 32位用户警告

我正在尝试使用 pywinauto 在每次更新类文件时自动启动和停止 TomCat 但是当我尝试运行它时它会给出以下警告 UserWarning 32 bit application should be automated using
在Python中使用字典作为switch语句[重复]

这个问题在这里已经有答案了我正在尝试使用字典用 Python 制作一个简单的计算器这是我的代码 def default print Incorrect input def add a b print a b def sub a b pr
CVXPY 二次规划； ArpackNoConvergence 错误

我尝试使用 Python 包 CVXPY 来解决第一种形式的凸二次规划问题 https www cvxpy org examples basic quadratic program html https www cvxpy org exam
只使用 Django 的某些部分？

我喜欢 Django 但对于一个特定的应用程序我只想使用它的一部分但我对 Django 的内部工作原理还不够熟悉所以也许有人可以指出我必须做什么的正确方向查看具体来说我想使用模型和数据库抽象 The 缓存API http doc
重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
pip 安装失败，SSL 证书验证失败 (_ssl.c:833)

我无法通过 pip install 安装任何外部 python 模块我已经正确安装了 python 但如果我使用 pip install 它会显示此错误这是我运行后的代码pip install pytesseract C Users 1
蜘蛛内的Scrapyd jobid值

Scrapy 框架 Scrapyd 服务器我在获取蜘蛛内部的 jobid 值时遇到一些问题将数据发布到后http localhost 6800 schedule json http localhost 6800 schedule jso
如何使用 HTTP 标头发送非英语 unicode 字符串？

我是 HTTP 相关问题的新手我的问题是在 iOS 开发中我想使用 HTTP 标头发送一个字符串所以我使用 httpRequest setValue nonEnglishString forHTTPHeaderField custom
使用 Pymongo 从 Windows 连接到 AWS 实例上的 MongoDB

此行反复抛出错误 client MongoClient ec2 12 345 67 89 us east 2 compute amazonaws com 27017 ssl True ssl keyfile C mongo pem 由于显而
OpenCV - 我需要将彩色图像插入黑白图像并且

我用以下代码将黑白图像插入彩色图像没问题 face grey cv cvtColor face cv COLOR RGB2GRAY for row in range 0 face grey shape 0 for column in ra
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
python：是否有用于对输入流进行分块的库函数？

我想对输入流进行分块以进行批处理给定一个输入列表或生成器 x in 1 2 3 4 5 6 我想要一个能够返回该输入块的函数说如果chunk size 4 then x chunked 1 2 3 4 5 6 这是我一遍又一遍地做的事
pandas to_sql sqlalchemy 与 secure_transport 的连接

我正在尝试将数据发送到具有 require secure transport ON 的服务器上的 mysql 数据库当我尝试使用以下代码连接到它时 import pandas as pd import pymysql from sqlal
如何在 Pytorch 中将一维 IntTensor 转换为 int

如何将一维 IntTensor 转换为整数这 IntTensor int 给出错误 KeyError Variable containing 423 torch IntTensor of size 1 我所知道的最简单最干净的方法 In
如何绘制多类分类器的精度和召回率？

我正在使用 scikit learn 我想绘制精度和召回曲线我正在使用的分类器是RandomForestClassifier scikit learn 文档中的所有资源都使用二元分类另外我可以绘制多类的 ROC 曲线吗另外我只找到
在python中安装scipy模块时出错

我正在尝试使用 pip 在 python 中安装 scipy 模块它显示以下错误 Command c users sony appdata local programs python python35 32 python exe u c
如何可视化多维数据上的 kmeans 聚类

我在 mnist 数据集上使用 kmeans 聚类算法并希望可视化聚类后的图到目前为止我做了这个 from mnist import MNIST mndata MNIST Datasets X train y train mndata
Matplotlib 中的 TwoSlopeNorm 未按预期工作

我正在尝试创建一个具有发散颜色图的绘图该颜色图在零附近不对称 In this https stackoverflow com a 20146989 6288682例如 DivergingNorm函数被使用并产生我想要的然而我使用的是更
通过 ManyToManyField = Value 对 django 查询集进行排序

如果有一些模型例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many

随机推荐

用爱思助手自签名ipa文件成功后安装失败

设备 iPad pro 2021 系统版本 ios15 6 1 ipa文件已签名成功
python 将数组中取某一值的元素全部替换为其他元素的方法

这里的问题是在做House Price Prediction的时候遇到的尝试对GarageArea做log转化但是由于有些房子没有车库所以GarageArea 0 再通过log转化变成 inf了所以我想把所有 inf的数据全部再转化
MySQL学习笔记

自己学习MySQL时整理的笔记包括实操中遇到的问题不同版本之间的差异后续也会继续完善有PDF文档版学习视频 https www bilibili com video BV1Kr4y1i7ru t 1 9 怎么学收获基础篇初级
redis持久化（RDB、AOF）

redis是内存数据库但是不仅限于内存 redis有其持久化的方式共有三种持久化的方式方式1 生成dump rdb文件方式2 生成appendonly aof文件方式3 master slave 主从复制读写分离 RDB redi
神州数码高端ERP系统在上海田岛工具顺利实施

通过计算机和先进的管理软件实施企业高效管理上海田岛工具有限公司是一家日资企业位于上海工业之重的松江松江工业园经过近十年发展已初具规模并日益壮大 2001年二期厂房扩建并投产公司主要从事刀具卷尺及建筑用激光水准仪系列产品的加工
【决战Koa之巅-1】花三分钟搭建一个简单的 Koa 服务

KOA 是什么基于 Node js 的下一代 web 开发框架更直白一些就是使用 JS 开发 API 接口服务怎么搭建 1 创建一个文件夹 mkdir koa test 2 进入文件夹初始化 npm 根据提示输入即可 npm ini
校园网络技术需求分析

路由技术路由协议工作在 OSI 参考模型的第 3 层因此它的作用主要是在通信子网间路由数据包路由器具有在网络中传递数据时选择最佳路径的能力除了可以完成主要的路由任务利用访问控制列表 Access Control List ACL
ELK日志平台搭建（一）

ELK企业级日志分析系统 ELK是由Elasticsearch Logstash Kiban三个开源软件的组合在实时数据检索和分析场合三者通常是配合共用而且又都先后归于 Elastic co 公司名下故有此简称 ELK中日志处理步骤
python二级模拟题

PYTHON二级模拟题一选择题每题1分总分40分 1 下列叙述中正确的是 A 算法的时间复杂度是指算法在执行过程中基本运算的次数 B 算法的时间复杂度是指算法执行所需要的时间 C 算法的时间复杂度是指算法执行的速度 D 算法复杂度是
滑动条控制（Slider Control）

所有的控件的创建基本都是同一套道路第一步 h中创建一个CSliderCtrl 类的对象 CSliderCtrl m ctrlSlider 第二步 cpp中的void CMyDlg DoDataExchange CDataExchange
Primetime 的使用

开始先建立目录并将PrimeTime本身所带的一个例子拷到新建的目录下在下面的内容中将要用到这个例子 mkdir primetime cd primetime cp r SYNOPSYS doc pt tutorial cd tutor
51单片机TI发送中断标志位阻塞程序运行

在利用51单片机学习嵌入式开发的过程中通常会利用单片机串口进行字符或字符串的收发操作博主最近在写一个小程序的过程中遇到了这样一个问题在主函数内利用串口进行一个字符串的发送操作并且对发送中断标志位进行置零或置一此外在串口中断函数内
c++指针最全总结(附源码和详细总结)

目录哈喽我又来啦指针是什么 What is a pointer 简单点说一级指针的定义指针的赋值指针的输出二级指针的定义简单说二级指针的赋值二级指针的输出改变一级指针指向二级指针的步长改变n 1级指针的指向当指针
【小教程】Potplayer配置播完停止+打开单个文件非文件夹+单个播放器打开文件

最近在练托福听力用Potplayer听片段的时候有些需求播放完听力片段后停止而不是重听打开听力片段时仅打开单个文件而不是当前文件夹播放完听力片段后打开下一个听力片段时使用当前单个播放器而不是重新打开一个播放器播放下面记录
SDK的使用步骤

原文地址 SDK的使用步骤远方是什么样子博客园 cnblogs com SDK包括三种类型文件 1 头文件 h 2 库文件 lib 3 动态库 dll 第一步在项目目录中新建一个Libs文件夹再在该文件夹中分别新建inc文件夹和li
手把手教你如何修改jar包，以及了解JVM虚拟机的重要性

背景公司要求修改以前的项目调用的代码但是发现代码已经丢失了只剩下jar包了想起来以前学习JVM的Javap 已经反编译jar包在此我都尝试了一下做一下记录方便以后遇到一常规Jar包修改流程 1 定位问题通过通过procmon监控
损失与损失函数L1、L2、MSE

损失是一个数值表示对样本而言模型预测的准确程度如果模型的预测完全正确则损失为零反之损失会很大训练模型的目标是从所有的样本当中找到一组损失较小的权重与偏差其损失较小的考量取决于具体需要损失函数 L1损失基于模型预测的值
idea中创建jsp项目的详细实战步骤

1 打开idea 在file gt new gt project中新建一个普通的java项目 2 在项目名右键Add Framework Support选项中 Web Application上打勾点击OK 3 项目列表 gt web gt
Foxmail登录不上163邮箱。。。

前不久重新装了系统 Foxmail重新安装账号和密码一直登录不对首先登录163网易邮箱点击邮箱设置选择左侧栏的 POP3 SMTP IMAP 然后检查右侧窗格中是否开启对 POP3 SMTP服务和 IMAP SMTP服务的选择
10个python爬虫入门实例

1 爬取强大的BD页面打印页面信息第一个爬虫示例爬取百度页面 import requests 导入爬虫的库不然调用不了爬虫的函数 response requests get http www baidu com 生成一个respon

10个python爬虫入门实例

10个python爬虫入门实例 的相关文章

随机推荐

热门标签

10个python爬虫入门实例的相关文章