Python: 爬虫入门-python爬虫入门教程(非常详细)

2023-10-27

1.基本的爬虫工作原理

①)网络爬虫定义,又称Web Spider,网页蜘蛛,按照一定的规则,自动抓取网站信息的程序或者脚本。

蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到网页中的其他链接地址,

然后通过这些链接地址寻找下一个网页,直到把这个额昂展所有的网页都抓取完为止。

②)爬虫流程:

①urllib的request打开url带到网页的html文档

②浏览器打开网页源代码分析元素节点

③通过Beautiful Soup或者正则表达式提取想要的数据

④存储数据到本地磁盘或者数据库,进行数据分析

2.环境、工具安装

①Python 3.6.4(官网下载安装),环境变量配置

②基本的http抓取工具 scrapy (安装命令pip install scrapy)

③bs4 (安装命令:pip install scrapy)

3.爬虫脚本及注释(超简易)

Python:
在这里插入图片描述

#urllib的request模块可以非常方便的抓取URL内容,也就是发送一个GET请求到指定的页面,然后返回HTTP的响应。

from urllib import request

#BeautifulSoup是Python的一个库,最主要的功能是从网页爬取我们所需要的数据。

#BeautifulSoup将html解析为对象进行处理,全部页面转变为字典或者数组,相对于正则表达式的方式,可以大大简化处理过程。

from bs4 import BeautifulSoup

#构造头文件,模拟浏览器访问。

url=”http://www.jianshu.com” #要爬的url

headers = {‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36′}

page=request.Request(url,headers=headers)

page_info=request.urlopen(page).read().decode(‘utf-8’) #打开url,获取HttpResponse返回对象并读取ResponseBody

#将获取到response析成Beautiful soup格式,解析器为html.parser

soup=BeautifulSoup(page_info,’html.parser’)

#查找所有a标签中class=’title’的语句

titles=soup.find_all(‘a’,’title’)

#open()是读写文件的函数,with语句会自动close()已打开文件

with open(r”D:\lgz\articles.txt”,”w”)as file: #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
   for title in titles:
     file.write(title.string+’\n’)
     file.write(“http://www.jianshu.com”+title.get(‘href’)+’\n\n’)

4.爬虫结果

Python:
在这里插入图片描述
读者福利:知道你对Python感兴趣,便准备了这套python学习资料

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python: 爬虫入门-python爬虫入门教程(非常详细) 的相关文章

随机推荐

  • Shiro实战学习笔记(3)- 授权

    1 授权 授权可简单理解为who对what which 进行How操作 Who 即主体 Subject 主体需要访问系统中的资源 What 即资源 Resource 如系统菜单 页面 按钮 类方法 系统商品信息等 资源包括资源类型和资源实例
  • CSDN、博客园、简书、思否、掘金,程序员最佳中文论坛我该怎么选

    一 技术论坛有哪些 目前市面上最大的技术论坛主要分为五个 CSDN 博客园 简书 思否 掘金 1 1 CSDN CSDN是全球知名中文IT技术交流平台 创建于1999年 包含原创博客 精品问答 职业培训 技术论坛 资源下载等产品服务 提供原
  • Linux 系统编程--fcntl()读写锁实例

    fcntl 1 功能描述根据文件描述词来操作文件的特性 2 用法 读写锁实例 1 给文件加读锁 2 给文件加写锁 先执行读锁再执行写锁结果如下 先运行写锁再运行读锁的话结果如下 在多进程对同一个文件进行读写访问时 为了保证数据的完整性 有事
  • 命令行

    linux windows 端口占用检查 window R组合键 调出命令窗口 netstat aon findstr 8081 查看端口pid即1244 tasklist findstr 1244 查看是哪个进程占用 taskkill p
  • Ubuntu下如何关闭指定端口的进程

    1 查看该端口的占用情况 lsof i 端口号 2 关闭进程 kill PID 可能不止一个进程
  • linux服务器 top 查看 内存占用详情

    前言 前几天登录云服务器突然发现没几个服务内存竟然快占满了 于是赶快top查看 发现直接top查看的话 也不太好分析是哪个应用占用的内存比较大 于是谷歌了一番记录了以下几种查内存占用情况的方法 查看内存占用情况的几种方法 free命令 命令
  • vue+elementui table表格自定义表头

    elementui table表格自定义表头
  • C++的STL库常用API--stack

    stack的简介 stack是堆栈容器 是一种 先进后出 的容器 stack是简单地装饰deque容器而成为另外的一种容器 stack使用之前的准备 include
  • 从Diffusion Model到score-based generative models再到Consistency Models的介绍

    从Diffusion Model到score based generative models再到Consistency Models的介绍 0 前言 图片介绍以PPT的形式 0 前言 完整的PPT在这 https download csdn
  • 大数据学习-bug03-HDFS web页面文件访问出错

    项目场景 学习HDFS时遇到的一个小问题 问题描述 当从本地上传文件 或者执行jar包完成的结果在终端界面可以查看其具体内容 但是在web页面无法查看 报错Couldn t preview the file 原因分析 1 hdfs site
  • 应用Apache Axis2 实现Webservice发布

    由于最近需要做webservice接口 所以google了一下 发现Apacle有个Axis2插件 一直觉得Apache的插件还是蛮好用的 于是决定应用Axis2来实现Webservice 第一次做webservice 呵呵有很多不懂的地方
  • 初识C语言之详解char类型

    文章目录 一 预备知识 二 char类型 三 声明与初始化 1 声明 2 字符常量和初始化 3 非打印字符 一 预备知识 字符的定义 字符指类字形单位或符号 包括字母 数字 运算符号 标点符号和其他符号 以及一些功能性符号 在C语言中 用单
  • 深度学习环境配置4——windows下的tensorflow-cpu=1.13.2环境配置

    深度学习环境配置4 windows下的tensorflow cpu 1 13 2环境配置 注意事项 一 2021 10 8更新 学习前言 环境内容 环境配置 一 Anaconda安装 1 Anaconda的下载 2 Anaconda的安装
  • vite + vue3 —— vue地图大屏项目

    回顾 前期 前端利器 提升 500倍开发效率 传一张设计稿 点击一建生成项目 好牛 0 活在风浪里的博客 CSDN博客如果非要说它有什么缺点 那么我觉得就是它会 让你cv大法都没处使 比如 公司让你写一个小程序 或h5web页面 UI给了你
  • GPT内功心法:搜索思维到GPT思维的转换

    大家好 我是herosunly 985院校硕士毕业 现担任算法研究员一职 热衷于机器学习算法研究与应用 曾获得阿里云天池比赛第一名 CCF比赛第二名 科大讯飞比赛第三名 拥有多项发明专利 对机器学习和深度学习拥有自己独到的见解 曾经辅导过若
  • UE4+Log日志

    虚幻引擎 4 22 VS 2017 将自定义的Log日志 存放到项目工程或者打包程序的Saved Logs目录下 1 创建一个C 空类 我命名为GunTestLog 2 GunTestLog h文件 Fill out your copyri
  • 关于Scroll的CSS属性--修改滚动条样式

    本文部分转载自 仅用于学习关于css中的那些scroll 炫意HTML5一 滚动轴scrollbar说到css中的scroll 我们最先想到的应该是overflow scroll 想到这个scroll之后 自然而然又想到了浏览器的滚动轴 说
  • STM32以太网通信-STM32F407与 DP83848 RMII硬件接口参考与注意事项

    主要参考 STM32F407和DP83848芯片RMII模式硬件电路图参考 常用元器件使用方法13 物理层接口芯片DP83848的使用方法 分享一下STM32F407和DP83848芯片RMII模式硬件电路图 电路原理图如上图所示 其中DP
  • C++无锁编程——无锁队列(lock-free queue)

    C 无锁编程 无锁队列 lock free queue 贺志国 2023 7 11 上一篇博客给出了最简单的C 数据结构 栈的几种无锁实现方法 队列的挑战与栈的有些不同 因为Push 和Pop 函数在队列中操作的不是同一个地方 同步的需求就
  • Python: 爬虫入门-python爬虫入门教程(非常详细)

    1 基本的爬虫工作原理 网络爬虫定义 又称Web Spider 网页蜘蛛 按照一定的规则 自动抓取网站信息的程序或者脚本 蜘蛛通过网页的链接地址来寻找网页 从网站某一个页面开始 读取网页的内容 找到网页中的其他链接地址 然后通过这些链接地址