Python爬虫(一):编写简单爬虫之新手入门

2023-11-14

最近学习了一下python的基础知识,大家一般对“爬虫”这个词,一听就比较熟悉,都知道是爬一些网站上的数据,然后做一些操作整理,得到人们想要的数据,但是怎么写一个爬虫程序代码呢?相信很多人是不会的,今天写一个针对新手入门想要学习爬虫的文章,希望对想要学习的你能有所帮助~~废话不多说,进入正文!

一、准备工作

1、首先代码使用python3.x编写的,要有一个本地的python3环境。

python下载地址页面:https://www.python.org/downloads/release/python-370/

2、然后要有一个开发工具,推荐PyCharm,一款很好的Python交互IDE。Python自带编译器 -- IDLE也可以。

PyCharm下载地址页面:https://www.jetbrains.com/pycharm/download/

3、准备工作都做好就可以做开发在IDE里编写代码程序了。

二、简单爬虫代码开发

以豆瓣网为例,爬取豆瓣官网页面,看看能获取到什么东西,代码如下:

代码:

# -*- coding: utf-8 -*-
import urllib.request

# 1、网址url  --豆瓣网
url = 'http://www.douban.com'

# 2、直接请求  返回结果
response = urllib.request.urlopen(url)

# 3、获取状态码,如果是200表示获取成功
print ('状态码:',response.getcode())

# 4、读取内容
data = response.read()

# 5、设置编码
data = data.decode('utf-8')

# 6、打印结果
print (data)

运行结果:

截取部分代码如下,第一行是状态码:200,表明获取成功,下面是爬取到的豆瓣页面代码,由于内容过多,故截取以下部分内容。

感兴趣的小伙伴可以动手试试,欢迎交流~~

觉得不过瘾,看下一篇文章。

接下一篇文章:Python爬虫(二):爬虫获取数据保存到文件

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python爬虫(一):编写简单爬虫之新手入门 的相关文章

随机推荐

  • CTFSHOW【萌新计划】Writeup

    CTFSHOW 萌新计划 web1 萌新计划 web2 萌新计划 web3 萌新计划 web4 萌新计划 web5 萌新计划 web6 萌新计划 web7 萌新计划 web8 萌新计划 web9 萌新计划 web10 萌新计划 web11
  • 《我的眼睛--图灵识别》第五章:基础:形状识别

    我的眼睛 图灵识别 第五章 基础 形状识别 1 图形认识 三角形 三角形是由同一平面内不在同一直线上的三条线段 首尾 顺次连接所组成的封闭图形 三角形按边分有不等边三角形 等腰三角和等边三角形 按角分有直角三角形 锐角三角形 钝角三角形等
  • antd的Form表单控制实例的使用

    Form表单的控制实例 一 业务常景 二 使用Form表单的实例来解决 一 业务常景 遇到一种业务场景 即一个简单的Modal框 Form的一个组合 仔细思考了一下 和我们平时直接使用Form表单还是有一定的区别 我们通常是通过给Form表
  • springcloudAlibaba 链路追踪SkyWalking

    一 链路追踪SkyWalking简介 在大型系统的微服务化构建中 一个系统被拆分成了许多模块 这些模块负责不同的功能 组合成系统 最终可以提供丰富的功能 在这种架构中 一次请求往往要涉及到多个服务 互联网应用构建在不同的软件模块集上 这些软
  • 关调度与关中断

    关调度与关中断 关中断与关调度是两种进入临界区的方式 它们有各自的使用环境 最近在研究 ucos III 的源代码时发现 ucos III 中有对临界区的优化 以关调度来代替关中断的方式工作 系统可以在特定的情况下用关调度的方式来替代关中断
  • 数据可视化之Seaborn(1)

    文章目录 什么是Seaborn seaborn提供的一些特点 Seaborn的基本使用 1 安装seaborn 2 导入seaborn库并导入Seaborn内置数据集 3 设置画图空间风格 4 设置子图风格 5 去除图脊 边框 6 设置内容
  • 设计一个表示分数的类Fraction。这个类用两个int类型的变量分别表示分子和分母。

    分数 题目内容 设计一个表示分数的类Fraction 这个类用两个int类型的变量分别表示分子和分母 这个类的构造函数是 Fraction int a int b 构造一个a b的分数 这个类要提供以下的功能 double toDouble
  • 第五章:数据库完整性

    数据库完整性 文章目录 5 1参照完整性 5 1 1实体完整性定义 5 1 2实体完整性的违约处理和检查 5 2参照完整性 5 2 1参照完整性定义 5 2 2参照完整性的违约处理和检查 5 3用户自定义的完整性 5 3 1属性上的约束条件
  • Python - OpenCV实现摄像头人脸识别(亲测版)

    要使用Python 3和OpenCV进行摄像头人脸识别 您可以按照以下步骤进行操作 0 安装OpenCV软件 去官网直接下载安装即可 如果是C 使用OpenCV 需要使用编译源码并配置环境变量 1 安装OpenCV库 在命令行中输入以下命令
  • 【bug记录】This attempt to set a cookie via a Set-Cookie header was blocked because it had the “Secure“

    问题出现场景 最近在使用浏览器访问一个登录页面时会一直发生302重定向请求 然后f12看到浏览器的访问页面上有如下警告 错误原因 错误原因为 尝试通过Set Cookie头设置具有 secure 属性的cookie 但未通过安全连接接收 因
  • gurobi安装

    gurobi安装 先去官网下载 Gurobi Optimizer 同时申请一个免费的license 学术用途的 土豪随意买 以最新的6 5版本为例进行解说 解压下载的gurobi6 0 5 linux64 tar gz 命令 tar zxv
  • web端引入高德地图

    1 安装 amap amap jsapi loader 依赖 高德地图加载器 npm i amap amap jsapi loader S 2 在对应的文件引入依赖或者全局引入 注意 由于高德api文档提示 您在2021年12月02日申请以
  • centos7设置账号密码复杂度、密码有效期、账号锁定、会话超时等策略

    目录 一 设置密码复杂度 二 设置密码有效期 三 设置登陆会话超时 四 设置登陆失败锁定 一 设置密码复杂度 CentOS7 RHEL7 开始使用pam pwquality模块进行密码复杂度策略的控制管理 pam pwquality替换了原
  • html制作动态八卦图源码

    动态八卦图 自动旋转的八卦图 一个html文件就行 如下动态图所示 taijitu html div div
  • 看甲骨文如何在云端一路高歌猛进!

    甲骨文喜欢并购这事儿不假 但更根植于创新 过去的十几年中 甲骨文始终坚持将完整并颇具创新性的云服务提供给用户 所谓完整 也就是需要覆盖端到端的全流程 提及创新 如今的大环境下怎能不将区块链 IoT 甚至是机器学习统统收入囊中 一起植入软件
  • 《大白AI周报》精华内容整理汇总

    在人工智能学习中 大家或多或少都会关注一些公众号 但随着每天信息量的暴增 碎片化的内容让大家应接不暇 如何挖掘有价值的内容 如何快速查阅自己需要的内容 是一个头疼的问题 因此大白每周都会将人工智能领域 几十个公众号每周发布的精华内容汇总起来
  • 带你认识 MySQL 之 MySQL 体系结构

    序 最近一直在忙项目 各种加班加点 项目上线 渐渐的没有了学习的时间 这不 刚这几天才能抽出点时间 忙里偷闲 正在看一本数据库的书籍 相信很多小伙伴们也都看过 MySQL 技术内幕 InnoDB 存储引擎 这本书很详细的讲述了 MySQL
  • 水墨Shader解析

    Chinese Ink wash Painting II Shader 简介 本文尝试对Chinese Ink wash Painting II 来源 https www shadertoy com view DdSyDW 的代码部分进行解
  • 转载:数字图像去噪典型算法及matlab实现 (http://gaochaojs.blog.51cto.com/812546/243961)

    版权声明 原创作品 允许转载 转载时请务必以超链接形式标明文章 原始出处 作者信息和本声明 否则将追究法律责任 http gaochaojs blog 51cto com 812546 243961 数字图像去噪典型算法及matlab实现
  • Python爬虫(一):编写简单爬虫之新手入门

    最近学习了一下python的基础知识 大家一般对 爬虫 这个词 一听就比较熟悉 都知道是爬一些网站上的数据 然后做一些操作整理 得到人们想要的数据 但是怎么写一个爬虫程序代码呢 相信很多人是不会的 今天写一个针对新手入门想要学习爬虫的文章