Python 爬虫+可视化,手把手教你使用 Python 爬取 JD 网站并且可视化展示

2023-05-16

当你看到别人使用 Python 网络爬虫做出一些高大上的项目你是否也有那么一点点的心动?羡慕别人用几行简单的代码就能获取到自己想要的数据?羡慕别人用几行代码就能做出优美的可视化图案?

我将使用最新 Python 3.9 在中秋之际为大家抓取某东月饼并使用 openpyxl 存入 Excel,然后使用 Pandas 清洗处理最后使用 pyecharts 可视化展示。通过这样一个简单的案例你将学到以下内容:

  1. 最新 Python 3.9 环境安装配置
  2. 静态页面和动态页面时 Python 爬取数据方式
  3. 使用 Openpyxl 对 Excel 数据进行存储处理
  4. Pandas 对数据数据处理(清洗、筛选、过滤等)
  5. 使用 Jieba 分词并且使用 WordCloud 制作精美词云图和词频图
  6. 使用 pyecharts 对处理后的数据进行直方图、折线图、饼图和漏斗图等的简单了解和使用
  7. 使用 SnowNLP 模块对用户进行情感分析以确定用户对产品的满意度

接下来我们一起进入实战吧!

Python 3.9 环境搭建 for windows

1. 打开 Python 官网 ,选择最新版本 3.9 下载:

https://www.python.org/downloads/

在这里插入图片描述

2. 下载完成,双击 exe 文件进行安装,一路选择 Next,等待安装完成即可。

在这里插入图片描述

3. 验证 Python 环境是否安装搭建:Win 下面打开 cmd 窗口(win 键+ R,输入 cmd 回车),在 cmd 窗口中输入 python 命令,回车后显示当前 python 版本即可,即可证明安装成功。

图片

4. 第一个 Python 程序

我们在上面一步的基础上,来写我们使用的第一个 Python 程序,命令行中输入如下语法:

print("hello world!")

输入完后执行回车键,命令行就会输出 hello world!,如下图:

图片

这样我们第一个 Python 程序就完成了,是不是很简单?

静态页面和动态页面时 Python 爬取数据方式

首先我们先来简单了解一下什么是静态和动态网页。

静态网页:

  • 数据非结构化:HTML 标签
  • 处理方式可以为:正则表达式、xpath、BeautifulSoup
  • 静态页面的数据都包含在响应中,可通过分析源代码获取对应节点
  • 名称/值,一般会在响应的 URL 中,以 ? 代表 URL 结束

例如我们熟知的豆瓣电影网站就是一个静态加载的页面:

在这里插入图片描述

动态页面:

  • 数据结构化:json、xml 等
  • 可直接转化为 Python 类型
  • 动态页面数据存储在 json 中,可通过响应内容获得 json 数据

对于静态网页的爬虫不用多说大家也都知道,网页中所呈现的内容我们都可以在源码中找到。因为爬取静态网页非常的简单,只要用 requests 直接把 html 爬取下来然后用正则等方式匹配我们所要获取的内容就可以了。

相对于静态网页的简单,但是动态网页的就会相对而而言会复杂一下,它是网站在不重新加载的情况下,通过 Ajax 等技术动态更新网站中的局部数据。比如拉勾网的职位页面,在换页的过程中,url 是没有发生改变的,但是职位数据动态的更改了。

而我们今天要获取的 JD 数据就是一个动态网页加载的案例。

如何区分静态加载还是动态加载的网页呢?告诉你们一个很简单的方法:打开浏览器设置搜索 JavaScript,关闭它然后重新刷新网页。还可以正常加载出来内容就是静态网页,反之则为动态加载的网页。

阅读全文点击这里

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python 爬虫+可视化,手把手教你使用 Python 爬取 JD 网站并且可视化展示 的相关文章

随机推荐

  • wsl作为开发主机与开发板联调

    linux开发经历记录 wsl作为开发主机与开发板联调 uboot使用nfs网络挂载时使用hanewin搭建win10的nfs servers 背景介绍 小白学习linux开学 xff0c 不想用VM虚拟机作为开发平台 xff0c 恰好了解
  • weka中文乱码解决办法

    由于weka的默认字符集编码是Cp1252 xff0c 所以如果你导入的数据中有中文字符 xff0c 就会出现乱码的情况 xff0c 所以需要weka的RunWeka ini文件 将cp1252替换成你的数据对应的字符集编码 xff0c 比
  • 动态库和静态库的区别

    静态库 xff1a 这类库的名字一般是libxxx a xff1b 1 利用静态函数库编译成的文件比较大 xff0c 因为整个函数库的所有数据都会被整合进目标代码中 xff0c 他的优点就显而易见了 xff0c 2 即编译后的执行程序不需要
  • 重复数据删除技术(Data Deduplication)

    我相信所有人都会同意 xff0c 数据存储正在以飞快地 xff0c 甚至是令人震惊的速度在增长 这意味着为了不影响普通用户的正常使用 xff0c 存储管理员们不得不加班加点地在幕后 工作着 他们的鲜为人知的工作包括 xff1a 配额管理 x
  • TCP/IP协议

    TCP IP 协议栈是一系列网络协议的总和 xff0c 是构成网络通信的核心骨架 xff0c 它定义了电子设备如何连入因特网 xff0c 以及数据如何在它们之间进行传输 TCP IP 协议采用4层结构 xff0c 即应用层 传输层 网络层和
  • 趣谈网络协议-云计算中的协议

  • ros里Catkin的CMakelists/package.xml

    Catkin是基于CMake的编译构建系统 xff0c 具有以下特点 xff1a Catkin沿用了包管理的传统像 find package 基础结构 pkg config扩展了CMake xff0c 例如 软件包编译后无需安装就可使用 自
  • js根据坐标进行图片截图,获取图片上指定位置的截图

    根据坐标截取图片上指定的区域 xff0c 坐标可以是规则的图片截取 xff0c 也可以是不规则的图片截取 实现思路 xff1a 规则裁剪自然不用多说 xff0c 我们使用画布的getImageData x y width height 方法
  • 浅谈APM系列-----update_flight_mode(ModeAltHold)

    update flight mode xff08 ModeAltHold xff09 这里只看ModeAltHold 位置 xff1a X ardupilot ArduCopter mode cpp update flight mode c
  • 多态的总结

    对于多态 xff0c 可以总结以下几点 xff1a 一 使用父类类型的引用指向子类的对象 xff1b 二 该引用只能调用父类中定义的方法和变量 xff1b 三 如果子类中重写了父类中的一个方法 xff0c 那么在调用这个方法的时候 xff0
  • android 深度图

    在 Android开发中自定义控件是一个范围很广的话题 xff0c 讲起自定义控件 xff0c 从广度上来划分的话 xff0c 大体上可以划分为 xff1a View ViewGroup的绘制事件分发各种动画效果滚动嵌套机制还有涉及到相关的
  • 在配置Intel realsense (D435i)时遇到的问题

    1 第一次配置相机时 配置完成后 运行相机报以下错误 02 11 20 50 18 674 WARNING 140196725126912 messenger libusb cpp 42 control transfer returned
  • Robosense M1/速腾半固态激光雷达M1 保姆级教程1-如何连接雷达?

    引言 当我们拿到M1雷达时 xff0c 可能会因为激光雷达是一个新的设备 xff0c 没有用过 xff0c 而感到紧张和局促 没有关系 xff0c 通过阅读文本 xff0c 可以让你轻而易举的上手使用激光雷达 1认识M1接口 图中较粗的接口
  • PMP(一):知识要点汇总

    开篇 首先恭喜自己成为 项目管理专业人士 的一员 xff0c 本专题旨在帮助自己重新梳理整个的知识体系以及后续对于项目管理的理解与尝试 系列一 xff1a 知识要点汇总 以下内容是我在备考和考完后对于部分知识要点的一个汇总和总结 xff0c
  • git在vscode中的使用

    git在vscode中的使用 vscode 作为前端使用较多的软件 xff0c 平时的git操作不可避免 xff0c 但是利用vscode自带的功能和插件 xff0c 可以让我们的工作效率提高不少 项目准备 直接clone span cla
  • 获利空间看刘嘉玲理论来看;乐扣乐扣尽量靠近k

    i tiboo cn 1768805 i tiboo cn 1768806 i tiboo cn 1768807 i tiboo cn 1768810 i tiboo cn 1768813
  • 我见过最清晰的--理解梯度,散度,旋度

    作者 xff1a FRANK WANG 链接 xff1a https www zhihu com question 24074028 answer 26657334 来源 xff1a 知乎 梯度 运算的对像是纯量 运算出来的结果会是向量在一
  • 视觉应用工程师-环境安装教学视频-Mac系统其他操作

    立即学习 https edu csdn net course play 29993 432706 utm source 61 blogtoedu Mac系统安装miniconda搭建深度学习环境 安装 Conda是一个开源的包 环境管理器
  • Windows 环境下安装Redis 5.0.x 服务图文教程

    Windows 环境下安装Redis 5 0 x 服务图文教程 Redis官网并没有提供windows的安装包 xff0c github有第三方制作的windows安装包 下载地址 xff1a https github com tporad
  • Python 爬虫+可视化,手把手教你使用 Python 爬取 JD 网站并且可视化展示

    当你看到别人使用 Python 网络爬虫做出一些高大上的项目你是否也有那么一点点的心动 xff1f 羡慕别人用几行简单的代码就能获取到自己想要的数据 xff1f 羡慕别人用几行代码就能做出优美的可视化图案 xff1f 我将使用最新 Pyth