Python 3 中使用 pandas 和 Jupyter Notebook 进行数据分析和可视化

2023-11-11

介绍

蟒蛇pandas包用于数据操作和分析，旨在让您以直观的方式处理标记数据或关系数据。

The pandas软件包提供了电子表格功能，但由于您使用的是 Python，因此它比传统的图形电子表格程序更快、更高效。

在本教程中，我们将介绍如何设置一个大型数据集来使用，groupby() and pivot_table()的功能pandas，最后是如何可视化数据。

为了熟悉pandas包，你可以阅读我们的教程Python 3 中的 pandas 包及其数据结构简介.

先决条件

本指南将介绍如何使用数据pandas在本地桌面或远程服务器上。处理大型数据集可能会占用大量内存，因此无论哪种情况，计算机至少需要2GB内存执行本指南中的一些计算。

在本教程中，我们将使用Jupyter笔记本处理数据。如果您还没有，您应该遵循我们的安装和设置适用于 Python 3 的 Jupyter Notebook 的教程.

Now if you look back into your names directory, you’ll have .txt files of name data in CSV format. These files will correspond with the years of data on file, 1881 through 2015. Each of these files follow a similar naming convention. The 2015 file, for example, is called yob2015.txt, while the 1927 file is called yob1927.txt.

要查看其中一个文件的格式，让我们使用 Python 打开一个文件并显示前 5 行：

open('yob2015.txt','r').readlines()[:5]

运行代码并继续ALT + ENTER.

Output['Emma,F,20355\n',
 'Olivia,F,19553\n',
 'Sophia,F,17327\n',
 'Ava,F,16286\n',
 'Isabella,F,15504\n']

数据格式化的方式是名称优先（如Emma or Olivia），接下来是性行为（如F对于女性名字和M男性名字），然后是当年出生的以该名字命名的婴儿数量（2015 年出生的名为艾玛的婴儿有 20,355 名）。

有了这些信息，我们就可以将数据加载到pandas.

将 CSV 数据加载到`pandas`

将逗号分隔值数据加载到pandas我们将使用pd.read_csv()函数，传递文本文件的名称以及我们决定的列名称。在本例中，我们将其分配给一个变量names2015因为我们使用的是 2015 年出生年份文件中的数据。

names2015 = pd.read_csv('yob2015.txt', names = ['Name', 'Sex', 'Babies'])

Type ALT + ENTER运行代码并继续。

为了确保这一点成功，让我们显示表格的顶部：

names2015.head()

当我们运行代码并继续时ALT + ENTER，我们将看到如下所示的输出：

names2015.head output

我们的表现在包含按列排列的姓名、性别和出生婴儿数量的信息。

连接`pandas` Objects

连接pandas对象将允许我们处理所有单独的文本文件names目录。

为了连接这些，我们首先需要通过将变量分配给未填充的列表来初始化列表列表数据类型:

all_years = []

完成后，我们将使用for loop按年份迭代所有文件，范围为 1880-2015。我们将添加+1到 2015 年底，以便 2015 年包含在循环中。

all_years = []

for year in range(1880, 2015+1):

在循环中，我们将使用 a 将每个文本文件值附加到列表中字符串格式化程序处理每个文件的不同名称。我们将把这些值传递给year多变的。同样，我们将指定列Name, Sex，以及数量Babies:

all_years = []

for year in range(1880, 2015+1):
    all_years.append(pd.read_csv('yob{}.txt'.format(year),
                                 names = ['Name', 'Sex', 'Babies']))

此外，我们将为每年创建一个列以保持它们的顺序。我们可以在每次迭代后使用索引来做到这一点-1随着循环的进行指向它们。

all_years = []

for year in range(1880, 2015+1):
    all_years.append(pd.read_csv('yob{}.txt'.format(year),
                                 names = ['Name', 'Sex', 'Babies']))
    all_years[-1]['Year'] = year

最后，我们将其添加到pandas使用连接的对象pd.concat()功能。我们将使用变量all_names来存储这些信息。

all_years = []

for year in range(1880, 2015+1):
    all_years.append(pd.read_csv('yob{}.txt'.format(year),
                                 names = ['Name', 'Sex', 'Babies']))
    all_years[-1]['Year'] = year

all_names = pd.concat(all_years)

我们现在可以运行循环ALT + ENTER，然后通过调用结果表的尾部（最底部的行）来检查输出：

all_names.tail()

all_names.tail outputl

我们的数据集现已完成，可以使用它进行额外的工作pandas.

数据分组

With pandas您可以按列对数据进行分组.groupby()功能。使用我们的all_names我们的完整数据集的变量，我们可以使用groupby()将数据拆分到不同的桶中。

让我们按性别和年份对数据集进行分组。我们可以这样设置：

group_name = all_names.groupby(['Sex', 'Year'])

我们可以运行代码并继续ALT + ENTER.

此时如果我们只调用group_name变量我们将得到这个输出：

Output<pandas.core.groupby.DataFrameGroupBy object at 0x1187b82e8>

这向我们表明它是一个DataFrameGroupBy目的。该对象具有有关如何对数据进行分组的说明，但没有给出有关如何显示值的说明。

为了显示值，我们需要给出指令。我们可以计算.size(), .mean(), and .sum()，例如，返回一个表。

让我们从.size():

group_name.size()

当我们运行代码并继续时ALT + ENTER，我们的输出将如下所示：

OutputSex  Year
F    1880      942
     1881      938
     1882     1028
     1883     1054
     1884     1172
...

该数据看起来不错，但还可以更具可读性。我们可以通过附加.unstack功能：

group_name.size().unstack()

现在，当我们运行代码并继续输入时ALT + ENTER，输出如下所示：

group_name.size().unstack() output

这些数据告诉我们的是每年有多少个女性和男性名字。例如，1889 年，女性名字有 1,479 个，男性名字有 1,111 个。 2015年，女性名字有18,993个，男性名字有13,959个。这表明随着时间的推移，名称出现了更大的多样性。

如果我们想要获得出生婴儿的总数，我们可以使用.sum()功能。让我们将其应用到较小的数据集，names2015从单个设置yob2015.txt我们之前创建的文件：

names2015.groupby(['Sex']).sum()

让我们输入ALT + ENTER运行代码并继续：

names2015.groupby(['Sex']).sum() output

这向我们展示了 2015 年出生的男性和女性婴儿的总数，尽管数据集中只计算了该年名字被使用至少 5 次的婴儿。

The pandas .groupby()函数允许我们将数据分割成有意义的组。

数据透视表

数据透视表对于汇总数据很有用。它们可以自动对存储在一张表中的数据进行排序、计数、总计或平均。然后，他们可以在汇总数据的新表中显示这些操作的结果。

In pandas, the pivot_table()函数用于创建数据透视表。

要构建数据透视表，我们首先调用要使用的 DataFrame，然后调用要显示的数据以及它们的分组方式。

在此示例中，我们将使用all_names数据，并在一个维度上按姓名分组，在另一个维度上按年份分组显示婴儿数据：

pd.pivot_table(all_names, 'Babies', 'Name', 'Year')

当我们打字时ALT + ENTER运行代码并继续，我们将看到以下输出：

pd.pivot_table(all_names, 'Babies', 'Name', 'Year') output

因为这显示了很多空值，所以我们可能希望将“名称”和“年份”保留为列，而不是在一种情况下保留为行，在另一种情况下保留为列。我们可以通过将数据分组在方括号中来做到这一点：

pd.pivot_table(all_names, 'Babies', ['Name', 'Year'])

一旦我们输入ALT + ENTER要运行代码并继续，此表现在将仅显示每个名称记录的年份数据：

OutputName       Year
Aaban      2007     5.0
           2009     6.0
           2010     9.0
           2011    11.0
           2012    11.0
           2013    14.0
           2014    16.0
           2015    15.0
Aabha      2011     7.0
           2012     5.0
           2014     9.0
           2015     7.0
Aabid      2003     5.0
Aabriella  2008     5.0
           2014     5.0
           2015     5.0

此外，我们可以对数据进行分组，将姓名和性别作为一个维度，将年份作为另一个维度，如下所示：

pd.pivot_table(all_names, 'Babies', ['Name', 'Sex'], 'Year')

当我们运行代码并继续时ALT + ENTER，我们会看到下表：

pd.pivot_table(all_names, 'Babies', ['Name', 'Sex'], 'Year') output

数据透视表让我们可以从现有表创建新表，从而使我们能够决定如何对数据进行分组。

可视化数据

通过使用pandas与其他包一样matplotlib我们可以在笔记本中可视化数据。

我们将可视化有关多年来某个名字的受欢迎程度的数据。为了做到这一点，我们需要设置和排序索引来重新处理数据，这将使我们能够看到特定名称的受欢迎程度的变化。

The pandas包使我们能够执行分层或多级索引，从而使我们能够存储和操作具有任意维数的数据。

我们将使用性别信息、姓名信息、年份信息对数据进行索引。我们还想对索引进行排序：

all_names_index = all_names.set_index(['Sex','Name','Year']).sort_index()

Type ALT + ENTER运行并继续到下一行，我们将让笔记本显示新的索引 DataFrame：

all_names_index

运行代码并继续ALT + ENTER，输出将如下所示：

all_names_index output

接下来，我们要编写一个函数来绘制某个名称随时间的流行程度。我们将调用该函数name_plot并通过sex and name作为我们运行该函数时将调用的参数。

def name_plot(sex, name):

我们现在将设置一个名为data来保存我们创建的表。我们还将使用pandas数据框loc为了通过索引的值选择我们的行。在我们的例子中，我们想要loc基于 MultiIndex 中的字段组合，引用两个sex and name data.

让我们将这个结构写入我们的函数中：

def name_plot(sex, name):
    data = all_names_index.loc[sex, name]

最后，我们想要绘制这些值matplotlib.pyplot 我们导入为pp。然后，我们将根据索引绘制性别和姓名数据的值，对于我们的目的来说，索引是年。

def name_plot(sex, name):
    data = all_names_index.loc[sex, name]
    
    pp.plot(data.index, data.values)

Type ALT + ENTER运行并移动到下一个单元格。我们现在可以使用我们选择的性别和名称来调用该函数，例如F对于带有名字的女性名字Danica.

name_plot('F', 'Danica')

当您输入时ALT + ENTER现在，您将收到以下输出：

Danica Name Plot output

请注意，根据您使用的系统，您可能会收到有关字体替换的警告，但数据仍会正确绘制。

从可视化中我们可以看到，女性名字 Danica 在 1990 年左右的受欢迎程度略有上升，并在 2010 年之前达到顶峰。

我们创建的函数可用于绘制多个名称的数据，以便我们可以看到不同名称随时间变化的趋势。

让我们首先将绘图放大一点：

pp.figure(figsize = (18, 8))

接下来，让我们创建一个列表，其中包含我们要绘制的所有名称：

pp.figure(figsize = (18, 8))

names = ['Sammy', 'Jesse', 'Drew', 'Jamie']

现在，我们可以使用以下命令迭代列表for循环并绘制每个名称的数据。首先，我们将尝试将这些中性名字作为女性名字：

pp.figure(figsize = (18, 8))

names = ['Sammy', 'Jesse', 'Drew', 'Jamie']

for name in names:
    name_plot('F', name)

为了使这些数据更容易理解，我们添加一个图例：

pp.figure(figsize = (18, 8))

names = ['Sammy', 'Jesse', 'Drew', 'Jamie']

for name in names:
    name_plot('F', name)
    
pp.legend(names)

我们将输入ALT + ENTER运行代码并继续，然后我们将收到以下输出：

Name plot, female names output

虽然每个名字作为女性名字都在慢慢流行，但 Jamie 这个名字在 1980 年左右作为女性名字最受欢迎。

让我们绘制相同的名字，但这次是男性名字：

pp.figure(figsize = (18, 8))

names = ['Sammy', 'Jesse', 'Drew', 'Jamie']

for name in names:
    name_plot('M', name)
    
pp.legend(names)

再次输入ALT + ENTER运行代码并继续。该图将如下所示：

Name plot, male names output

该数据显示各种名字更受欢迎，Jesse 通常是最受欢迎的选择，并且在 20 世纪 80 年代和 90 年代尤其受欢迎。

从这里，您可以继续使用名称数据，创建有关不同名称及其受欢迎程度的可视化效果，并创建其他脚本来查看不同的数据以进行可视化。

结论

本教程向您介绍了处理大型数据集的方法，从设置数据到对数据进行分组groupby() and pivot_table()，使用 MultiIndex 对数据进行索引，并可视化pandas数据使用matplotlib包裹。

许多组织和机构提供了数据集，您可以使用它们来继续了解pandas和数据可视化。美国政府通过以下方式提供数据data.gov，例如。

您可以了解有关可视化数据的更多信息matplotlib遵循我们的指南如何使用 matplotlib 在 Python 3 中绘制数据 and 如何使用 matplotlib 和 Python 3 绘制词频图.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 3 中使用 pandas 和 Jupyter Notebook 进行数据分析和可视化的相关文章

无法在 Jupyter Notebook 中安装 arcpy

我安装了 ArcGIS Pro 其中包括已安装的 Python 包我正在尝试学习 Python 并且想使用 ArcPy 函数我以前从未使用过 Jupyter Notebook 但为了开始使用我创建了一个新的 Python 3 文件我
Python：如果满足条件，则循环遍历一个字典并在新字典中创建键/值对

我想将一个字典的值与第二个字典的值进行比较如果值满足特定条件我想创建第三个字典其中的键和值对将根据匹配情况而变化这是一个显示我的问题的人为示例编辑对所有返回感到抱歉但堆栈溢出无法识别单个返回并且在一行上运行 3 4 行使代
让 Django 提供可下载文件

我希望网站上的用户能够下载路径被遮挡的文件因此无法直接下载它们例如我希望 URL 是这样的 http example com download f somefile txt 在服务器上我知道所有可下载的文件都位于该文件夹中 home
熊猫加入具有不同索引级别/日期时间的数据帧？

嗨我有两个 DataFrame 如下所示 dineType menuName unique columns date y m d
使用 Python 将列名称与 CSV 文件中的数据对齐

这是我用来将数据写入 csv 文件的代码 with open temp csv a as fp a csv writer fp delimiter t data faceXpos faceYpos faceHeight faceWidth
如何从 Windows 7 PC 上完全卸载 Python 2.7

从这里安装了Python 2 7 https www python org downloads release python 279 https www python org downloads release python 279 然后我
绘制对数轴

我想使用 matplotlib 绘制一张带有一个对数轴的图我一直在阅读文档但无法弄清楚语法我知道这可能很简单 scale linear 在情节争论中但我似乎无法正确理解示例程序 import pylab import matplo
以编程方式结束/退出粘合作业

我正在使用 Glue 书签来处理数据我的工作是每天安排的但也可以手动启动由于我使用书签有时胶水作业可以在没有新数据要处理的情况下启动然后读取的数据帧为空在这种情况下我想好好地结束我的工作因为它没有什么关系我试过 if
NLTK：包错误？朋克和泡菜？

基本上我不知道为什么会收到此错误只是为了获得更多图像这里有一个代码格式的类似消息由于是最新的该帖子的答案已经在消息中提到 Preprocessing raw texts LookupError Traceback most rec
我可以在pycharm中的断点处进入交互模式吗

我是一个相当新的 Pycharm 3 用户正在从事 django 项目我可以在 pycharm3 中的断点处进入交互模式吗这可能吗当程序在断点处停止时我尝试过工具 gt 打开调试命令行但我没有看到控制台打开我怎样才能让它发挥作
Python3 - 如何将字符串转换为十六进制

我正在尝试将字符串逐个字符转换为十六进制但我无法在Python3中弄清楚它在较旧的 python 版本中我的以下内容有效 test This is a test for c in range 0 len test print 0x s
无法使用 wxPython 打开在 folium 中生成的本地 HTML 文件

我目前正在尝试将 GPS 坐标绘制为地图上的标记并在 wxPython 中显示结果我使用 folium 绘制坐标标记并生成 HTML 文件 import folium fmap folium Map 43 5321 172 6362 z
在 Python 中通过网络发送对象的最佳方式是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我需要通过网络发送对象我将使用 Twisted 并且我刚刚开始查看它的文档据我所知 python实现套接字的唯一方式是通过文本那么我如何使
AppEngine 警告 - OpenBLAS 警告 - 无法确定该系统上的 L2 缓存大小

我尝试在 GC AppEngine 上部署应用程序部署过程中没有错误但应用程序无法运行仅显示加载页面日志中唯一一个奇怪的原始日志 OpenBLAS WARNING could not determine the L2 cache s
使用 Python 获取 Youtube 数据

我正在尝试学习如何分析网络上可用的社交媒体数据我从 Youtube 开始 from apiclient errors import HttpError from outh2client tools import argparser fro
如何从 PyObject 获取指向字符串的 char*

我怎样才能得到一个char from a PyObject它指向一个字符串例如这是 python 脚本 Test Connect 272 22 20 65 1234 这是 C 代码 static PyObject Connect PyO
`numpy.diff` 和 `scipy.fftpack.diff` 在微分时给出不同的结果

我正在尝试计算一些数据的导数并且正在尝试比较有限差分的输出和谱方法的输出但结果却截然不同我无法弄清楚到底为什么考虑下面的示例代码 import numpy as np from scipy import fftpack as sp
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
重写 __cmp__ python 函数

嗨我是压倒一切的 cmp 如果传递的第二个对象是None 或者如果它不是一个实例someClass 然后返回 1 我不明白这里到底发生了什么 class someClass def cmp self obj if obj None ret
我可以以某种方式“编译”一个Python脚本以在没有安装Python的PC上运行吗？

所以我有一个Python脚本 myscript py 我是这样执行的 python D myscript py 但是我必须安装 Python 并将其包含在PATH使其工作的环境变量是否有可能以某种方式将 Python 可执行文件与 Py

随机推荐

如何在树莓派上安装Java

Java 是最流行的编程语言之一用于构建不同类型的应用程序和系统 Java 有两种不同的实现 Oracle Java 和 OpenJDK OpenJDK 是 Java 平台的开源实现 Oracle Java 有一些额外的商业功能和lice
如何在 CentOS 7 上安装 Tomcat 8.5

本教程向您展示如何在 CentOS 7 上安装 Tomcat 8 5 Tomcat 是 Java Servlet JavaServer Pages Java 表达式语言和 Java WebSocket 技术的开源实现先决条件在开始本教程
Python 中的 numpy.square()

Python numpy square 函数返回一个新数组其元素值作为源数组元素的平方源数组保持不变 Python numpy square 示例它是一个快速求矩阵元素平方的实用函数让我们看一下带有整数浮点和复数类型数组元素的 n
如何在 Ubuntu 14.04 上安装和保护 phpMyAdmin

介绍虽然许多用户需要 MySQL 等数据库管理系统的功能但他们可能不习惯仅通过 MySQL 提示符与系统交互 php我的管理员创建的目的是让用户可以通过 Web 界面与 MySQL 进行交互在本指南中我们将讨论如何安装和保护 php
如何在 CentOS 7 上安装 Elasticsearch、Logstash 和 Kibana（ELK Stack）

介绍在本教程中我们将介绍在 CentOS 7 即 Elasticsearch 2 2 x Logstash 2 2 x 和 Kibana 4 4 x 上安装 Elasticsearch ELK Stack 我们还将向您展示如何使用 Fi
如何在 Ubuntu 上的 WordPress 中配置安全更新和安装

Status 已弃用本文介绍不再受支持的 Ubuntu 版本如果您当前运行的服务器运行 Ubuntu 12 04 我们强烈建议您升级或迁移到受支持的 Ubuntu 版本升级到Ubuntu 14 04 从 Ubuntu 14 04 升级
Spring JDBC 示例

Spring JDBC 是本教程的主题数据库是大多数企业应用程序不可或缺的一部分因此当涉及到 Java EE 框架时必须与JDBC非常重要春季 JDBC Spring Framework provides excellent in
带有 COUNT() 函数的 SQL SELECT 语句

嘿伙计在这篇文章中我们将重点关注SQL SELECT 语句以及 COUNT 函数什么是 SQL SELECT 语句 SQL SELECT 语句帮助我们选择并显示数据库特定表中的数据值 Syntax SELECT columns FRO
Python 有序字典

Python OrderedDict 是一个dict维护项目插入顺序的子类当我们迭代 OrderedDict 时项目将按照插入的顺序返回常规字典不跟踪插入顺序因此当对其进行迭代时项目会以任意顺序返回当我们想要确保项目按照插入顺
代理设计模式

代理设计模式是结构设计模式之一在我看来也是最容易理解的模式之一代理设计模式 Proxy design pattern intent according to GoF is Provide a surrogate or placehold
如何在 Ubuntu 16.04 上使用 RVM 安装 Ruby on Rails

介绍 Ruby on Rails 是最受希望创建网站和 Web 应用程序的开发人员欢迎的应用程序堆栈之一 Ruby 编程语言与 Rails 开发框架相结合使应用程序开发变得简单您可以使用命令行工具轻松安装 Ruby 和 RailsRVM
C/C++中二叉树的高度

二叉树的高度定义为任何叶节点距根节点的最大深度即从根节点到任意叶子节点的最长路径的长度让我们考虑下面的二叉树 Binary Tree Ht 由于最大深度对应的叶子节点为40 and 50 为了求出高度我们只需求出从根节点到这两个节点之
如何在 Ubuntu 22.04 上安装和配置 Ansible

介绍配置管理系统旨在简化管理员和运营团队控制大量服务器的过程它们允许您从一个中心位置以自动化方式控制许多不同的系统虽然有许多流行的配置管理工具可用于 Linux 系统例如Chef and Puppet 这些通常比许多人想要或需要的更
了解 R 中的plot() 函数 - 图形绘制基础知识

在本教程中让我们首先了解 R 中使用plot 函数的基础知识 R 语言以其精美的图形而闻名它具有丰富的函数来构建和格式化任何类型的图形以及plot 函数族之一可以帮助我们构建这些函数 R 中的plot 函数不是单个定义的函数而是一系列
如何在 Ubuntu 14.04 上安装 Tinc 并设置基本 VPN

介绍在本教程中我们将介绍如何使用 Tinc 一个开源虚拟专用网络 VPN 守护程序来创建一个安全的 VPN 您的服务器可以在该 VPN 上进行通信就像在本地网络上一样我们还将演示如何使用 Tinc 建立通往专用网络的安全隧道我们
如何使用 Python WebSSH 从浏览器连接到终端

介绍通常您使用终端中的命令行应用程序或包含 SSH 客户端的终端仿真器软件连接到 SSH 服务器一些工具例如 Python 的WebSSH 可以通过 SSH 连接并直接在 Web 浏览器中运行终端这在许多情况下都很有用当以具有视
在 Ubuntu 18.04 上使用 Nginx 安装 WordPress

WordPress是最受欢迎的开源内容管理系统 CMS 之一与 Drupal 或 Joomla 等其他 CMS 相比拥有高达 60 的市场份额 WordPress 可用于开发任何类型的网站无论是博客小型企业还是大型企业凭借其免费和
Java中的模板方法设计模式

模板方法是行为设计模式模板方法设计模式用于创建方法存根并将某些实现步骤推迟到子类模板方法设计模式模板方法定义了执行算法的步骤并且它可以提供可能对所有或某些子类通用的默认实现让我们通过一个例子来理解这个模式假设我们想提供一种建造房
如何在虚拟专用服务器上配置 Nginx Web 服务器

Status 已弃用本文介绍不再受支持的 Ubuntu 版本如果您当前运行的服务器运行 Ubuntu 12 04 我们强烈建议您升级或迁移到受支持的 Ubuntu 版本升级到Ubuntu 14 04 从 Ubuntu 14 04 升级
Python 3 中使用 pandas 和 Jupyter Notebook 进行数据分析和可视化

介绍蟒蛇pandas包用于数据操作和分析旨在让您以直观的方式处理标记数据或关系数据 The pandas软件包提供了电子表格功能但由于您使用的是 Python 因此它比传统的图形电子表格程序更快更高效在本教程中我们将介绍如何设置

Python 3 中使用 pandas 和 Jupyter Notebook 进行数据分析和可视化

Python 3 中使用 pandas 和 Jupyter Notebook 进行数据分析和可视化 的相关文章

随机推荐

热门标签

Python 3 中使用 pandas 和 Jupyter Notebook 进行数据分析和可视化的相关文章