使用Pandas处理Excel文件

2023-11-19

Excel工作表是非常本能和用户友好的,这使得它们非常适合操作大型数据集,即使是技术人员也不例外。如果您正在寻找学习使用Python在Excel文件中操作和自动化内容的地方,请不要再找了。你来对地方了。
在本文中,您将学习如何使用Pandas来处理Excel电子表格。在文章的最后,您将了解:

  • 为此需要必要的模块以及如何在系统中设置它们。
  • 使用Python从excel文件阅读数据到pandas中。
  • 在Pandas中浏览Excel文件中的数据。
  • 在Pandas中使用函数来操作和重塑数据。

安装

要在Anaconda中安装Pandas,我们可以在Anaconda终端中使用以下命令:

conda install pandas

要在常规Python(非Anaconda)中安装Pandas,我们可以在命令提示符中使用以下命令:

pip install pandas

开始使用

首先,我们需要导入Pandas模块,这可以通过运行命令来完成:

import pandas as pd

输入文件: 让我们假设excel文件看起来像这样

Sheet 1:

在这里插入图片描述
Sheet 2:

在这里插入图片描述
现在我们可以使用Pandas中的read_excel函数导入excel文件。第二个语句从excel中读取数据并将其存储到pandas数据框中,该数据框由变量newData表示。如果excel工作簿中有多个工作表,则该命令将导入第一个工作表的数据。要使用工作簿中的所有工作表创建数据框,最简单的方法是分别创建不同的数据框,然后将它们连接起来。read_excel方法接受参数sheet_name和index_col,我们可以指定数据框应该由哪个工作表组成,index_col指定标题列,如下所示:

file =('path_of_excel_file')
newData = pd.read_excel(file)
newData

在这里插入图片描述
示例:
第三个语句连接两个表。现在要检查整个数据帧,我们可以简单地运行以下命令:

sheet1 = pd.read_excel(file,
                        sheet_name = 0,
                        index_col = 0)
 
sheet2 = pd.read_excel(file,
                        sheet_name = 1,
                        index_col = 0)
 
newData = pd.concat([sheet1, sheet2])
 
newData

在这里插入图片描述
要从数据框的顶部和底部查看5列,可以运行命令。这个head()tail()方法也接受参数作为要显示的列数的数字。

newData.head()
newData.tail()

在这里插入图片描述
在这里插入图片描述
shape方法可用于查看数据框中的行数和列数,如下所示:

newData.shape

在这里插入图片描述
如果任何列包含数值数据,我们可以使用pandas中的sort_values()方法对该列进行排序,如下所示:

sorted_column = newData.sort_values(['Height'], ascending = False)

现在,假设我们想要排序列的前5个值,我们可以在这里使用head()方法:

sorted_column['Height'].head(5)

在这里插入图片描述
我们可以使用数据框的任何数值列来执行此操作,如下所示:

newData['Weight'].head()

在这里插入图片描述
现在,假设我们的数据主要是数字。我们可以得到统计信息,如平均值,最大值,最小值等。使用describe()方法对数据帧进行处理,如下所示:

newData.describe()

在这里插入图片描述
也可以使用以下命令对所有数值列单独执行此操作:

newData['Weight'].mean()

在这里插入图片描述
也可以使用相应的方法来计算其他统计信息。与Excel一样,也可以应用公式并创建计算列,如下所示:

newData['calculated_column'] =
                newData[“Height”] + newData[“Weight”]
newData['calculated_column'].head()

在这里插入图片描述
对数据框中的数据进行操作后,我们可以使用to_excel方法将数据导出回Excel文件。为此,我们需要指定一个输出excel文件,其中要写入转换后的数据,如下所示:

newData.to_excel('Output File.xlsx')

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用Pandas处理Excel文件 的相关文章

随机推荐

  • tcp/ip在物理层/数据链路层 实现简单抓包

    socket的精妙之处在于协议族的横向转换和地址族的纵向转换 我们也可在更底层实现对流经host的数据流的监督和修改 尤其是监察数据 十分简单 这里是混杂模式实现对ip数据流的监察与对tcp数据流的简单查看 需要root权限 这里忽略了tc
  • 整理一下go的ci工具

    代码格式化 go fmt fileName go goimports 自动格式化import goimports w fileName go mod 自动更新 删除包 go mod tidy 检查注释是否符合导出 1 安装revive go
  • 关于如何修复烧写镜像文件失败的SD卡

    前言 使用某些软件 比如 win32 Disk Imager 向SD卡烧写镜像文件时 很有可能出现烧写失败的情况 通常如果烧写失败 系统会弹出请求格式化SD卡的提示框 此时不要点格式化 点了可能会造成不可挽救的结果 也可能不会 而是进行以下
  • 【C库函数】memcpy函数详解

    目录 memcpy 函数原型 参数讲解 返回值讲解 函数讲解 三个注意点 memcpy 拷贝内存块到目标空间 函数原型 void memcpy void dest const void src size t count 参数讲解 参数 de
  • 百度AI──自然语言处理使用教程

    百度AI 自然语言处理使用教程 情感倾向分析 创建自己的应用 python方式调用 安装Python SDK 创建一个 Python SDK客户端 配置AipNlp 调用接口 情感倾向分析 需要注意的几个点 完整代码 参考 创建自己的应用
  • Linux 配置 PaddleOCR环境

    配置环境 1 准备好CUDA和cudnn 安培架构GPU需配置CUDA 11 2 CUDNN 8 1 1 以下文档以安培架构GPU的为例 找到对应的版本下载CUDA https developer nvidia com cuda downl
  • 一位数组返回id和pid通过这两个参数转换为树形结构数据,和树形结构的渲染

    废话不多说直接上代码 html代码我是引用了一个jq的插件作为样式插件名字为 jOrgChart 具体内容大家可以评论到下方 div class com div class TheEditor 编辑 div div div div js代码
  • Java 实体设置指定日期格式

    import com fasterxml jackson annotation JsonFormat JsonFormat pattern yyyy MM dd HH mm ss timezone GMT 8 private Date cr
  • nginx 代理图片服务器

    location gif jpg jpeg png expires 24h root home sk ftp 指定图片存放路径 proxy store on proxy store access user rw group rw all r
  • MATLAB BP神经网络 笔记整理

    1 如何更改输出层的激活函数 传递函数 对于有两层神经网络结构 可以通过调用以下函数 net layers 1 or 2 transferFcn for the hidden net layers 3 transferFcn for the
  • C#实现遍历文件夹获取指定后缀名文件

    问题描述 项目需要 要进行某文件夹下所有shp数据的读取 解决方法 using System using System Collections Generic using System ComponentModel using System
  • Python机器学习/数据挖掘项目实战 波士顿房价预测 回归分析

    Python机器学习 数据挖掘项目实战 波士顿房价预测 回归分析 此数据源于美国某经济学杂志上 分析研究波士顿房价 Boston HousePrice 的数据集 在这个项目中 你将利用马萨诸塞州波士顿郊区的房屋信息数据训练和测试一个模型 并
  • Qt之一个类成员函数调用另一个类成员的方法

    原文 https blog csdn net qq 35721743 article details 83592415 在继承之外 在C 中一个类成员函数调用另一个类成员的方法主要有 类的组合 友元类 类的前向声明 单例模式等 下面主要讲讲
  • gym 101512 BAPC 2014 I Interesting Integers

    Problem codeforces com gym 101512 attachments vjudge net contest 186506 problem I Meaning 给出一个 正整数 n 要找尽量小的 a 和 b a lt b
  • 面向对象三大特性之一——多态详解

    目录 前言 一 多态的概念 二 多态的定义及实现 1 虚函数的概念 2 虚函数的重写 2 1概念 2 2虚函数重写的两个例外 3 多态的构成条件 4 c 11 override和final 4 1 final 4 2 override 5
  • Java(五)-Java集合(comparable,map,list

    集合 Collection集合 集合的概念 ArrayList就是一个集合 集合是Java提供的一种容器 可以用来存储多个数据 集合与数组的区别 1 数组的长度是固定的 集合的长度是可变的 2 数组中存储的是同一类型的元素 可以存储基本数据
  • C++ 和 C 使用的不同点(待定)

    1 结构体 C 中定义的结构体 不起别名的情况下使用时要添加 struct C 可以不用添加 struct 直接使用定义的结构体名称 struct Student int age char name C 不报错 C报错 Student Ge
  • JDK的监听 Spring的事件监听机制

    一 概述 使用场景 用户注册完成时 需要给该用户发送邮件 发送优惠劵等等操作 实现业务的解耦 MQ的异步 销峰 解耦 大体步骤 1 UserService 在完成自身的用户注册逻辑之后 仅仅只需要发布一个 UserRegisterEvent
  • 归一化与反归一化在Bi-LSTM多特征时序预测中应用(附实操代码)

    提示 文章写完后 目录可以自动生成 如何生成可参考右边的帮助文档 目录 前言 一 Bi LSTM 是什么 二 为什么要归一化和反归一化 1 归一化的好处 2 反归一化的好处 三 归一化和反归一化使用的公式 1 归一化 2 反归一化 四 实操
  • 使用Pandas处理Excel文件

    Excel工作表是非常本能和用户友好的 这使得它们非常适合操作大型数据集 即使是技术人员也不例外 如果您正在寻找学习使用Python在Excel文件中操作和自动化内容的地方 请不要再找了 你来对地方了 在本文中 您将学习如何使用Pandas