5种创建Dataframe方法

2023-11-10

下面将简要介绍Dataframe的5种创建方法，由于输出结果比较冗余，这里将不会展示输出结果，读者可以自行赋值粘贴，最好使用jupyter运行，并查看结果。另外的，代码中有非常详细的注释。

Dataframe创建方法一

import numpy as np
import pandas as pd

data1 = {
    "a":[1,2,3],
    "b":[4,5,6],
    "c":[7,8,9]   
}
data2 = {
    "one":np.random.rand(3),
    "two":np.random.rand(3)    # 这里尝试“two”：np.random.rand（4）会报错，
}

df1 = pd.DataFrame(data1)
# df1 = pd.DataFrame(data1，index = ["a","b","c"])
df2 = pd.DataFrame(data2)
print(df1)
print(df1.index)
print(df1.columns)
print()
print(df2)
print(df2.index)
print(df2.columns)

# 总结：由数字/list组成的字典，创建Dataframe，columns为字典的key，index为默认数字标签
# 并且字典的值的长度必须保持一致
# print("------------------------------------------")
# df1.columns = ["b", "a","c"]
# print(df1)  # 这里将会对columns参数重命名，数值不变,但是必须整体修改columns，即参数个数与columns个数相同
# df2.columns = ["one1","two2"]
# print(df2)
print("-------------------------------------------")
print(df1)
df1 = pd.DataFrame(data1, columns = ["b", "c", "a", "d"])
print(df1)
print('----------------------------------------------')
df1 = pd.DataFrame(data1, columns = ["b", "c"])
print(df1)

# columns 参数：可以重新指定列的顺序，格式为list，如果现有数据中没有该列，则产生NaN值
# 如果columns重新指定的时候，列的数量可以少于原数据
print("---------------------------------------------")
df2 = pd.DataFrame(data2, index = ["f1", "f2", "f3"])  # 指定index
print(df2)
# 尝试index = ["f1", "f2", "f3", "f4"],这里会报错，因此在指定索引的时候，其格式为list，
# 且必须将长度保持一致

Dataframe创建方法二：由Series组成的字典

data1 = {"one":pd.Series(np.random.rand(2)),
            "two":pd.Series(np.random.rand(3))
        }  # 没有设置index的Series
data2 = {"one":pd.Series(np.random.rand(2), index = ["a", "b"]),
        "two":pd.Series(np.random.rand(3), index = ["a", "b", "c"])}

print(data1)
print(data2)
print("-----------------------------------")
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
print(df1)
df3 = pd.DataFrame(data1, index = ["a", "b"])
print(df3)
print(df2)
# print()

# 总结：由Series组成的字典，创建Dataframe， columns为字典key， index为Series的标签（如果
#     Series没有指定标签，则默认数字标签）

# 另外的， Series可以长度不一样，生成的Dataframe会出现NaN值。这里和前面的使用list的字典创建爱
# Dataframe最大的不同点，它会自动对齐

方法三，通过二维数组之间创建（最常用的方法）

ar = np.random.rand(9).reshape(3,3)
print(ar)
df1 = pd.DataFrame(ar)
print(df1)
print()
df2 = pd.DataFrame(ar, index = ["a","b","c"], columns = ["one", "two", "three"])
print(df2)

print("-------------------尝试---------------------------")
# index和columns长度不等于原数组的情况
# df2 = pd.DataFrame(ar, index = ["a","b","c"], columns = ["one", "two", "three", "four"])  # 报错
# ValueError: Shape of passed values is (3, 3), indices imply (4, 3)

# df2 = pd.DataFrame(ar, index = ["a","b","c", "d"], columns = ["one", "two", "three"])  # 报错
# ValueError: Shape of passed values is (3, 3), indices imply (3, 4)

# df2 = pd.DataFrame(ar, index = ["a","b"], columns = ["one", "two", "three"])  # baocuo
# ValueError: Shape of passed values is (3, 3), indices imply (3, 2)

# df2 = pd.DataFrame(ar, index = ["a","b", "c"], columns = ["one", "two"])  # baocuo
# ValueError: Shape of passed values is (3, 3), indices imply (2, 3)

df2 = pd.DataFrame(ar, columns = ["one", "two","three"])
print(df2)

# 总结：通过二维数组直接创建Dataframe，得到一样形状的结果数据，如果不能指定index和columns，
# 两者均返回默认数字格式

# index和columns指定长度和原数组保持一致

方法四：由字典组成的列表

data = [{"one":1,"two":2},{"one":5,"two":10,"three":15}]
df1 = pd.DataFrame(data)
df2 = pd.DataFrame(data, index = ["a", "b"])
df3 = pd.DataFrame(data, columns = ["one", "two"])
df4 = pd.DataFrame(data, columns = ["one", "two", "three"])
df5 = pd.DataFrame(data, columns = ["one", "two", "three", "fff"])
print(df1)
print()
print(df2)
print()
print(df3)
print()
print(df4)
print()
print(df5)
# 总结：由字典组成的列表创建Dataframe， columns为字典的key， index不做指定默认为数字标签

方法五：由字典组成的字典

import numpy as np
import pandas as pd

data = {
    "Jack":{"math":90, "english":89, "art":78},
    "Marry":{"math":82, "english":95, "art":96},
    "Tom":{"math":85, "english":94}
}
df1 = pd.DataFrame(data)
print(df1)
print()

df2 = pd.DataFrame(data, columns = ["Jack", "Tom", "Bob"])
print(df2)
print()

df3 = pd.DataFrame(data, index = ["a", "b", "c"], columns = ["Jack", "Tom", "Bob"])
# AttributeError: 'list' object has no attribute 'astype'
print(df3)
print()
df4 = pd.DataFrame(data, index = ["art", "math", "english"], columns = ["Jack", "Tom", "Bob"])
print(df4)
print()

print(df1["Jack"])
print(df1.loc["art"])

# 总结：columns参数可以增加和减少现有列，如出现新的列，值为NaN
# index在这里和之前不同，并不能改变原有index，如果出现新的标签，值为NaN（非常重要）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析

pandas

DataFrame

5种创建Dataframe方法的相关文章

如何使用 str.replace 一次替换多个对？ [复制]

这个问题在这里已经有答案了目前我使用以下代码进行替换有点麻烦 df1 CompanyA df1 CompanyA str replace df1 CompanyA df1 CompanyA str replace df1 Company
Pandas HD5-查询，其中表达式失败

我想查询 HDF5 文件我愿意 df to hdf pfad df format table 将数据帧写入光盘为了阅读我使用 hdf pandas HDFStore pfad 我有一个列表其中包含numpy datetime64值称为
使用子图绘制 pandas 数据框 (subplots=True)：放置图例并使用紧凑的布局

我真的很喜欢 pandas 来处理和分析大数据集到目前为止我主要使用 matplotlib 进行绘图但现在想使用 pandas 自己的绘图功能基于 matplotlib 因为它需要更少的代码并且在大多数情况下对我来说似乎足够了尤
将 pandas 数据框中的多列更改为日期时间

我有一个 13 列和 55 000 行的数据框我正在尝试将其中 5 行转换为日期时间现在它们返回类型对象我需要转换这些数据以进行机器学习我知道如果我这样做 data birth date pd to datetime data b
Seaborn 分类数据条形图，分组

我想绘制按系列分组的分类数据的条形图例如我有 6 列的数据下面填充了任意值 df pd DataFrame np arange 12 reshape 2 6 columns A B C D E F A B C D E F 0 0 1
MySQL 存储过程、Pandas 和“执行多个语句时使用 multi=True”

注意正如下面 MaxU 所建议的该问题特定于 mysql connector 如果您使用 pymysql 则不会出现该问题希望这可以帮其他人省去一些麻烦使用Python Pandas 和mySQL 根本无法让存储过程返回结果更不用
如何使用python从文件夹中的pdf中提取文本并将其保存在数据框中？

我有很多文件夹每个文件夹都有几个 pdf 文件也有其他文件类型如 xlsx 或 doc 我的目标是提取每个文件夹的pdf文本并创建一个数据框其中每条记录都是文件夹名称每列以字符串形式表示该文件夹中每个pdf文件的文本内容我设法
Python：用中值替换异常值

我有一个 python 数据框其中有一些异常值如果这些值不存在的话我想用数据的中值替换它们 id Age 10236 766105 11993 288 9337 205 38189 88 35555 82 39443 75 10762
Pandas：如何从 Google Drive public 读取 CSV 文件？

我搜索了有关从 URL 读取 csv 的类似问题但找不到从 google 驱动器 csv 文件读取 csv 文件的方法我的尝试 import pandas as pd url https drive google com file d
如何使用Python更改Excel中的列格式

我想使用 openpyxl 方法将一张纸上的特定行和列复制到另一张纸上但我的主要 Excel 文件是 xlsb 文件而 openpyxl 不支持 xlsb 文件所以我构建了这种复杂的方式根据公司规则我无法从 Microsoft E
对 pandas 系列进行排序

我试图弄清楚如何以智能方式对 groupby 聚合生成的系列进行排序我生成 DataFrame 的聚合如下所示 means df testColumn groupby df testCategory mean 这产生了一个系列我现在尝
需要根据数据框中的行号应用不同的公式

我正在努力在数据框中找到某种移动平均值该公式将根据正在计算的行数而变化实际场景是我需要计算Z列 Edit 2 以下是我正在使用的实际数据 Date Open High Low Close 0 01 01 2018 1763 95 176
替换因子列中的

我想更换
如何将 pandas DataFrame 转换为 TimeSeries？

我正在寻找一种将 DataFrame 转换为 TimeSeries 而不拆分索引和值列的方法有任何想法吗谢谢 In 20 import pandas as pd In 21 import numpy as np In 22 dates
Python/PyTables：数组的不同列是否可以有不同的数据类型？

我创建了一个可扩展的 Nx4 列数组某些列需要 float64 数据类型其他列可以使用 int32 进行管理是否可以改变列之间的数据类型现在我只使用一个 float64 如下但它需要巨大的磁盘空间来存储 gt 10 GB 文件例
以间隔对包含 np.nan 的值进行分组

我有一个包含零一和 np nan 的 pandas 系列 import pandas as pd import numpy as np df1 pd Series 0 0 0 0 0 1 1 1 0 0 0 np nan np nan 1
Pandas：按天打破日期时间间隔

我有一个带有日期时间间隔的 DataFrame 如下所示 id start date end date 1 1 2016 10 01 00 00 00 2016 10 01 03 00 00 2 1 2016 10 03 05 30 00
使用 array.reshape(-1, 1) 重塑数组

我有一个名为的数据框data我试图从中找出任何异常价格数据帧头如下所示 Date Last Price 0 29 12 2017 487 74 1 28 12 2017 422 85 2 27 12 2017 420 64 3 22 12
在一张图中同时绘制两个截面强度

我有一个形状数组 512 512 看起来像行 x 列 y 密度 z 数组的数量 0 012825 0 020408 0 022976 0 015938 0 02165 0 024357 0 036332 0 031904 0 025462
Pandas - 分割大的Excel文件

我有一个大约有 500 000 行的 Excel 文件我想将其拆分为多个 Excel 文件每个文件有 50 000 行我想用熊猫来做这样它会是最快和最简单的有什么想法如何制作吗感谢您的帮助假设您的 Excel 文件只有一个第

随机推荐

IDEA 类名及方法名为红色，但是能正常启动-处理办法

今天在切换分支过后 idea里面很多类名方法名报红提示类等找不到但是不影响功能解决办法点击 idae 的 File gt Invalideate Caches Restart 清除缓存并重启即可 UG7O9VKKH6 eyJsaW
Spark：常用算子总结大全

目录 park的算子的分类从大方向来说 Spark 算子大致可以分为以下两类 1 Transformation 变换转换算子这种变换并不触发提交作业完成作业中间过程处理 2 Action 行动算子这类算子会触发 SparkCont
小白的高德地图初体验(二)——聚合点

小白的高德地图初体验二聚合点说到高德地图肯定要推荐官方文档传送门走你小白的高德地图初体验一打点小白的高德地图初体验二点聚合小白的高德地图初体验三轨迹小白的高德地图初体验四矢量图形小白的高德地图初体验五
Handler processing failed; nested exception is java.lang.NoClassDefFoundError: Could not initialize

最近把项目中es 从1 7 3 升级到 2 2 2 遇到如下异常 exception org springframework web util NestedServletException Handler processing faile
Android Studio 2.4 Preview（译文）

原文地址 http tools android com tech docs android profiler Android的探查Android Studio中预览2 4 新的Android探查器在Android 2 4工作室预览窗口代替了
Palindrome Partitioning

Given a string s partition s such that every substring of the partition is a palindrome Return all possible palindrome p
pip 和conda

区别 pip是Python包的通用管理器 conda是一个与语言无关的跨平台环境管理器 pip在任何环境中安装python包 conda需要安装在conda环境中装任何包 Pip代表Pip Installs Packages 是Python
seaborn palette参数各配色方案及显示效果

使用方法以采用Paired r配色方法为例通过调用barplot palette Spectral r 来使用配色 Paired r Accent Accent r Blues Blues r BrBG BrBG r BuGn BuGn
STM32 基础系列教程 5 – 系统定时器

前言学习stm32 systime的使用用基本定时器产生定时1ms定时中断用于参生1ms系统时钟节拍并实现将1ms 节拍改成500us 或其它时间功能并实产生的时间节拍为机基准实现控制LED闪烁示例详解基于硬件平台 STM32
Centos7.5 防火墙关闭但是除22端口其他端口无法访问问题

centos7系统关闭 firewalld防火墙但是除了22端口其余端口无法被外界访问本地访问正常我这里是服务器缓存问题将服务器防火墙重启刷新一下就可以正常使用了根据下面命令操作 firewalld 防火墙启动 syste
关于前后台日期格式化问题，@JsonFormat、@JSONField、@DateTimeFormat

大家都知道可能前台表单提交后台或者后台实体类json 序列化到前台可能格式不是我们想要的情况这时候可能就需要上面三个注解来帮忙但是本人在项目使用过程中使用 JsonField 一直失效百思不得其解难道是在springboo
爬虫之添加代理（五）

验证代理是否可用 try telnetlib Telnet 221 15 192 96 port 1080 timeout 3 except print ip无效 else print ip有效添加代理添加proxy属性 import
【机器学习】GRU 讲解

有任何的书写错误排版错误概念错误等希望大家包含指正在阅读本篇之前建议先学习 RNN 讲解 LSTM 讲解 3 GRU 3 1 网络结构 GRU 是循环神经网络的一种和 LSTM 一样是为了解决长期依赖问题 GRU 单元结构如下
Overleaf使用tips(自己随手记）

使用中文输入导入包 usepackage UTF8 ctex 切换编译器为XeLatex 另起一段直接空几个行就行比如注释选中后ctrl 标题的使用 section 这是一级标题 subsection 这是二级标题 subsubs
TVM编译安装

本文是在已大致了解tvm功能和架构的基础上根据官方文档在x86 64 Ubuntu 18 04 GPU Pytorch1 8 0上安装TVM的流程参考文档 TVM安装官方文档 llvm下载链接 1 下载源代码从tvm官网下载源代码
基于粒子群算法优化支持向量机(PSO-SVM)的时间序列预测。模型评价指标包括:R2、MAE、MSE、RMSE和MAPE等，代码质量极高，方便学习和替换数据。

清空环境变量 warning off 关闭报警信息 close all 关闭开启的图窗 clear 清空变量 clc 清空命令行 tic 导入数据 f xlsread windspeed xls Sheet1 B2 B1001 x y da
Jina AI x 矩池云

近 5 年以来图片视频语音等非结构化数据的数量出现了爆发式增长随着深度学习技术的不断升级深度表征学习迁移学习对比学习等技术日益成熟非结构化数据的搜索也逐渐形成可能在此背景下专注于神经搜索技术的商业开源软件公司 Jina
DRM框架（vkms）分析（3）----connector-＞func && connector-＞helper_private的使用

一 connector gt func drm connector funcs类型的对象实例其中有些对象实例可直接使用helper函数有些可以自定义还有一些可以忽略掉不赋值的 struct drm connector funcs co
ubuntu12.04搭建android开发环境

一直准备学一点Linux的东西一直没有付诸行动这个周末准备安装一下做了将近半年的android开发准备学一点关于框架和源码的东西安装之前也百度谷歌了很多次也看了网上不少的资料总结一点就是对于像我这种入门级的人来说还是不够明
5种创建Dataframe方法

下面将简要介绍Dataframe的5种创建方法由于输出结果比较冗余这里将不会展示输出结果读者可以自行赋值粘贴最好使用jupyter运行并查看结果另外的代码中有非常详细的注释 Dataframe创建方法一 import nump

5种创建Dataframe方法

Dataframe创建方法一

Dataframe创建方法二：由Series组成的字典

方法三，通过二维数组之间创建 （最常用的方法）

方法四：由字典组成的列表

方法五：由字典组成的字典

5种创建Dataframe方法 的相关文章

随机推荐

热门标签

方法三，通过二维数组之间创建（最常用的方法）

5种创建Dataframe方法的相关文章