Pandas 笔记 (一)

2023-11-12

Pandas 笔记

# Pandas 提供高性能、易于使用的数据结构和数据分析工具
# Pandas 可以从 CSV、JSON、SQL、MICROSOFTEXCEL 导入数据
# Pandas 可以对各种数据进行运算操作,比如归并、再形成、选择、还有数据清洗和特征加工
# Pandas 主要数据结构是 Series (一维数据) 与 DataFrame (二维数据)
# Series 是一种类似于一维数组的对象,它由一组数据 (各种 Numpy 数据类型) 以及一组与之对应的
# 数据标签 (即索引) 组成。
# DataFrame 是一种表格形式的数据结构,它含有一组有序的列,每列可以是不同的值类型 (数值、字符串、
# 布尔类型)。 DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典 (共同用一个索引)。

import pandas as pd

print(pd.__version__)

mydataset = {
    'sites' : ["Google", "Runoob", "Wiki"],
    'number' : [1, 2, 3]
}

myvar = pd.DataFrame(mydataset)

print(myvar)

'''
Pandas Series 类似表格中的一个列 (column),类似于一维数组,可以保存任何数据类型
Series 由索引 (index) 和列组成
pandas.Series(data, index, dtype, name, copy)
    data    一维数组 (ndarray 类型)
    index   数据索引标签,如果不指定,默认从 0 开始
    dtype   数据类型
    name    设置名称
    copy    拷贝数据,默认为 false
'''

a = [1, 2, 3]
myvar = pd.Series(a)
print(myvar)

'''
DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型 (数值、字符串、
布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典 (共用一个索引)。

    idx  Column-1  Column-2  ...  Column-k
    ...   ...      ...       ...  ...
    
pandas.DataFrame(data, index, columns, dtype, copy)
    data    一组数据 (ndarry、series、map、lists、dict 等类型)
    index   索引值,或者可以称为行标签
    columns 列标签,默认为 RangeIndex (0, 1, 2, 3, ..., n)
    dtype   数据类型
    copy    拷贝数据,默认为 false    
'''

data = [
    ['Google', 10], ['Runoob', 12], ['Wiki', 13]
]

df = pd.DataFrame(data, columns = ['Site', 'Age'], dtype = float)
print(df)

# Pandas 可以使用 loc 属性返回指定行的数据
data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

# 数据载入到 DataFrame 对象
df = pd.DataFrame(data)

# 返回第一行
print(df.loc[0])
# 返回第二行
print(df.loc[1])

# Pandas 读取 csv  文件
df = pd.read_csv('nba.csv')
print(df)
print(df.to_string())

# 可以使用 to_csv() 方法将 DataFrame 存储为 csv 文件

# head 方法用于读取前面 n 行,如果不填参数 n,默认返回 5 行
# tail 方法用于读取末尾的 n 行,默认为 5 行
# info 返回表格的一些基本信息
print(df.head())
print(df.info())

# pandas 处理 json
URL = 'https://static.runoob.com/download/sites.json'
df = pd.read_json(URL)
print(df)

# 数据清洗是对一些没有用的数据进行处理的过程
# 很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况,如果要对使数据分析更加准确,
# 就需要对这些没有用的数据进行处理
# dropna 删除包含空字段的行
# fillna 来替换一些空字符
# mean median mode 方法计算列的均值、中位数值和众数
# to_datetime 格式化日期
# duplicated 清洗重复数据


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas 笔记 (一) 的相关文章

  • 保存游戏最高分?

    我使用 pygame 在 python 中制作了一个非常简单的游戏 分数取决于玩家达到的级别 我将级别作为变量称为score 我想在游戏开始或结束时显示顶级 我会更乐意显示多个分数 但我见过的所有其他线程都太复杂 我无法理解 所以请保持简单
  • Tkinter 如何根据此组合框自动更新第二个组合框

    我在 Tkinter Python 中遇到了组合框更新的问题 我有两个组合框 组合框A with values A B C and 组合框B 我想要的是 当值A在组合框中选择A然后在组合框中B显示值 1 2 3 当值B在组合框中选择A然后在
  • 如何在Unity Inspector中创建多维数组?

    如何在 Unity Inspector 中创建枚举多维数组并使其可序列化 以便我可以从不同的脚本调用它 public enum colors red blue green yellow cyan white purple public in
  • pandas-更改重采样时间序列的开始和结束日期

    我有一个时间序列 我将其重新采样到这个数据框中df 我的数据是从6月6日到6月28日 它希望将数据从6月1日延长到6月30日 计数列仅在较长时间内具有 0 值 而我的实际值是从 6 日到 28 日 Out 123 count Timesta
  • _MM_TRANSPOSE4_PS 在 GCC 中导致编译器错误?

    我第一次在 GCC 而不是 MSVC 中编译我的数学库 并经历了所有的小错误 我遇到了一个根本没有意义的错误 Line 284 error lvalue required as left operand of assignment 284号
  • 是否自初始化 'A a = a;'允许吗?

    此代码在运行时在复制构造函数中失败 但编译器 MSVS2008 没有发出警告 您能解释一下 最好引用标准 这段代码是否非法或什么 我理解 A a a 永远不应该写在第一位 但我正在寻找理论背景 class A public A p new
  • 枚举上的 random.choice

    我想用random choice on an Enum I tried class Foo Enum a 0 b 1 c 2 bar random choice Foo 但是这段代码失败了KeyError 我怎样才能随机选择一个成员Enum
  • 如何解析多态 JSON 数组?

    我有一个 JSON 格式的文件 其中包含个人用户的记录 一些用户的记录中间有一个评论字段 我只想解析顶级项目 全名 贡献者姓名 电子邮件 使用 Newtonsoft JSON 解析器 但我似乎无法让它识别单个对象 当我将整个字符串解析为一个
  • 执行许多插入重复键更新错误:未使用所有参数

    所以我一直在尝试使用 python 2 7 15 使用 mysql connector 执行此查询 但由于某种原因 它似乎不起作用并且总是返回错误 并非所有参数都被使用 表更新有一个主键 即 ID 这是我尝试运行此 SQL 的查询 sql
  • 如何使用 PyAudio 选择特定的输入设备

    通过 PyAudio 录制音频时 如何指定要使用的确切输入设备 我的电脑有两个麦克风 一个内置 一个通过 USB 我想使用 USB 麦克风进行录音 这流类 https people csail mit edu hubert pyaudio
  • 如何从 IDLE 命令行运行 Python 脚本?

    在 bash shell 中 我可以使用 bash 或 source 手动调用脚本 我可以在 Python IDLE 的交互式 shell 中做类似的事情吗 我知道我可以转到文件 gt gt 打开模块 然后在单独的窗口中运行它 但这很麻烦
  • 当分配返回 0 时,具有空异常规范的运算符 new 调用构造函数

    我有以下声明 void operator new size t s PersistentMemory m throw return m gt allocatePersistentMemory s 我正在测试启动时的内存耗尽 这会导致m gt
  • 当一对迭代器初始化时,向量是否知道先保留?

    考虑以下代码 struct MyData MyData const BYTE pData size t uSize bucket pData pData uSize std vector
  • Pandas:按日历周分组,然后绘制真实日期时间的分组条形图

    EDIT 我找到了一个非常好的解决方案并将其发布在下面作为答案 结果将如下所示 您可以为此问题生成一些示例数据 codes list ABCDEFGH dates pd Series pd date range 2013 11 01 201
  • Python 对列表中的值求和(如果它存在于另一个列表中)

    我有一个列表和一组 a list 1 2 2 1 1 1 b list 1 2 我正在寻找对应 b list 中的项目并将它们从 a list 中的值相加 以便输出为 1 3 2 1 我尝试过的 sum 0 for i in a list
  • 链接到ntdll.lib并调用ntdll.dll内部的函数

    我最近正在对私有 API 进行一些研究 我尝试调用诸如NtOpenFile在 ntdll dll 中LoadLibrary and GetProcAddress在运行时 幸运的是 它成功了 今天早上我在电脑上进行了文件搜索 发现ntdll
  • 使用“const cv::Mat &”、“cv::Mat &”、“cv::Mat”或“const cv::Mat”作为函数参数的区别?

    我已经彻底搜索过 但没有找到一个简单的答案 传递 opencv 矩阵 cv Mat 作为函数的参数 我们传递一个智能指针 我们对函数内部的输入矩阵所做的任何更改也会改变函数范围之外的矩阵 我读到 通过将矩阵作为 const 引用传递 它不会
  • 使用 DataGridViewCheckboxCell 真正禁用 DataGridView 中的复选框

    有谁知道如何使用 DataGridViewCheckboxCell 禁用 DataGridView 中的复选框 我可以将其设置为只读 并设置背景颜色 但我无法让复选框本身显示为禁用状态 有什么想法吗 Guess 你必须自己画 http so
  • 如何使用 .NET 捕获我的桌面视频?

    我想知道是否有任何方法可以使用 NET 捕获我的桌面的视频 截屏视频 我并不是在寻找截屏软件 而只是在寻找一种可以让我自己生成桌面视频的技术 我想过拍摄多个屏幕截图 但我不确定如何以编程方式生成带有图像序列的视频 有人有主意吗 Thanks
  • 小数精度

    我使用小数类型进行高精度计算 货币 但我今天遇到了这个简单的划分 1 1 37 这应该再次得到 37 http www wolframalpha com input i 1 2F 281 2F37 29 http www wolframal

随机推荐

  • Docker学习笔记

    五 Docker 1 简介 Docker是一个开源的应用容器引擎 是一个轻量级容器技术 Docker支持将软件编译成一个镜像 然后在镜像中各种软件做好配置 将镜像发布出去 其他使用者可以直接使用这个镜像 运行中的这个镜像称为容器 容器启动是
  • 微信小程序静态初步

    社团微信小程序 1 由于兴趣驱动 一直在学习微信小程序 由于之前一直学习Java 但是大三第一学期即将结尾 所以为了能让下学期的学习减少工作量所以就打算利用闲散时间开发小程序 于是就拿社团为例子 自己一步步摸索 现在只是初步学习 所以这些天
  • mysql-Innodb事务隔离级别-repeatable read详解(转)

    mysql Innodb事务隔离级别 repeatable read详解 转 一 事务隔离级别 ANSI ISO SQL标准定义了4中事务隔离级别 未提交读 read uncommitted 提交读 read committed 重复读 r
  • vim配置经典

    2019独角兽企业重金招聘Python工程师标准 gt gt gt 在终端 输入以下命令来编辑vimrc配置文件 sudo vim etc vim vimrc 或者 sudo gedit etc vim vimrc 将其复制粘贴进去 Des
  • GeoDa:入门基础

    前言 GeoDa是一个免费的开源软件工具 用于空间数据分析 它旨在通过探索和建模空间模式来促进数据分析的新见解 GeoDa是由Luc Anselin博士和他的团队开发的 该项目为探索性空间数据分析 ESDA 方法提供了用户友好的图形界面 例
  • mysql中join源码分析,MySQL中Join算法实现原理分析[图]

    在MySQL 中 只有一种 Join 算法 就是大名鼎鼎的 Nested Loop Join 他没有其他很多数据库所提供的 Hash Join 也没有 Sort Merge Join 顾名思义 Nested Loop Join 实际上就是通
  • 把二叉树转换成树(代码实现)

    前言 相信大家都知道二叉树如何转化成树 但是让你用代码实现 却发现自己无从下手 下面我将用代码实现 思想 树用二叉树来存储的话 那么类型是 左儿子 右兄弟 即二叉树某节点和它的左儿子在树中的关系也是父子关系 而与右儿子在树中的关系是兄弟关系
  • 机器视觉中非常好的github仓库

    AwesomeComputerVision Multi Object Tracking Paper List https github com SpyderXu multi object tracking paper list awesom
  • Oracle VM VirtualBox 不显示64位系统 linux 64 redhat 64

    打开BIOS里的虚拟化技术 修改bios中的virtualization 设为ENABLED
  • Elasticsearch 基本使用(三)条件查询

    条件查询 简单查询 term terms range match debug 查看分词结果 match phrase match phrase prefix match bool prefix multi match 复合查询 bool 查
  • 【c++之于c的优化 - 下】

    前言 一 inline 概念 以inline修饰的函数叫做内联函数 编译时C 编译器会在调用内联函数的地方展开 没有函数调用建立栈帧的开销 内联函数提升程序运行的效率 如果在上述函数前增加inline关键字将其改成内联函数 在编译期间编译器
  • 获取outputstream大小_关于inputStream.available()方法获取下载文件的总大小

    如果用inputStream对象的available 方法获取流中可读取的数据大小 通常我们调用这个函数是在下载文件或者对文件进行其他处理时获取文件的总大小 以前在我们初学File和inputStream和outputStream时 有需要
  • C++标准库之中文输出详细介绍【转】

    iostream printf wprintf和中文输出 本文引用出处 http www enjoysoft cn blog post 62 html使用C 标准库的iostream 可以方便地将控制台 文件 字符串以及其它可扩充的外部表示
  • Vue使用v-for遍历map

    功能 遍历数据库中按钮的图片和名字 当页面打开时 触发查询事件 以下图形式显示出来 前端代码 遍历存在数据库中的按钮名称和图片名称 其中按钮的click事件名称和按钮图片名称相同
  • Linux命令 理解

    RPM常用命令参数列表 1 安装一个包 rpm ivh 2 升级一个包 rpm Uvh 注意U一定要大写 i 安装 U 升线安装 h 以 显示安装进度 v 显示附加信息 3 移走一个包 rpm e 4 安装参数 force 即使覆盖属于其它
  • 变透明的黑匣子:UCLA 开发可解释神经网络 SNN 预测山体滑坡

    内容一览 由于涉及到多种时空变化因素 山体滑坡预测一直以来都非常困难 深度神经网络 DNN 可以提高预测准确性 但其本身并不具备可解释性 本文中 UCLA 研究人员引入了 SNN SNN 具有完全可解释性 高准确性 高泛化能力和低模型复杂度
  • 基本的信号——矩阵脉冲信号(门函数)

    门函数的数学表达式为 example1 矩形脉冲信号的matlab代码如下 矩形脉冲信号 clc clear close all t 0 0 001 4 T 1 ft rectpuls t 2 T 2 T plot t ft 运行结果如下
  • Normalize 和 normalized

    首先说明下 normalized的是vector的属性 而Normalize 是vector的方法 normalized和Normalize 都是可读的 读到的值是单位向量的值 只是nomalized不会更改当前vector本身的值 只是返
  • [转载]PropertyChanged 事件

    在 NET平台上 数据绑定是一项令人十分愉快的技术 利用数据绑定能减少代码 简化控制逻辑 通常 可以将某个对象的一个属性绑定到一个可视化的控件上 当属性值改变时 控件上的显示数据也随之发生变化 要实现这一功能 只需要为自定义对象实现 INo
  • Pandas 笔记 (一)

    Pandas 笔记 Pandas 提供高性能 易于使用的数据结构和数据分析工具 Pandas 可以从 CSV JSON SQL MICROSOFTEXCEL 导入数据 Pandas 可以对各种数据进行运算操作 比如归并 再形成 选择 还有数