pandas（series和读取外部数据）

2023-11-06

一、pandas概述

1、pandas介绍

pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

Pandas 是python的一个数据分析包，最初由AQR Capital Management于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来，因此，pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据（panel data）和python数据分析（data analysis）。panel data是经济学中关于多维数据集的一个术语，在Pandas中也提供了panel的数据类型。

2、为什么引入pandas?

numpy能够帮助处理数值型数据，但是这还远远满足不了需求。pandas除了处理数值型数据之外（基于numpy），还能帮助处理其他类型的数据（如：字符串类型）

3、pandas的常用数据类型

（1）Series 一维，带标签数组

（2）DataFrame 二维，Series容器

数据结构介绍：

Series：一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series如今能保存不同种数据类型，字符串、boolean值、数字等都能保存在Series中。

Time- Series：以时间为索引的Series。

DataFrame：二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。

Panel ：三维的数组，可以理解为DataFrame的容器。

Panel4D：是像Panel一样的4维数据容器。

PanelND：拥有factory集合，可以创建像Panel4D一样N维命名容器的模块。

二、pandas之Series

1、Series对象

Series对象本质：由两个数组构成

一个数组构成对象的键（index，索引），一个数组构成对象的值（values），键——>值

2、创建Series

（1）通过列表创建

pd.Series(列表，index=....) ——>index指定元素的索引

import pandas as pd
import numpy as np

t = pd.Series(np.arange(10), index=[i for i in range(10)])
print(t)
print(type(t))

（2）通过字典创建

pd.Series(字典) ——>使用字典中原数据的键值

import pandas as pd

t = pd.Series({"name":"hanmh-", "age":"21", "language":"chinese"})
print(t)
print(type(t))

（3）字典推导式创建字典，并作为Series的参数

import pandas as pd
import string

#字典推导式创建字典
a = {string.ascii_uppercase[i]:i for i in range(10)}
t = pd.Series(a)

print(a)
print(t)

重新给上面字典指定其他索引后，如果能够对上，就取其值，如果不能就直接置为nan

注：如果重新指定索引后，出现没有匹配的项，值被赋为nan，因为numpy中的nan为float，pandas会自动根据数据类型更改Series的dtype类型

t = pd.Series(a, index=list(string.ascii_uppercase[5:15]))

（4）修改Series的dtype值

t.astype(类型)

三、pandas之Series切片和索引

切片：直接传入start end或者步长即可

索引：一个的时候直接传入序号或者index，多个的时候传入序号或者index的列表

1、取出Series的索引或者值

t.index 取出Series的索引

t.values 取出Series中具体的值

import pandas as pd
import string

a = {string.ascii_uppercase[i]:i for i in range(10)}
t = pd.Series(a)
print(t.index)
print(type(t.index))
print("*"*20)
print(t.values)
print(type(t.values))

注：ndarray的很多方法都可以运用到Series类型，比如argmax，clip

2、Series中的where方法

该方法与numpy中的where方法输出结果不一样，pandas中的where是输出匹配项，不匹配的直接赋值为nan

import pandas as pd
import string

a = {string.ascii_uppercase[i]:i for i in range(10)}
t = pd.Series(a)
print(t)
t = t.where(t>5)
print(t)

四、pandas读取外部数据

1、读取csv文件

pd.read_csv(文件路径)

2、读取数据库

（1）MySQL

pd.read_sql(sql_sentence，connection)

（2）读取mongoDB数据

from pymongo import MongoClient
import pandas as pd

client = MongoClient()
collection = client['douban']['tv1']
data = list(collection.find()) #查找数据并转换成list形式

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析

pandas（series和读取外部数据）的相关文章

数据结构知识点复习

第一章数据结构概述基本概念与术语数据数据是对客观事物的符号表示在计算机科学中是指所有能输入到计算机中并被计算机程序所处理的符号的总称数据元素数据元素是数据的基本单位是数据这个集合中的个体也称之为元素结点顶点记录补充

随机推荐

MyBatis中 sql标签和include标签的使用
Flutter报错Building with plugins requires symlink support的解决方法

错误 Building with plugins requires symlink support Please enable Developer Mode in your system settings Run start ms sett
js 识别当前设备信息是否是移动端

一 navigator userAgent 对象最简单的方法就是分析浏览器的 user agent 字符串它包含了设备信息 JS 通过navigator userAgent属性拿到这个字符串只要里面包含mobi android iph
小程序实现弹幕功能-无限循环，不会重叠

以下是支付宝小程序代码先上效果图以下是axml代码
QT小例子GUI（主）线程与子线程之间的通信

QT小例子GUI 主线程与子线程之间的通信在主线程上可以控制子线程启动停止清零如果子线程启动的话每一秒钟会向主线程发送一个数字让主线程更新界面上的数字 ifndef TQT H define TQT H include
Caffe中 math_functions 分析

本篇博客转载自 Caffe源码一 math functions 分析 math function 定义了caffe 中用到的一些矩阵操作和数值计算的一些函数这里以float类型为例做简单的分析 1 caffe cpu gemm temp
huggingface transformers 预训练模型加载参数设置

说明 1 proxies 服务器无法直接访问互联网需通过代理访问 2 cache dir model及dadaset文件过大多次容易导致服务器存储过高手工选择存储位置 model tokenizer from pretrained ber
TCP 滑动窗口详解（非常实用）

一滑动窗口简介滑动窗口 Sliding window 是一种流量控制技术早期的网络通信中通信双方不会考虑网络的拥挤情况直接发送数据由于大家不知道网络拥塞状况同时发送数据导致中间节点阻塞掉包谁也发不了数据所以就有了滑动窗口
linux读取触摸屏事件数据

对于有触摸设备的电脑或者手机通过cat proc bus input devices应该就能够看到触摸设备的相关信息比如 cat proc bus input devices I Bus 0013 Vendor 0x0012 Produ
初学者该掌握的计算机知识,初学者该如何学习电脑知识

看到不少刚入门的电脑刚入门者找不到适合自己的学习方法到处碰壁那么呢接下来大家跟着小编一起来了解一下学习电脑知识的解决方法吧初学者学习电脑知识方法第一阶段鼠标和键盘的操作鼠标的操作主要是移动拖动单击双击和右击知道鼠标的
优化最小二乘支持向量机数据回归预测：基于鸽群算法与PIO-lssvm（附Matlab代码）

优化最小二乘支持向量机数据回归预测基于鸽群算法与PIO lssvm 附Matlab代码支持向量机 SVM 是一种广泛应用于分类和回归问题的机器学习方法然而在SVR中传统的最小二乘支持向量机 LSSVM 需要通过手动设置超参数来进行
Java webservice 客户端代码（四种方式）

方式一用hutool工具 String authenticationUrl http 139 196 206 126 8081 services WorkflowService wsdl HashMap
elasticsearch报错：DeprecationWarning: Passing transport options in the API method is deprecated.

这个警告是因为您正在使用 Elasticsearch Python 客户端的一个过时的方式来传递传输选项 transport options 根据警告信息现在建议使用 Elasticsearch options 方法来设置传输选项以下是
关于各种merge 的心得

合并两个线性表包括合并两个有序线性表两个线性表相加等第一遍历两个表的时候用代替空的那一方取0参与计算就可以了这样就不用后面处理长的那个表剩下来的部分了第二对于进位也放到里去这样不用后面处理最后是否有进位了
chain of thought 也就是 CoT思维链

chain of thought 也就是 CoT 一经提出就引发了社区对它的热烈讨论 CoT 能够帮助大规模语言模型解决复杂的算术常识及字符推理等任务背景知识语言模型语言模型的本质是对任意一段文本序列的概率进行建模如果将语言模型看
windows下redis设置redis开机自启动方法

windows下redis设置redis开机自启动方法 ybb ymm的博客 CSDN博客 redis开机自启动设置windows
vue国际化处理

什么是Vue国际化国际化就是你的页面要面向的群众使用的语言不只是中文还有其他语言在面对其他人群时要切换页面的语言说起来很高大上实际上还是没有那么高级的文件的组织一般是在大型项目中使用的我们需要将相关文件放置在哪里建议是新开
LinearAlgebraMIT_11_MatrixSpace/Rank==1‘sMatrix/SmallWorldGraph

x 1 矩阵空间向量空间定义满足加法和数乘的封闭性就类似向量空间一样也存在着矩阵空间的定义举个例子例如所有的3x3的矩阵构成的矩阵空间M 它的纬度就是9 如 1 0 0 1 对于M中所有对称矩阵组成子空间N1 维度为6 M中所有
java.sql.SQLException: No suitable driver found for jdbc:mysql:///XXX

用Maven的父工程搭建DAO模块并执行测试类测试数据库查询时报错定位到DAO模块的StudentDao java源文件发现是数据库连接出错之前我也遇到类似问题解决方案是在db properties文件中对jdbc url配置
pandas（series和读取外部数据）

一 pandas概述 1 pandas介绍 pandas 是基于NumPy 的一种工具该工具是为了解决数据分析任务而创建的 Pandas 纳入了大量库和一些标准的数据模型提供了高效地操作大型数据集所需的工具 pandas提供了大量能使我

pandas（series和读取外部数据）

一、pandas概述

1、pandas介绍

2、为什么引入pandas?

3、pandas的常用数据类型

数据结构介绍：

二、pandas之Series

1、Series对象

2、创建Series

（1）通过列表创建

（2）通过字典创建

（3）字典推导式创建字典，并作为Series的参数

（4）修改Series的dtype值

三、pandas之Series切片和索引

1、取出Series的索引或者值

2、Series中的where方法

四、pandas读取外部数据

1、读取csv文件

2、读取数据库

（1）MySQL

（2）读取mongoDB数据

pandas（series和读取外部数据） 的相关文章

随机推荐

热门标签

pandas（series和读取外部数据）的相关文章