Numpy常用的数据结构

2023-11-14

numpy安装
pip install numpy
numpy底层是使用C语言来实现运算的效果非常高

数据清洗的意义

现实生活中，数据并非完美，需要进行清洗才能进行后面的数据分析
数据清洗是整个数据分析项目最消耗时间的一步
数据的质量最终决定了数据分析的准确性
数据清洗是唯一可以提高数据质量的方法，使得数据分析的结果也变得更加可靠

数据清洗常用工具

目前在Python中，numpy和pandas是最主流的工具
numpy中的向量化运算使得数据处理变得高效
pandas提供了大量数据清洗的高效方法
在Python中，尽可能多的使用numpy和pandas中的函数，提高数据清洗的效率

arange和rang的区别

在Python中range只能迭代整型
numpy中的arange步可以为浮点型

numpy常用的数据结果

numpy中常用的数据结果是ndarray格式
使用array函数创建，语法格式为array(列表或元组)
可以使用其他函数例如：arange(迭代器) 、linspace(等差数组)、zeros等创建

numpy常用方法
zeros
ones
dtype
size:返回数组中使用元素的总和
shape:查看该数组的行和列数(返回的结果是元组类型(当只有))
ndmin:查看数组为多少维数组

在这里插入图片描述

练习代码

# -*- coding: utf-8 -*- 
# @Time : 2020/2/1 19:35 
# @Author : 大数据小J

import numpy as np

"""
array 
里面可以传字符串，字典，元组，列表
np.dtype 返回的结果是numpy这个数据类型
dtype=None  array里面有这个参数，这个参数的意思是可以强制转换数据类型。(强制类型转换，只能够是列表和元组，并且里面的数据为统一数据)
：代表着
"""

a = np.array([1, 2, 3, 4, 5], dtype=float)  # [1. 2. 3. 4. 5.] 当传入的数据类型为列表类型，返回的结果为列表类型
b = np.array((1, 2, 3, 4, 5))  # [1 2 3 4 5] 当传入的数据为元组类型，返回的结果也是列表类型
c = np.array('demo')  # demo 当传入字符串类型，返回的结果为字符串类型
d = np.array({'name': 'Big_data J'})  # {'name': 'Big_data J'} 当传入的结果为字典类型，返回的结果为字典类型
# print(np.dtype)   # <class 'numpy.dtype'>  返回的结果为numpy这个数据类型
e = np.array((1, 2, 3, 4, 5), dtype=str)  # ['1' '2' '3' '4' '5'] 可以强制转换为字符串类型
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])  # 使用array可以创建列表嵌套数据，也可以生成二维数据以上等
# print(arr)
# print(arr[0])   # [1 2 3 4]返回的结果为列表的第一行数据，numpy也是从0开始
# print(arr[1])   # [5 6 7 8]返回的结果为列表的第二行数据
# print(arr[2])   # [ 9 10 11 12]返回的结果为列表的第三行数据
# print(arr[1:2])  # [[5 6 7 8]] 返回的结果是遵从左闭右开的原则。
# print(arr[1:3])  #[[ 5  6  7  8] [ 9 10 11 12]]
# print(arr[0, 1])  # 2 array中是以”,“来操控
"""
np.arange()
意思:和range差别不大，但可以指定步长为浮点型  
这个方法是numpy里面的迭代器与range和像
arange 和 range 有什么区别？ 区别在于 arange可以生成浮点型   range只能生成整型
arange 也是一个左闭右开的原则
"""
ara = np.arange(1, 10, 0.5)  # [1.  1.5 2.  2.5 3.  3.5 4.  4.5 5.  5.5 6.  6.5 7.  7.5 8.  8.5 9.  9.5] 可以指定步长为浮点型
# print(ara)

"""
linspace 
意思:等差数组
常见的参数: start, stop, num=50, endpoint=True
start:开始值
stop: 结束值
num=50: 默认情况下，这个参数为50，这代表着元素个数，生成的元素
endpoint=True : 默认情况下为True，意思是:是否包含其结束值(也就是stop)
"""
# lin = np.linspace(1, 10, 10, endpoint=True)  # endpoint默认情况下为True,当我们想不包含其结束值的时候可修改为False
# print(lin)   # [ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]  返回的结果为浮点类型的等差数组

lin2 = np.linspace(1, 5, 10, endpoint=True)  # [1.         1.44444444 1.88888889 2.33333333 2.77777778 3.22222222
# 3.66666667 4.11111111 4.55555556 5.        ]   生成的结果算法为4/9

"""
zeros
意思:生成一个为0的数据
常见的参数shape, dtype=None, order='C'
shape:传参 (传入的数据类型可以为列表,元组).第一个值为行，第二个值为列
dtype:强制类型转换

ones
意思:生成一个为1的数据
常见的参数shape, dtype=None, order='C'
shape:传参 (传入的数据类型可以为列表，元组)，第一个值为行，第二个值为列
dtype:强制类型转换

ndim
意思:判断一个数组是几维数组

shape
意思:查看数组为几行几列。当为一维数组的时候(返回的结果为(4,))
返回的数据类型为元组类型

size
意思:返回数组里面有多少个元素

dtype
意思:返回数组的数据类型
"""
ze = np.zeros(shape=[4, 5])  # 生成一个四行五列的二维数据
ze1 = np.zeros(4)  # [0. 0. 0. 0.] 返回的结果为一维数组  默认情况下为浮点类型
# print(ze1)

on = np.ones(4)  # [1. 1. 1. 1.] 生成一个一维数组 默认情况下为浮点数据类型
on1 = np.ones([4, 5], dtype=int)  # 生成一个二维数组 浮点型
# print(on1+1.5)   # 可以对数组的值进行加法运算

# print(on1.ndim)  # 2 查看数组的行和列，返回为元组类型
# print(on.shape)  # (4,) 返回的结果为元组类型   一维数组直接输出列数
print(on1.shape)  #(4, 5) 二维数组先行后列

# print(on.size)  # 4  返回数组里面的元素个数
# print(on1.size)  # 20

# print(on.dtype)  # float64 返回的结果为浮点类型
# print(on1.dtype)  # int32 返回的结果为整型

data = ((1, 1.5, 2.5, 3.3, 4.4,), (2, 3.4, 5.5, 6.6, 7.7), (7.7, 8.8, 9.9, 2.2, 6.7))
demo = np.array(data)
# print(demo[1, 4])   # 2.5 从0开始，第一个值为行索引，第二个值代表列索引
# print(demo[1:, 2])  # [5.5 9.9]  先选择第一行以后的数组，在选择第一行以后的数组的第二个列数
# print(demo[:, 1:3])  # 不选择起始值和结束值， 在进行选择行的第1列到第3列(但不包含第三列)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python数据分析

NumPy

python

Numpy常用的数据结构的相关文章

使用 pycharm 进行交互式 shell 调试

我是 PyCharm 新手我已经使用 IDLE 很长时间了在IDLE中执行脚本后使用Python对象非常方便有没有办法在使用 PyCharm 与交互式 python shell 执行后使用脚本对象例如我们有一个测试项目其中包
如何在基于其他数据帧的数据帧中创建联接？

我有 2 个数据框一份包含学生批次详细信息另一份包含分数我想加入 2 个数据框数据框1包含 s1 s2 s3 Stud1 Stud2 Stud3 Stud2 Stud4 Stud1 Stud1 Stud3 Stud4 数据框2包含
Windows 7 64位 libsvm 和 python 错误：找不到函数“svm_get_sv_indices”

我正在使用 Windows 7 64 位我已经安装了 Python 2 7 3 32 位版本和 libsvm 3 13 当我尝试启动导入 svmutil 的简单 py 文件时出现错误 C libsvm 3 13 python gt p
使用 PyQt 和 matplotlib 在可滚动小部件中显示多个绘图

由于我没有得到答案this https stackoverflow com questions 12179893 creating a scrollable multiplot with pythons pylab我尝试用 PyQt 解决这
调整pandas read_sql_query NULL值处理？

当我做 from sqlalchemy import create engine import pandas as pd engine create engine sqlite conn engine connect conn execut
是否可以使用 csv.DictReader 保持列顺序？

例如我的 csv 有如下列 ID ID2 Date Job No Code 我需要以相同的顺序写回各列这dict立即打乱了顺序所以我相信这更多是读者的问题蟒蛇的dicts 在 3 6 之前不维持顺序但是无论如何在该版本中csv
if(interactive()) 是否相当于 Python 中的“if __name__ == ”__main__“: main()”？

我希望 R 脚本有一个 main 函数可以在交互模式下执行但在获取文件时不应执行 main 函数已经有一个关于这个的问题了 https stackoverflow com questions 2968220 is there an r
与 GridSearchCV 的并行错误，与其他方法一起工作正常

我使用 GridSearchCV 时遇到以下问题它在使用时给我一个并行错误n jobs gt 1 同时n jobs gt 1与 RadonmForestClassifier 等单一模型配合良好下面是一个显示错误的简单工作示例 train
函数内部变量的赋值会改变外部的赋值 - Python

我从使用 Matlab 转向使用 Python 使用函数时的变量赋值让我感到困惑我有一个代码如下 a 1 1 1 def keeps x y x y 1 2 return y def changes x y x y 1 2 return
使用 selenium 和 firefox 保存图像

我正在尝试使用 selenium 服务器和 python 客户端从网站保存图像我知道图像的 URL 但我无法找到保存它的代码无论是当它是文档本身还是当它嵌入到当前浏览器会话中时到目前为止我找到的解决方法是保存页面的屏幕截图有两种硒方
将日期（系列）列从一个 DataFrame 添加到其他 Pandas，Python

我正在尝试将日期列从 df1 广播到 df2 在 df1 中我有所有用户的姓名及其基本信息在 df2 中我有一个用户购买的列表 df1 和 df2 代码 https i stack imgur com sN0uJ png 假设我有一
python中的unicode错误[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 在下面的代码中我收到错误mailSe
在视图之间共享并在 AppConfig 中初始化的变量

我想要一个在应用程序启动时初始化的变量并且可以从视图访问该变量 my app my config py class WebConfig AppConfig name verbose name def ready self print lo
为什么Python安装程序不断弹出？

每当我尝试运行 Python 文件时都会自动弹出此窗口虽然我可以关闭它但有时它会连续打开 7 10 个窗口这令人恼火谁能告诉我为什么会发生这种情况 None
Numpy 重新排列二维数组

我正在寻找一种快速公式来对 2D numpy 数组进行数值分箱通过分箱我的意思是计算子矩阵平均值或累积值对于前 x numpy arange 16 reshape 4 4 将被分割成 4 个 2x2 的子矩阵并给出 numpy ar
Python Sqlite3 获取 Sqlite 连接路径

给定一个 sqlite3 连接对象如何检索 sqlite3 文件的文件路径 The Python 连接对象 http github com python cpython blob master Modules sqlite connect
如何从 Django 中的链接设置预定义的表单值？

我的项目是这样布局的 1 page has many categories 2 category belongs to page has many items 3 item belongs to category 当我进入一个页面时我想修
使用 Python 3.x 基本获取 URL 的 HTML 正文

我是Python新手我对 Python 2 x 中的旧 urllib 和 urllib2 与 Python 3 中的新 urllib 之间的差异有点困惑除此之外我不确定数据在发送到 urlopen 之前何时需要编码我一直在尝试使用
python webdriver_manager chrome 自定义配置文件

如何使 webdriver manager chrome 使用自定义 chrome 用户配置文件我知道对于 selenium webdriver 我可以这样指定 options Options options add argument f
加载腌制字典对象或加载 JSON 文件哪个更快？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案什么更快 A Unpickling 加载一个 pickled 字典对象使用pickle load or B 使用以下命令将 JSON

随机推荐

常见的排序算法及其复杂度分析

1 常见算法分类十种常见排序算法一般分为以下几种非线性时间比较类排序交换类排序快速排序和冒泡排序插入类排序简单插入排序和希尔排序选择类排序简单选择排序和堆排序归并排序二路归并排序和多路归并排序线性时间非比较类排序计数
黑盒测试与白盒测试的区別

黑盒测试与白盒测试是软件测试中两种不同的测试方法它们的主要区别在于测试者对被测试软件的了解程度下面我们将详细介绍这两种测试方法的特点和适用场景一黑盒测试黑盒测试又称为功能测试是针对被测试软件的功能进行测试的一种测试方法测试者
linux 进程几种状态,linux进程状态

linux系统最常用的命令莫过于ps 经常要用其查看linux的进程和线程情况此文我们着重来看进程进程又分为以下几种状态 1 运行正在运行或在运行队列中等待 2 中断休眠中受阻在等待某个条件的形成或接受到信号 3 不可中断收到
Kotlin Coroutines Flow 系列(一) Flow 基本使用

一 Kotlin Flow 介绍 Flow 库是在 Kotlin Coroutines 1 3 2 发布之后新增的库官方文档给予了一句话简单的介绍 Flow cold asynchronous stream with flow build
C# socket异步通信服务器和客户端

本文章向大家介绍C socket异步通信服务器和客户端主要包括C socket异步通信服务器和客户端使用实例应用技巧基本知识点总结和需要注意事项具有一定的参考价值需要的朋友可以参考一下服务器代码只要客户端连接进来就会接收到Se
Qt之QTableView 保持滚动条自动滚动到底部

在使用QTableView添加数据时当数据量超出显示范围时会自动的打开滚动条如果设置了在需要时打开滚动条属性而默认的是滚动条一直是保持在最顶部但是有些时候我们添加数据时是需要查看添加的最新结果的所以一般都会把滚动条滚动到最新数据那
【scrapy】scrapy爬取数据指南

scrapy是爬虫界常用的基于Python爬虫框架但是网上找了很多这类的文章发现有多处错误故为了让刚想尝试爬虫的蜘蛛们少走点坑故把最新的方法奉上在此之前请先更新你的pip版本并安装scrapy pymysql pip inst
kernelbase.dll崩溃的处理_kernelbase.dll故障教程

kernelbase dll是存放在windows系统下的一个非常重要的dll文件 DLL英文全称Dynamic Link Library 中文意思是动态链接库 DLL是一个作为共享函数库的可执行文件它使进程可以调用不属于本身可执行代码
java 代理模式

1 静态代理 1 1 代码实现接口 interface Hello String sayHello String str 实现 class HelloImp implements Hello Override public String
对象常用的方法

思维导图对象中常用的方法 Object prototype 1 hasOwnProperty 方法会返回一个布尔值指示对象自身属性中是否具有指定的属性也就是是否有指定的键检测是否为私有属性即使属性的值是 null 或 undef
（五）redis常用命令之list

概述列表类型用来存储多个有序的字符串列表中的每个字符串就是一个元素一个列表最多可以存储2 32 1个元素 redis的列表结构操作起来非常灵活应用场景非常广 lpush命令从列表左边插入多个元素格式 lpush key valu
使用dockerfile发布go项目

docker安装下载docker yum install docker 设置docker随系统启动 chkconfig docker on 启动docker服务 service docker start 启动后查看docker状态 sys
pandas Cannot interpolate with all object-dtype columns

pandas 不能使用所有的 object 类型的列进行插值这意味着在使用 pandas 的插值函数例如 interpolate 时所有的列都必须是数值类型的如果其中有一列是 object 类型的则会抛出异常要解决这个问题你需
单列模式--Singleton with Go

package main import fmt sync Singleton 单例对象的类必须保证只有一个实例存在全局有唯一接口访问 1 懒汉模式指全局的单例实例在第一次被使用是构建缺点非线程安全 type singleton st
软件测试必备的Linux知识（一）

1 Linux 概述 1 1 测试人员为什么学习linux 对于软件测试人员来说我们测试的任何产品都是基于操作系统比如我们每天都在使用的QQ软件它有windows ios Android Mac OS等版本需要把QQ安装在各个平台上
虚拟地址，虚拟地址空间，交换分区

1 虚拟内存是内存管理的一种方式它在磁盘上划分出一块空间由操作系统管理当物理内存耗尽是充当物理内存来使用它将多个物理内存碎片和部分磁盘空间重定义为连续的地址空间以此让程序认为自己拥有连续可用的内存当物理内存不足时操作系统会将处于
从零开始的ESP8266探索（11）-定时任务调度器Ticker使用演示

文章目录目的使用演示基本使用1 基本使用2 动态设置和参数传递停止和重启任务注意事项总结目的 Arduino for esp8266属于无操作系统环境对于开发多任务的复杂应用还是比较麻烦的所以这里就提供了一个近似于操作系统
bugku No one knows regex better than me

进入环境是一串php代码代码审计考的是正则
感知器的数学表达和训练算法

目录一感知器模型二两种训练法则 1 感知器训练法则 2 delta法则三小结 1 标准梯度下降算法与随机梯度下降算法的差异 2 有阈值的感知机算法和无阈值的感知机算法的差异在人工神经网络简介一节中图二中的ANN系统的每一个单
Numpy常用的数据结构

numpy安装 pip install numpy numpy底层是使用C语言来实现运算的效果非常高数据清洗的意义现实生活中数据并非完美需要进行清洗才能进行后面的数据分析数据清洗是整个数据分析项目最消耗时间的一步数据的质量最终决

Numpy常用的数据结构

Numpy常用的数据结构 的相关文章

随机推荐

热门标签

Numpy常用的数据结构的相关文章