numpy 中常用的数据保存、fmt多个参数

2023-10-29

在经常性读取大量的数值文件时(比如深度学习训练数据),可以考虑现将数据存储为Numpy格式,然后直接使用Numpy去读取,速度相比为转化前快很多


一、保存为二进制文件(.npy/.npz)

(1)numpy.save(file, arr, allow_pickle=True, fix_imports=True)

file:文件名/文件路径
arr:要存储的数组
allow_pickle:布尔值,允许使用Python pickles保存对象数组(可选参数,默认即可)
fix_imports:为了方便Pyhton2中读取Python3保存的数据(可选参数,默认即可)

保存格式是.npy

示例:

  1. #生成数据 
  2. >>> x=np.arange(10) 
  3. >>> x =array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 
  4. #数据保存 
  5. >>> np.save('save_x',x) 
  6. #读取保存的数据 
  7. >>> np.load('save_x.npy') 
  8. array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 

(2)numpy.savez(file, *args, **kwds)

file:文件名/文件路径
*args:要存储的数组,可以写多个,如果没有给数组指定Key,Numpy将默认从'arr_0','arr_1'的方式命名
kwds:(可选参数,默认即可)

这个同样是保存数组到一个二进制的文件中,但是厉害的是,它可以保存多个数组到同一个文件中,保存格式是.npz,它其实就是多个前面np.save的保存的npy,再通过打包(未压缩)的方式把这些文件归到一个文件上

#生成数据 
>>> x=np.arange(10) 
>>> x =array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 
>>> y=np.sin(x) 
>>> y=array([ 0.        ,  0.84147098,  0.90929743,  0.14112001, -0.7568025 , 
               -0.95892427, -0.2794155 ,  0.6569866 ,  0.98935825,  0.41211849]) 
        
#数据保存 
>>> np.save('save_xy',x,y) 
#读取保存的数据 
>>> npzfile=np.load('save_xy.npz') 
>>> npzfile  #是一个对象,无法读取 
<numpy.lib.npyio.NpzFile object at 0x7f63ce4c8860> 
 
#按照组数默认的key进行访问 
>>> npzfile['arr_0'] 
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 

>>> npzfile['arr_1'] 
array([ 0.        ,  0.84147098,  0.90929743,  0.14112001, -0.7568025 , 
       -0.95892427, -0.2794155 ,  0.6569866 ,  0.98935825,  0.41211849]) 

可以不适用Numpy默认给数组的Key,而是自己给数组有意义的Key,这样就可以不用去猜测自己加载数据是否是自己需要的.

#数据保存 
>>> np.savez('newsave_xy',x=x,y=y) 
 
#读取保存的数据 
>>> npzfile=np.load('newsave_xy.npz') 
 
#按照保存时设定组数key进行访问 
>>> npzfile['x'] 
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 

>>> npzfile['y'] 
array([ 0.        ,  0.84147098,  0.90929743,  0.14112001, -0.7568025 , 
       -0.95892427, -0.2794155 ,  0.6569866 ,  0.98935825,  0.41211849]) 



二、保存到文本文件

xuexi:Numpy中数据的常用的保存与读取方法 - 好奇不止,探索不息 - 博客园 (cnblogs.com)

保存数组到文本文件上,可以直接打开查看文件里面的内容.
(1)numpy.savetxt(fname, X, fmt='%.18e', delimiter=' ', newline='\n', header='', footer='', comments='# ', encoding=None)

fname:文件名/文件路径,如果文件后缀是.gz,文件将被自动保存为.gzip格式,np.loadtxt可以识别该格式
X:要存储的1D或2D数组
fmt:控制数据存储的格式
delimiter:数据列之间的分隔符
newline:数据行之间的分隔符
header:文件头步写入的字符串
footer:文件底部写入的字符串
comments:文件头部或者尾部字符串的开头字符,默认是'#'
encoding:使用默认参数

fmt参数:控制数据格式

如:

x = [[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]

np.savetxt(r'test.txt', x)

参数都使用默认值,存数结果如下所示:

函数默认存数结果

文件中的数据小数点后保留太多位,使得数据看起来很凌乱,可以使用格式控制参数‘fmt’进行控制,比如小数点后保留3位:

fmt='%.3e'

保留3位小数

以浮点数存储,fmt=’%.3f’

只保留3位小数,不保留‘e+00’字符

也可以整数格式存储,fmt=’%d’

整数格式存储

格式控制–数据对齐问题

可以看到上图中第4行的11和12与上一行的8和9发生错位,不够美观,通过设置数据长度进行调整。

 np.savetxt(r'test.txt', x, fmt='%5d')

数据长度设置为5

示例:

np.savetxt(r'test.txt', x, fmt='%5d', delimiter='|') 

更换数据长度使显示起来更明显

np.savetxt(r'test.txt', x, fmt='%05d', delimiter='|') 

使用0作为占位符,竖线|作为分割符

delimiter参数:每列数据之间的分割符号,默认为空格 

newline参数:每行数据之间的分割符,默认换行 

np.savetxt(r'test.txt', x, fmt='%d', newline='-|-')

使用字符串‘-|-’作为行分割符

 fmt 其他写法:

 学习:python - 在 numpy.savetxt 中设置 fmt 选项 - IT工具网 (coder.work)

  • 当 fmt 是单个格式化字符串时,它适用于 数组(一维或二维输入数组)
  • fmt是一个格式化字符串序列时,它适用于二维输入数组的每一列 
  •  (1)添加字符以右对齐。

     带空格:np.savetxt('tmp.txt', a, fmt='% 4d')

      11   12   13   14
      21   22   23   24
      31   32   33   34
    

    带零:np.savetxt('tmp.txt', a, fmt='%04d')

    0011 0012 0013 0014
    0021 0022 0023 0024
    0031 0032 0033 0034
    

    (3)向左对齐添加字符(使用“-”)。

    带空格:np.savetxt('tmp.txt', a, fmt='%-4d')

    11   12   13   14  
    21   22   23   24  
    31   32   33   34  

fmt为格式化字符串序列时,二维输入数组的每一行都按照fmt进行处理:

fmt 作为单个格式化字符串中的序列

fmt = '%1.1f + %1.1f / (%1.1f * %1.1f)'
np.savetxt('tmp.txt', a, fmt=fmt)

11.0 + 12.0 / (13.0 * 14.0)
21.0 + 22.0 / (23.0 * 24.0)
31.0 + 32.0 / (33.0 * 34.0)

fmt 作为格式化字符串的迭代器:【fmt设置多个参数】

fmt = '%d', '%1.1f', '%1.9f', '%1.9f'
np.savetxt('tmp.txt', a, fmt=fmt)

11 12.0 13.000000000 14.000000000
21 22.0 23.000000000 24.000000000
31 32.0 33.000000000 34.000000000

(2)numpy.loadtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0, encoding='bytes')

fname:文件名/文件路径,如果文件后缀是.gz.bz2,文件将被解压,然后再载入
dtype:要读取的数据类型
comments:文件头部或者尾部字符串的开头字符,用于识别头部,尾部字符串
delimiter:划分读取上来值的字符串
converters:数据行之间的分隔符

参考学习:

Numpy中数据的常用的保存与读取方法 - 好奇不止,探索不息 - 博客园 (cnblogs.com)



遇到相关问题再补充哦! 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

numpy 中常用的数据保存、fmt多个参数 的相关文章

随机推荐

  • 接口传参时,不写字段,这种格式http://localhost:9000/findData/1 取参

    GetMapping findData id public List
  • 7.GDB与文件IO

    1 GDB 什么是 GDB 调试 1 1 GDB 准备工作 gdb 是一个 shell 指令 必须带有 g 的参数 程序才将调试信息添加到文件中 g g a cpp o a out 先为文件添加调试信息 打开所有的 warning 选项 g
  • C++的类继承与类模板

    类继承是面向对象编程中很重要 也是很难 的内容 其能有效地提高代码复用水平 提高开发的效率 目录 基本概念 公有继承 私有继承 保护继承 包含 多重继承 类模板 基本概念 继承的种类与特点 C 中提供了几种继承 分别为公有继承 public
  • 除自身以外数组的乘积

    目录 1 题目描述 2 题目分析 3 代码实现 1 题目描述 给定长度为 n 的整数数组 nums 其中 n gt 1 返回输出数组 output 其中 output i 等于 nums 中除 nums i 之外其余各元素的乘积 示例 输入
  • 如何选择期权品种

    有朋友问 国内的 疫情目前得到较好的控制 经济也在逐渐恢复运行 国外的疫情在加重 也许会有部分国家经济做阶段停摆 假如上面的成立 我们是不是可以选择一种套利 买入国内经济需求会带动上涨的商品 卖出国外经济下滑会带动下跌的商品 如果这个方案可
  • webpack

    一 是什么 webpack proxy 即webpack提供的代理服务 基本行为就是接收客户端发送的请求后转发给其他服务器 其目的是为了便于开发者在开发模式下解决跨域问题 浏览器安全策略限制 想要实现代理首先需要一个中间服务器 webpac
  • 城市空间数字化浪潮中,万物云以“蝶城”迎“蝶变”

    3月27日 万物云空间科技服务股份有限公司 以下简称 万物云 02602 HK 公布了上市首份年度业绩报告 营收大幅增长 毛利稳定 蝶城模式初步得到验证 财报显示 2022年 万物云营收301亿元 同比增长27 0 毛利为42 31亿元 同
  • 50 Kick-Ass Websites You Need to Know About

    http www maximumpc com 50 kick ass websites you need to know about page 1 It s time to update the entries in your browse
  • 铨顺宏RFID:电子汽车车牌系统具有RFID识别功能

    大城市的车辆数目持续提升 车辆管理方法一直是城市公共交通中的一个关键步骤 RFID系统对车辆开展合理的管理方法 迅速 全自动地鉴别车辆的真实身份 已变成车辆管理方法的关键方式 智能化电子车牌号融合了一般车牌号自动检索和收集的特性 融合RFI
  • 投递简历2500份,46次面试,只拿到了1个offer,IT行业怎么了?

    7月14日 一位被Meta解雇的PM 产品经理 在网上发布的一段文字 标题为 2500 Job apps 46 interviews 1 offer 就这件事以及CSDN发布的 2023中国开发者调查报告 和香帅的 2023年度演讲 聊聊目
  • Blockly 的配置

    本文基于Web Blockly 整理一下可视化编程工具 Blockly 的常用配置 包括 工作区配置 添加自定义块 配置工具箱 配置代码生成器等 固定尺寸工作区 可调尺寸工作区 添加自定义块 Block 工具箱 Toolbox 配置 代码生
  • Python 学习个人备忘录

    学习 Python 那么久 总有记不住的东西 用时到处找 实是不智 思索良久 刚才脑中闪现 在CSDN留个备忘 方便用时查找 2021 11 22 11 59AM 学习的细节是欢悦的历程 Python 官网 https www python
  • 数据库 对于索引的理解

    今天 看了下oracle数据库的索引 我一直不理解索引的机制到底是什么 正好看到了一篇博客 对理解索引有一定的好处 参考文献 https www cnblogs com java learner p 9567456 html
  • leetcode---链表类型---每日一题---第141题

    1 今日题目 第141题 环形链表 2 题目要求如下 给你一个链表的头节点 head 判断链表中是否有环 如果链表中有某个节点 可以通过连续跟踪 next 指针再次到达 则链表中存在环 为了表示给定链表中的环 评测系统内部使用整数 pos
  • 【车载以太网测试从入门到精通】——DoIP BootLoader刷写(含CAPL源码)

    系列文章目录 车载以太网测试从入门到精通 系列文章目录汇总 文章目录 系列文章目录 前言 一 DoIP刷写环境搭建 二 DoIP刷写工程使用方法 三 DoIP刷写CAPL源码 四 刷写工程下载链接 前言 DoIP概述 DoIP Diagno
  • C++之模板

    目录 前言 一 模板 1 1 模板的概念 1 2 函数模板 二 模板案例1 案例描述 三 普通函数与函数模板的区别 四 普通函数与函数模板的调用规则 五 模板具有局限性 六 类模板的作用 七 类模板中成员函数创建时机 八 类模板对象做函数参
  • k8s出现问题导致cpu使用率过高

    今天突然发现k8s的dashboard很卡 进到master节点 用top命令查看 发现如下信息 cpu使用率很高 主要是si 软中断 占用了80 iptables命令是占用cpu最高的 于是用iptables L命令查看iptables规
  • TCP的特性(包含三次握手、四次挥手问题)

    目录 TCP协议基础 一 确认应答 可靠性的核心 1 原理 2 其他场景 二 超时重传 可靠性 三 连接管理 三次握手 四次挥手 可靠性 1 三次握手 如何建立连接 2 四次挥手 如何断开连接 四 滑动窗口 效率 1 传输原理 2 窗口范围
  • html网页设计导航栏制作教程,使用CSS制作立体导航栏

    css制作的立体导航栏 具体实现代码如下所示 CSS制作立体导航 body background ebebeb nav width 560px height 50px font bold 0 50px Arial text align ce
  • numpy 中常用的数据保存、fmt多个参数

    在经常性读取大量的数值文件时 比如深度学习训练数据 可以考虑现将数据存储为Numpy格式 然后直接使用Numpy去读取 速度相比为转化前快很多 一 保存为二进制文件 npy npz 1 numpy save file arr allow p