Python 各种数据保存与读取方法——numpy，dict，dataframe等等

2023-11-12

文章目录

前言
一、写入与读取
总结

前言

往往在做机器学习或者深度学习的时候，数据预处理部分需要大量的时间，如果每次debug都重新预处理数据，这样速度非常慢。
我有一个embedding的数据预处理过程，重新跑一次要两分钟，但是将预处理完的数据保存至本地后，导入数据只需要10秒，速度差距非常大。

一、写入与读取

1.Dataframe转csv，xlsx

Dataframe可以考虑转换为csv文件或者excel文件，CSV和excel的区别：

1.CSV是纯文本文件，可以记事本直接打开，excel不是纯文本，excel包含很多格式信息在里面。

2.CSV文件的体积会更小，创建分发读取更加方便，适合存放结构化信息，比如记录的导出，流量统计等等。

3.CSV文件在windows平台默认的打开方式是excel，但是它的本质是一个文本文件。
就把csv当作一种同时兼容记事本和excel的文件吧，如果是计算机专业的，存放数据集啥的，直接考虑csv格式。

代码如下（示例）：

import pandas as pd

% csv的保存与读取
df.to_csv("xxx.csv",index=False,sep=',')
df = pd.read_csv('xxx.csv', sheet_name='xxx',)

% excel的保存与读取
df.to_excel("xxx.xlsx",header=None,index=False)
df = pd.read_excel('xxx.xlsx', sheet_name='xxx',)

2.numpy(ndarray转npy)

ndarray数据类型可以使用以下代码保存与读取。list类型数据也可以考虑先转换为numpy保存，读取npy文件之后再转为list。

import numpy as np
np.save('C:/Users/xxx/photos.npy', photos) %保存至本地
photos = np.load('C:/Users/xxx/photos.npy') %读取至本地

3.dict转txt

字典类型数据的保存与读取。

保存：

f = open('C:/Users/xxx/photos.txt','w')
f.write(str(word_index))
f.close()

读取：

f = open('C:/Users/xxx/photos.txt','r')
a = f.read()
word_index = eval(a)
f.close()

总结

本文总结了python常用的三种格式数据的保存与读取方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python坑爹

Feature Engineering

python

NumPy

dict

Python 各种数据保存与读取方法——numpy，dict，dataframe等等的相关文章

Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
使用 python 进行串行数据记录

Intro 我需要编写一个小程序来实时读取串行数据并将其写入文本文件我在读取数据方面取得了一些进展但尚未成功地将这些信息存储在新文件中这是我的代码 from future import print function import se
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
如何从Python中的字符串中提取变量名称和值

我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量更具体地说我对字典变量感兴趣这样我就可以获得变量的值 id和name python 这是由提供
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
Python 无法使用套接字绑定我的外部/公共 IP 地址，给出错误但是当使用本地 IP 地址时，错误不会显示

这是出现主要错误的代码与我的本地 IP 的绑定将起作用 s bind 192 168 1 4 port 与我的公共 IP 的绑定失败并出现以下错误 s bind 99 99 99 99 port WinError 10049 请求的地址在
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default

随机推荐

2023最新版本Activiti7系列-源码篇-初始化过程

源码分析 1 设计模式 1 1 命令模式 https dpb bobokaoya sm blog csdn net article details 89115420 1 2 责任链模式 https dpb bobokaoya sm blog
xss攻击的了解

常见的xss攻击方法 1 绕过XSS Filter 利用 lt gt 标签注入Html JavaScript代码 2 利用HTML标签的属性值进行xss攻击例如 img src 当然并不是所有的Web浏览器都支持Javascript伪协议
【LeetCode刷题】203 移除链表元素 java

题目给你一个链表的头节点 head 和一个整数 val 请你删除链表中所有满足 Node val val 的节点并返回新的头节点示例方法一先对头节点做处理使其不为val class Solution public ListNo
java一个数如果恰好等于它的因子之和，这个数就称为 "完数 "。(java50道经典编程题)

题目一个数如果恰好等于它的因子之和这个数就称为完数例如6 1 2 3 编程找出1000以内的所有完数对于这道题其实乍一看可能觉得比较困难但是你只要知道一个问题作为求因子只需要从1开始让你输入的这个数一直除就好了记得每回合
C++对于表达式临时对象的处理

在表达式中如果使用了一个类的操作符重载函数或者调用了一个返回类对象的函数都会产生临时对象临时对象的生存周期就在表达式中甚至是表达式中的子语句临时对象的销毁应该是在完整表达式的最后一句执行比如下面的例子 T c c a b 另外
Remove Duplicates from Sorted Array II

还是原地重写法保留的条件是A j A i 2 注意后面的下标是i 2 不是j 2 int removeDuplicates int A int n if n lt 3 return n int i 2 for int j 2 j
java关于文件记录篇章之文件夹创建篇

今天创建一个文件夹目录的时候创建多级目录的时候发现自己老是创建失败但是系统显示文件夹创建成功但是你去找文件夹的时候又发现创建失败这里在我成功之后封装了一个创建文件夹的创建对象首先这个文件夹是用来解决本地存储文件和linux上
dockers报错：Cannot connect to the Docker daemon

异常信息 22 01 14 13 58 44 Reporter INFO YarnAllocator Completed container container e118 5690061100801 24379300 01 000066 o
更换gradle，引起文件缺失报错 Could not resolve all dependencies for configuration ':classpath'.

因为公司项目需要低版本gradle 加上同事其他项目也是需要低版本gradle 要更换gradle 使用2 14 1 于是遇到了如下报错百度了很多人都没有直接的办法直接放弃去找已经下载的使用看了一篇文章https www cnblo
【Web3.0大势所趋】下一代互联网的未来

前言 Web3 0 是一个越来越受到关注的话题它被认为将会带来天翻地覆的变化本文我们一起来谈谈 Web3 0 的概念特点和优势并探讨它为什么如此重要和具有革命性的文章目录前言 Web3 0是什么区块链技术智能合约总结 We
elasticsearch之explain的使用

explain查看怎么计算得分的 format将json格式结果转为yaml展示 POST tlsmz search format yaml explain true query bool must term fz keyword valu
phpstorm显示页面不停的在indexing转圈中,并且文件名还一直在刷新

打开 File下的 Invalidate Caches Restart 下的 Invalidate and Restart 便可以了
区块链学习笔记16——以太坊中的交易树和收据树

十六以太坊中的交易树和收据树每次发布一个交易的时候那些交易会组织成一个交易树也是一颗Merkle tree跟比特币中的情况是类似的同时以太坊还增加了一个收据树每个交易执行完之后会形成一个收据记录这个交易的相关信息交易树和收据
Latex公式排版（编号、换行、括号内换行、对齐）

最近写论文刚上手了Latex 因为有模板所以用起来还是很方便的但是在实际使用中由于论文是双栏的因此比较长的公式在排版时会比较困难下面对Latex中的公式排版方法做一些记录公式的编写方法在此不再赘述可以选择网页版的Latex公式
机器学习项目

文章来源 ATYUN AI平台 8800个开源机器学习项目并从中选取了前30个制成这份清单它涵盖了2017年1月和12月之间发布的最佳开源机器学习库数据集和应用程序 Mybridge AI通过受欢迎程度参与度和新近度来评估质量为了
安卓开发移植他人项目配置问题

在开发移植他人项目会出现各种配置问题解决方法 1 将build gradle中的包版本改成跟自己本地项目相同的版本 2 在gradle properties中写入 android overridePathCheck true 3 在app
离线包实现app内H5的秒开

前言市面上业务复杂 App中近半数业务页面使用H5 页面承载 H5的优势很明显跨平台迭代快开发体验好 H5的劣势同样明显加载慢用户体验差为了提高页面加载速度和成功率我们在app H5 部分业务加载采用了离线包方式如果有业
如何选取合适的运算放大器？

首先呢我不是大牛本文也会有很多不足之处欢迎大家提出意见进入正题在模拟输入部分一个重要的大类是单端电压和电流的调理和转换如 0 5V 10V 0 20mA 等另一个重要的大类是传感器信号的调理和转换最常用的如电桥 R TD
2021哈工大深入理解计算机系统Lab5(linklab)

2021哈工大计算机系统lab5 linklab 实验目的实验环境与工具硬件环境软件环境开发工具实验内容 LinkBomb程序框架 phase1 全局变量数据节 phase2 指令代码节 phase3 符号解析 phase4
Python 各种数据保存与读取方法——numpy，dict，dataframe等等

文章目录前言一写入与读取 1 Dataframe转csv xlsx 2 numpy ndarray转npy 3 dict转txt 总结前言往往在做机器学习或者深度学习的时候数据预处理部分需要大量的时间如果每次debug都重新预

热门标签