Pytorch : Dataset和DataLoader

2023-05-16

一、综述

Dataset :对数据进行抽象，将数据包装为Dataset类。
DataLoader:在 Dataset之上对数据进行进一步处理，包括进行乱序处理，获取一个batch_size的数据等。
在这里插入图片描述

二、Dataset

在Dataset类中必须重新 getitem()、len()两个方法。

创建数据

ss=np.linspace(1,100,100)
np.savetxt("sample_data.txt", ss.reshape(-1,4))

数据格式如下所示：
在这里插入图片描述
2. 创建自定义Dataset

import numpy as np
import torch as t
from torch.utils.data import Dataset

class MyDataSet(Dataset):
    def __init__(self):
        
        #使用numy读取数据
        txt_data = np.loadtxt('sample_data.txt')
        #取数据前三列为x
        self._x = t.from_numpy(txt_data[:,:3])
        #取数据最后一列为target值
        self._y = t.from_numpy(txt_data[:,-1])
        #获取数据的长度
        self._len = len(txt_data)
        
    def __getitem__(self,item):
        #item对应的一条数据，可以是一张图，可以是一句话，总之 记住，一条数据。
        return self._x[item],self._y[item]
    
    def __len__(self):
        #带训练数据的总长度, 如果是dataframe, 直接len(df)即可，或者在init的时候传入了长度，直接返回
        return self._len

dataset =  MyDataSet()
print(len(dataset))
data =next(iter(dataset))
print(data)

在这里插入图片描述

三、 DataLoader

在这里插入图片描述

关键参数：

dataset ：数据集
batch_size ：一个批次的大小
shuffle : 是否乱序处理
sampler:非常简单的多线程方法, 只要设置为>=1, 就可以多线程预读数据啦.
drop_last:如果数据集大小不能整除batch_size的话，是否删除最后一个batch

from torch.utils.data import DataLoader

data = MyDataSet()
dataloader = DataLoader(data,batch_size=4,shuffle=True,drop_last=True,num_workers=0)

for i,data in enumerate(dataloader):
    print('batch---->',i+1)
    inputs,labels=data
    print(inputs)
    print(labels)
    print("*"*30)

在这里插入图片描述

四、random_split

pytorch中 random_split类似于 sklearn中的train_test_split类似的功能，将数据切分为训练集、测试集、验证集。

from torch.utils.data import random_split

all_length =len(dataset)
train_size =int(0.8*all_length)
test_size = all_length - train_size

#切分数据集
train_dataset,test_dataset = random_split(dataset,[train_size,test_size])
train_loader = DataLoader(train_dataset, batch_size=3, shuffle=True, num_workers=0)
test_loader = DataLoader(test_dataset, batch_size=3, shuffle=False, num_workers=0)
for i,curr_data in enumerate(train_loader):
    print('batch---->',i+1)
    inputs,labels=curr_data
    print(inputs)
    print(labels)
    print("*"*30)
    ```
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/2021012612065338.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dhb3dhaGFoYQ==,size_16,color_FFFFFF,t_70)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pytorch

Dataset

DataLoader

Pytorch : Dataset和DataLoader 的相关文章

用我自己的值初始化pytorch卷积层

我想知道是否有办法用我自己的值初始化 pytorch 卷积过滤器例如我有一个元组 0 8423 0 3778 3 1070 2 6518 我想用这些值初始化 2X2 过滤器我该怎么做我查找了一些答案但他们大多使用火炬正态分布和其他
无法使用 torch.Tensor 创建张量

我试图创建一个张量如下所示 import torch t torch tensor 2 3 我收到以下错误类型错误回溯最近调用最后在 gt 1 a torch tensor 2 3 类型错误 tensor 需要 1 个位置参数但
pytorch - “conv1d”在哪里实现？

我想看看 conv1d 模块是如何实现的https pytorch org docs stable modules torch nn modules conv html Conv1d https pytorch org docs stabl
PyTorch - 参数不变

为了了解 pytorch 的工作原理我尝试对多元正态分布中的一些参数进行最大似然估计然而它似乎不适用于任何协方差相关的参数所以我的问题是为什么这段代码不起作用 import torch def make covariance ma
预训练 Transformer 模型的配置更改

我正在尝试为重整变压器实现一个分类头分类头工作正常但是当我尝试更改配置参数之一 config axis pos shape 即模型的序列长度参数时它会抛出错误 Reformer embeddings position embeddin
如何从里程计/tf数据获取投影矩阵？

我想将视觉里程计的结果与 KITTI 数据集提供的事实进行比较对于地面中的每一帧我都有一个投影矩阵例如 1 000000e 00 9 043683e 12 2 326809e 11 1 110223e 16 9 043683e 12
在 C++ API 中将一个张量的一大块复制到另一个张量中

我需要复制一行一个张量在c API 转换为另一个张量的某些部分其中开始和结束索引可用在 C 中我们可以使用类似的东西 int myints 10 20 30 40 50 60 70 std vector
查找张量中沿轴的非零元素的数量

我想找到沿特定轴的张量中非零元素的数量有没有 PyTorch 函数可以做到这一点我尝试使用非零 http pytorch org docs master torch html highlight nonzero torch nonzer
如何在 google colab 中运行 matlab .m 文件

我目前正在尝试运行这个存储库https github com Fanziapril mvfnet https github com Fanziapril mvfnet这需要一个步骤 Run the Matlab ModelGeneratio
将数据集导出到 Excel 并从 asp.net Web 方法引发文件下载对话框

我使用以下代码将数据集导出到 Excel 工作表 WebMethod public static void ExporttoExcel DataSet ds productfactory pf new productfactory ds p
运行时错误：CUDA 错误：设备端断言已触发 - 训练 LayoutLMV3 时

我正在训练最新版本的layoutLMv3模型但在开始训练时trainer train 出现以下错误请帮我解决它我使用的是 v100 4 GPU RuntimeError Traceback most recent call last
删除 Torch 张量中的行

我有一个火炬张量如下 a tensor 0 2215 0 5859 0 4782 0 7411 0 3078 0 3854 0 3981 0 5200 0 1363 0 4060 0 2030 0 4940 0 1640 0 6025 0
pytorch grad 在 .backward() 之后为 None

我刚刚安装火炬 1 0 0 on Python 3 7 2 macOS 并尝试tutorial https pytorch org tutorials beginner blitz autograd tutorial html sphx g
为什么 PyTorch nn.Module.cuda() 不将模块张量移动到 GPU，而仅将参数和缓冲区移动到 GPU？

nn Module cuda 将所有模型参数和缓冲区移动到 GPU 但为什么不是模型成员张量呢 class ToyModule torch nn Module def init self gt None super ToyModule se
在pytorch张量中过滤数据

我有一个张量X like 0 1 0 5 1 0 0 1 2 0 我想实现一个名为的函数filter positive 它可以将正数据过滤成新的张量并返回原始张量的索引例如 new tensor index filter positive
如何在pytorch中查看DataLoader中的数据

我在 Github 上的示例中看到类似以下内容如何查看该数据的类型形状和其他属性 train data MyDataset int 1e3 length 50 train iterator DataLoader train data b
未能启用约束。一行或多行包含违反非空、唯一或外键约束的值。 VB.Net 中的错误

StackOverFlow 中出现了三个类似的问题但没有人给出答案如果已找到发生此错误的原因但不知道解决方法我在用Strongly Typed Dataset对于我的项目它是作为 DAL 的 dll 创建的我已使用设计器将 Sql
如何命名在存储过程中返回的数据集的表？

我有以下存储过程 Create procedure psfoo AS select from tbA select from tbB 然后我以这种方式访问数据 Sql Command mySqlCommand new SqlCommand
PyTorch：如何检查训练期间某些权重是否没有改变？

如何检查 PyTorch 训练期间某些权重是否未更改据我了解一种选择可以是在某些时期转储模型权重并检查它们是否通过迭代权重进行更改但也许有一些更简单的方法有两种方法可以解决这个问题 First for name param in
使用 linq 将数据集列表

我有一个DataSet我想转换DataSet into List

随机推荐

TCP/IP，Linux中使用信号量控制运行中的进程，使用signal函数绑定信号量和处理函数，替换信号量默认功能，信号量会打断sleep的休眠状态

TCP IP xff0c Linux中使用信号量控制运行中的进程 xff0c 绑定信号量和处理函数 xff0c 信号量会打断sleep的休眠状态一 Linux中使用信号量对进程的调控 xff1a 1 信号量是一个int值 xff0c 由操
几种经典非线性滤波算法简单概括（EKF，UKF，CKF，PF）

几种经典非线性滤波算法概括 xff08 EKF xff0c UKF xff0c CKF xff0c PF xff09 上一篇文章阐述了Kalman滤波算法 xff0c 该算法是在线性高斯下的最优滤波估计算法但是在实际控制系统中 xff0c
扩展卡尔曼滤波（EKF）算法详细推导及仿真（Matlab）

扩展卡尔曼滤波 xff08 EKF xff09 算法详细推导及仿真 xff08 Matlab xff09 扩展卡尔曼滤波算法是解决非线性状态估计问题最为直接的一种处理方法 xff0c 尽管EKF不是最精确的最优滤波器 xff0c 但在过
uio驱动编写实例1

AUTHOR xff1a Joseph Yang 杨红刚 lt eagle rtlinux 64 gmail com gt CONTENT uio驱动编写实例1 NOTE xff1a linux 3 0 LAST MODIFIED xff
raspberry pi pico, 如何在macos平台使用picoprobe，vscode来debug程序

debugprobe 80元人民币再买一块pico 刷上debug程序 xff0c 仅要16元 xff0c 当然用便宜的在mac上的vs code总是遇见问题单独运行openocd时 xff0c 也有问题 xff0c 出现错误 CMS
1—类、域、方法和实例对象

Java 是面向对象的高级编程语言 xff0c 类和对象是 Java 程序的构成核心围绕着 Java 类和 Java 对象 xff0c 有三大基本特性 xff1a 封装是 Java 类的编写规范继承是类与类之间联系的一种形式而多态为系
常用数学公式汇总

常用数学公式汇总一基础代数公式 1 平方差公式 xff1a xff08 a xff0b b xff09 xff08 a xff0d b xff09 xff1d a2 xff0d b2 2 完全平方公式 xff1a xff08 a b x
Kubernetes--API Server资源隔离

Kubernetes的一些功能特性也与公有云提供商密切相关 xff0c 例如 xff1a 负载均衡服务弹性公网IP 存储服务等 xff0c 具体实现也需要与API Server通信 xff0c 也属于运行商内部重点保障的安全区域此外 x
公式提取方法

Mathpix Snipping Tool和MathType配合用法 Mathpix Snipping Tool是一个可以提取数学公式的工具 xff0c 当我们写毕业论文或者结课报告或者参加数学建模等比赛的用到的公式 xff0c 可以用这款
（学习unix编程）关于文件流与文件描述符的区别

文件描述符 xff08 就是整数 xff09 用于在一个进程内唯一的标识打开的文件这假定了内核能够在用户进程的描述符和内核内部使用的机构之间 xff0c 建立一种关联 xff08 深入linux内核架构 xff09 由于唯一标识进程的结构
2000页kubernetes操作手册，内容详细代码清晰，小白也能看懂

现如今 xff0c Kubernetes业务已成长为新时代的IT基础设施 xff0c 并成为高级运维工程师架构师后端开发工程师的必修技术栈毫无疑问 xff0c Kubernetes是云计算发展演进的一次彻底革命性的突破 xff0c 只
Linux安装nodejs和npm

最近window系统转向linux系统开发 xff0c linux系统的确适合程序员的开发作为前端安装了nodejs和npm xff0c 遇到了一些坑 xff0c 赶紧记录下来第一种安装方法 xff1a 安装nodejs xff1a s
查看core dumped的详细错误原因

什么是Core Dump Core的意思是内存 Dump的意思是扔出来堆出来开发和使用Unix程序时有时程序莫名其妙的down了却没有任何的提示有时候会提示core dumped 这时候可以查看一下有没有形如core 进程号的文件
IntelliJ IDEA创建Servlet最新方法 Idea版本2020.2.2以及IntelliJ IDEA创建Servlet 404问题（超详细）

第一次用IntelliJ IDEA写java代码 xff0c 之前都是用eclipse xff0c 但eclipse太老了下面为兄弟们奉上IntelliJ IDEA创建Servlet方法 xff0c 写这个的目的也是因为在网上找了很多资料
Linux下做C语言/C++开发的一些建议

相对于Linux下的C C 43 43 开发 xff0c 在windows下的初学者往往容易入门 xff0c 原因是visual studio 这个强大的工具隐藏了很多的细节 xff0c 好多人甚至以为拖拖控件 xff0c 写写消息响应函数
Target ‘STM32F4xx‘ uses ARM-Compiler ‘Default Compiler Version 5‘ which is not available.找不到v5版本解决方法

现在官网上没有v5的版本了 xff0c keil默认安装的是v6的版本 xff0c 如果工程想要运行以前的工程 xff0c 可以设置将工程的编辑器从v5转到v6 xff0c 下面是方法 xff1a 1 使用MDK打开工程 2 选择 Proj
关于imu的介绍

1 imu时惯性运动丹云 xff0c 包含加速度计和陀螺传感器的组合它被用来检查加速度和角速度 xff08 IMU传感器 xff0c 你所需要知道的全部知乎 xff09 虽然时外文翻译的 xff0c 凡是整体风格清晰 2 imu的使用
LSTM与GRU

LSTM 与 GRU 一综述 LSTM 与 GRU是RNN的变种 xff0c 由于RNN存在梯度消失或梯度爆炸的问题 xff0c 所以RNN很难将信息从较早的时间步传送到后面的时间步 LSTM和GRU引入门 xff08 gate xff0
Pytorch 实战RNN

一简单实例 span class token comment coding utf8 span span class token keyword import span torch span class token keyword as
Pytorch : Dataset和DataLoader

一综述 Dataset 对数据进行抽象 xff0c 将数据包装为Dataset类 DataLoader 在 Dataset之上对数据进行进一步处理 xff0c 包括进行乱序处理 xff0c 获取一个batch size的数据等二 Dat

Pytorch : Dataset和DataLoader

一、综述

二、Dataset

三、 DataLoader

四、random_split

Pytorch : Dataset和DataLoader 的相关文章

随机推荐

热门标签