根据任务需求自制数据集：Pytorch自定义数据集Dataset代码示例（有监督学习，输入输出均为图像）

2023-11-12

自定义数据集

一、使用torchvision.io读取照片
二、使用PIL读取照片

一、使用torchvision.io读取照片

import numpy as np
import torch
from PIL import Image
import numpy
from matplotlib import pyplot as plt
from torch.utils.data import Dataset,DataLoader
from torchvision import transforms,utils
import warnings
import pandas as pd
import os
import sklearn
from skimage import io,transform
import yaml
import pathlib
from torchvision.io import image



warnings.filterwarnings("ignore")
np.printoptions(np.inf)

gpu_is_available=torch.cuda.is_available()
print("GPU is {}".format( "available" if gpu_is_available else "not available"))


def read_yaml_data():
    file_path='./environments.yaml'
    with open(file_path, 'r', encoding='utf-8') as f:
        data = yaml.load(f, Loader=yaml.FullLoader)
        # print(data)
    return data


def read_imgs_paths():
    data_paths=read_yaml_data()['data_path']
    train_hazy_dir=data_paths['train_hazy_dir']
    train_gt_dir=data_paths['train_gt_dir']
    val_hazy_dir=data_paths['val_hazy_dir']
    val_gt_dir=data_paths['val_gt_dir']
    # print(data_paths)
    train_hazy_paths=list(pathlib.Path(train_hazy_dir).glob('*'))
    train_hazy_paths=[str(i) for i in train_hazy_paths]
    train_gt_paths=list(pathlib.Path(train_gt_dir).glob('*'))
    train_gt_paths=[str(i) for i in train_gt_paths]
    val_hazy_paths=list(pathlib.Path(val_hazy_dir).glob('*'))
    val_hazy_paths=[str(i) for i in val_hazy_paths]
    val_gt_paths=list(pathlib.Path(val_gt_dir).glob('*'))
    val_gt_paths=[str(i) for i in val_gt_paths]
    train_hazy_paths.sort()
    train_gt_paths.sort()
    val_hazy_paths.sort()
    val_gt_paths.sort()
    # print(train_hazy_paths)
    # print(train_gt_paths)
    # print(val_hazy_paths)
    # print(val_gt_paths)
    return (train_hazy_paths,train_gt_paths),(val_hazy_paths,val_gt_paths)


class Dehazing_Dataset(Dataset):  # data sample: {'image':image,'landmarks':landmarks}
    def __init__(self,hazy_paths,gt_paths,transform=None):
        super(Dehazing_Dataset, self).__init__()
        self.hazy_paths=hazy_paths
        self.gt_paths=gt_paths
        self.transform=transform

    def __len__(self):  # nums of data
        return len(self.hazy_paths)

    def __getitem__(self, item):  # get a sample
        hazy_img=image.read_image(self.hazy_paths[item])/255.0  # <class 'torch.Tensor'>
        gt_img=image.read_image(self.gt_paths[item])/255.0

        if self.transform:
            hazy_img=self.transform(hazy_img)
            gt_img=self.transform(gt_img)
        return hazy_img,gt_img


def get_dataset():
    (train_hazy_paths, train_gt_paths), (val_hazy_paths, val_gt_paths) = read_imgs_paths()
    train_dataset = Dehazing_Dataset(train_hazy_paths, train_gt_paths,
                                     transform=transforms.Compose([transforms.RandomCrop(size=(256,287))]))
    val_dataset = Dehazing_Dataset(val_hazy_paths, val_gt_paths,
                                     transform=transforms.Compose([transforms.RandomCrop(size=(256,287))]))

    # for i in range(len(train_dataset)):
    #     sample=train_dataset[i]
    #     show_img(sample)

    train_dataloader = DataLoader(train_dataset, batch_size=2, shuffle=True,num_workers=0)
    val_dataloader = DataLoader(val_dataset, batch_size=2, shuffle=True,num_workers=0)
    return train_dataloader,val_dataloader


def show_img(sample):
    hazy,gt=sample[0],sample[1]  # c,h,w
    hazy = hazy.permute(1, 2, 0)
    gt = gt.permute(1, 2, 0)
    plt.figure(figsize=(10,15))
    for i in range(2):
        plt.subplot(1,2,i+1)
        plt.axis('off')
        if i==0:
            plt.imshow(hazy)
        else:
            plt.imshow(gt)
    plt.show()


if __name__=='__main__':
    train_dataloader, val_dataloader=get_dataset()
    for i_batch,sample_batch in enumerate(train_dataloader):
        print(type(sample_batch))  # <class 'list'>
        print(sample_batch[0].size())  # torch.Size([2, 3, 256, 287])
        print(sample_batch[1].size())  # torch.Size([2, 3, 256, 287])

二、使用PIL读取照片

import numpy as np
import torch
from PIL import Image
from matplotlib import pyplot as plt
from torch.utils.data import Dataset,DataLoader
from torchvision import transforms,utils
import warnings
import pandas as pd
import os
import sklearn
from skimage import io,transform
import yaml
import pathlib


warnings.filterwarnings("ignore")
np.printoptions(np.inf)

gpu_is_available=torch.cuda.is_available()
print("GPU is {}".format( "available" if gpu_is_available else "not available"))


def read_yaml_data():
    file_path='./environments.yaml'
    with open(file_path, 'r', encoding='utf-8') as f:
        data = yaml.load(f, Loader=yaml.FullLoader)
        # print(data)
    return data


def read_imgs_paths():
    data_paths=read_yaml_data()['data_path']
    train_hazy_dir=data_paths['train_hazy_dir']
    train_gt_dir=data_paths['train_gt_dir']
    val_hazy_dir=data_paths['val_hazy_dir']
    val_gt_dir=data_paths['val_gt_dir']
    # print(data_paths)
    train_hazy_paths=list(pathlib.Path(train_hazy_dir).glob('*'))
    train_hazy_paths=[str(i) for i in train_hazy_paths]
    train_gt_paths=list(pathlib.Path(train_gt_dir).glob('*'))
    train_gt_paths=[str(i) for i in train_gt_paths]
    val_hazy_paths=list(pathlib.Path(val_hazy_dir).glob('*'))
    val_hazy_paths=[str(i) for i in val_hazy_paths]
    val_gt_paths=list(pathlib.Path(val_gt_dir).glob('*'))
    val_gt_paths=[str(i) for i in val_gt_paths]
    train_hazy_paths.sort()
    train_gt_paths.sort()
    val_hazy_paths.sort()
    val_gt_paths.sort()
    # print(train_hazy_paths)
    # print(train_gt_paths)
    # print(val_hazy_paths)
    # print(val_gt_paths)
    return (train_hazy_paths,train_gt_paths),(val_hazy_paths,val_gt_paths)


class Dehazing_Dataset(Dataset):  # data sample: {'image':image,'landmarks':landmarks}
    def __init__(self,hazy_paths,gt_paths,transform=None):
        super(Dehazing_Dataset, self).__init__()
        self.hazy_paths=hazy_paths
        self.gt_paths=gt_paths
        self.transform=transform

    def __len__(self):  # nums of data
        return len(self.hazy_paths)

    def __getitem__(self, item):  # get a sample
        hazy_img=io.imread(self.hazy_paths[item])/255.0  # <class 'numpy.ndarray'>
        gt_img=io.imread(self.gt_paths[item])/255.0

        if self.transform:
            hazy_img=self.transform(hazy_img)
            gt_img=self.transform(gt_img)
        return hazy_img,gt_img


def get_dataset():
    (train_hazy_paths, train_gt_paths), (val_hazy_paths, val_gt_paths) = read_imgs_paths()
    train_dataset = Dehazing_Dataset(train_hazy_paths, train_gt_paths,
                                     transform=transforms.Compose([transforms.ToTensor(),transforms.RandomCrop(size=(256,287)),]))
    val_dataset = Dehazing_Dataset(val_hazy_paths, val_gt_paths,
                                     transform=transforms.Compose([transforms.ToTensor(),transforms.RandomCrop(size=(256,287)),]))

    # for i in range(len(train_dataset)):
    #     sample=train_dataset[i]
    #     show_img(sample)

    train_dataloader = DataLoader(train_dataset, batch_size=2, shuffle=True,num_workers=0)
    val_dataloader = DataLoader(val_dataset, batch_size=2, shuffle=True,num_workers=0)
    return train_dataloader,val_dataloader


def show_img(sample):
    hazy,gt=sample[0],sample[1]  # c,h,w
    hazy = hazy.permute(1, 2, 0)
    gt = gt.permute(1, 2, 0)
    plt.figure(figsize=(10,15))
    for i in range(2):
        plt.subplot(1,2,i+1)
        plt.axis('off')
        if i==0:
            plt.imshow(hazy)
        else:
            plt.imshow(gt)
    plt.show()


if __name__=='__main__':
    train_dataloader, val_dataloader=get_dataset()
    for i_batch,sample_batch in enumerate(train_dataloader):
        print(type(sample_batch))  # <class 'list'>
        print(sample_batch[0].size())  # torch.Size([2, 3, 256, 287])
        print(sample_batch[1].size())  # torch.Size([2, 3, 256, 287])

注意：
1.Pytorch读取图像数据的集中方式，可参考：链接: https://blog.csdn.net/qq_43665602/article/details/126281393
2.使用torchvision.io和PIL两种方式读取的数据范围为[0,255]，并未进行归一化，我们可根据自己的需求对其进行归一化。

方式一：transform.ToTensor()会自行将数据范围归一化为[0,1]；
方式二：transform.Normalize(mean,std)可通过调整合适的参数值得到自己想要的归一化结果；

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pytorch

深度学习

学习

python

根据任务需求自制数据集：Pytorch自定义数据集Dataset代码示例（有监督学习，输入输出均为图像）的相关文章

Django：如何测试“HttpResponsePermanentRedirect”

我正在为我的 django 应用程序编写一些测试在我看来它使用 HttpResponseRedirect 重定向到其他一些网址那么我该如何测试呢姜戈TestCase类有一个方法assertRedirects https docs d
为什么 .setGeometry() 不改变 QWidget 实例的大小？

我想使用 QWidget 更改 QPushButton 的大小 setGeometry https doc qt io qtforpython 5 PySide2 QtWidgets QWidget html PySide2 QtWidge
从字符串到类型的词法转换

最近我尝试用Python存储和读取文件中的信息遇到了一个小问题我想从文本文件中读取类型信息从 string 到 int 或 float 的类型转换非常有效但从 string 到 type 的类型转换似乎是另一个问题当然我尝试了
如何从 PyCharm 项目中获取我的“exe”[重复]

这个问题在这里已经有答案了通过 PyCharm 在 Python 上编写一些项目我想从中获取一个exe文件我尝试过另存为 gt XXX exe 但是当我尝试执行它时出现错误此类操作系统不支持该文件附注我有win7 x64 它
Python BeautifulSoup XML 解析

我编写了一个简单的脚本来使用 BeautifulSoup 模块解析 XML 聊天日志标准 soup prettify 工作正常只是聊天日志中有很多绒毛您可以在下面看到我正在使用的脚本代码和一些 XML 输入文件 Code import
Pandas重置索引未生效[重复]

这个问题在这里已经有答案了我不确定我在哪里误入歧途但我似乎无法重置数据帧上的索引当我跑步时test head 我得到以下输出正如您所看到的数据帧是一个切片因此索引超出范围我想做的是重置该数据帧的索引所以我跑test rese
为什么 Python 中的“pip install”会引发语法错误？

我正在尝试使用 pip 安装软件包我试着跑pip install从Python shell 但我得到了SyntaxError 为什么我会收到此错误如何使用 pip 安装软件包 gt gt gt pip install selenium
如何限制Django CreateView中ForeignKey字段的选择？

我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
如果字段值在外部列表中，Django 会注释布尔值

想象一下我有这个 Django 模型 class Letter models Model name models CharField max length 1 unique True 还有这个列表 vowels a e i o u 我想查询
定义函数后对其进行修饰？

I think答案是否定的但我似乎找不到明确的说法我有以下情况 def decorated function function functools wraps function def my function print Hello s
spacy 如何使用词嵌入进行命名实体识别 (NER)？

我正在尝试使用以下方法训练 NER 模型spaCy识别位置人名和组织我试图理解如何spaCy识别文本中的实体但我无法找到答案从这个问题 https github com explosion spaCy issues 491在 Gi
具有多个元素的数组的真值是二义性错误吗？ Python

from numpy import from pylab import from math import def TentMap a x if x gt 0 and x lt 0 5 return 2 a x elif x gt 0 5 a
如何使用Python的super()来更新父值？

我对继承很陌生之前所有关于继承和 Python 的 super 函数的讨论都有点超出我的理解我当前使用以下代码来更新父对象的值 usr bin env python test py class Master object mydata
Python：计算数据帧列中所有行中特定字符的实例数

我有一个包含列 toaddress ccaddress body 的数据框 df 我想迭代数据帧的索引以获取 toaddress 和 ccaddress 字段中电子邮件地址的最小最大和平均数量这是通过计算这两列中每个字段中的和的实
为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

尝试抓取条目页面转换为制表符分隔格式主要拉出序列和 UniProt 登录号当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
如何有效地从 loadmat 函数生成的嵌套 numpy 数组中提取值？

python中是否有更有效的方法从嵌套的python列表中提取数据例如A array array 12000000 dtype object 我一直在使用A 0 0 0 0 当你有很多像 A 这样的数据时这似乎不是一个有效的方法我也用
查找给定节点的最高权重边

我在 NetworkX 中有一个有向图边缘的权重从 0 到 1 表示它们发生的概率网络连通性非常高所以我想修剪每个节点的边缘只保留最高概率的节点我不确定如何迭代每个节点并仅保留最高权重in edges在图中有没有一个networ
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
如何在sphinx中启用数学？

我在用sphinx http sphinx pocoo org index html与pngmath http sphinx pocoo org ext math html module sphinx ext pngmath扩展来记录我的代
如何禁止 celery 中的 pickle 序列化

Celery 默认使用 pickle 作为任务的序列化方法如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏

随机推荐

Python基础-48-文本处理（逗号分隔值CSV）

前言 python自带模块csv可以将数据以csv格式输出到文件也可以将csv数据读回列表元组数据写入和读取代码部分 coding utf 8 import csv data也可以为列表 data 1 suner001 b12345
Qt布局管理器

布局管理器利用布局管理器做出如下界面效果标签与输入框设置伙伴关系新建桌面应用程序项目名TestLayout 基类QWidget 类名Widget 不勾选创建界面 include widget h include
ubuntu16.04.4 + cuda + cudnn + 环境变量（path）

仅仅是总结网上教程很多勿喷谢谢时间2018年7月13日环境 ubuntu16 04 4 注意目前ubuntu上CUDA安装只支持该版本 64位显卡英伟达720M 没错很古老吧今天一看发现这个写的太烂了传送门一位大哥写
golang-gvm

https mp weixin qq com s SEPP56sr16bep4C S0TLgA 详细介绍 https mp weixin qq com s biz MzAxMTA4Njc0OQ mid 2651438277 idx 4 sn
Android获取IMEI和MEID

在破解微信数据库时需要获取手机的DeviceId 但是有时会出现打不开的情况报出file is not a database while compiling select count from sqlite master的异常这时发现
linux怎么关闭超线程模式,Linux动态启用/禁用超线程技术的方法详解

前言 intel的超线程技术能让一个物理核上并行执行两个线程大多数情况下能提高硬件资源的利用率增强系统性能对于cpu密集型的数值程序超线程技术可能会导致整体程序性能下降鉴于此执行OpenMP或者MPI数值程序时建议关闭超线程技术
“基于机器学习算法的推荐系统” 在软件静态分析领域的应用方法

一软件静态分析背景软件静态分析的相当部分的内容就是发现代码中的缺陷缺陷的形式往往五花八门各式各样每当发现一个缺陷测试人员首先会感到高兴终于抓到了一条虫可继而很可能会感到心虚因为在现有技术条件下一条软件行业的规律是仍然
C语言分割bin文件程序

file main c author Earlybird version V1 0 0 date 30 May 2022 brief 分割bin文件为指定大小文件 attention Copyright c 2022 INESA Group
c++模板编程-模板类的特例化和部分特化

类模板可以对某一个模板参数进行特化这使得我们可以对某一个类型进行优化你最好真是在优化或者是针对某一个进行类型实例化后的特殊处理全特化如我们有以下一个简单的类模板它提供两个公开函数 calculate计算两个T类型并返回 prin
JS对字符串的操作

走进前端行业已有两年之久对于字符串的操作也是家常便饭了但也总在查查找找如今对于我这个强迫症患者开始爆发了对字符串的操作做以下整理废话不多说直接走起来 1 字符串转换字符串转换是最基础的要求和工作你可以将任何类型的数据都转换为字
爬虫工具之Beautiful Soup4

Beautiful Soup4 BS4 是Python的一个第三方库用来从HTML和XML中提取数据安装使用Beautiful Soup4提取HTML内容一般要经过以下两步 1 处理源代码生成BeautifulSoup对象这里的
位运算的实践

一只出现一次的数字 III 1 1题目给定一个整数数组 nums 其中恰好有两个元素只出现一次其余所有元素均出现两次找出只出现一次的那两个元素你可以按任意顺序返回答案进阶你的算法应该具有线性时间复杂度你能否仅使用常数空间
深度学习实时表情识别

背景计算机动画代理和机器人为人机交互带来了新的维度这使得计算机如何在日常活动中影响我们的社交生活变得至关重要面对面的交流是一个以毫秒级的时间尺度运行的实时过程这个时间尺度的不确定性是相当大的这使得人类和机器有必要依赖感官丰富的感知
超详细的R语言热图之complexheatmap系列（1）

获取更多R语言和生信知识请关注公众号医学和生信笔记公众号后台回复R语言即可获得海量学习资料目录第一章简介 1 1 设计理念 1 2 各章节速览第二章单个热图 2 1 颜色 2 2 行标题列标题 2 3 聚类 2 3 1
深度访谈：“告诉我，AI对企业到底有什么价值？”

Eden是一家连锁经营企业的负责人最近困扰他的是遍布全国直营和加盟店的数千名员工如何在后疫情时代把企业的运营效率通过智能化提升一个层级 AskBot团队专注企业内部智能化用AI去辅助人解决重复高频问题因此才有了双方下面这一系列围绕企
matlab分频.m,分频器m是什么意思音响分频器m. TW那个代表高音那个代表是低音？...

音响分频器m TW那个代表高音那个代表是低音 T是treble 的缩写指高音 M是mediant或middle的缩写指中音 W是woof的缩写指低音音箱分频器m m 什么意思音箱分频器m m 应该是接中音喇叭负正两端 T T 接
尚硅谷周阳老师 SpringCloud第二季学习笔记

前言首先感谢尚硅谷周阳老师的讲解让我对springcloud有了很好的理解周阳老师的讲课风格真的很喜欢内容充实也很幽默随口一说就是一个段子我也算是周阳老师的忠实粉丝啦先说说课程总体内容以下是整理的笔记 SpringCloud
带宽是什么

带宽是什么带宽 band width 又叫频宽是指在固定的的时间可传输的资料数量亦即在传输管道中可以传递数据的能力在数字设备中频宽通常以bps表示即每秒可传输之位数在模拟设备中频宽通常以每秒传送周期或赫兹 Hz 来表示带
超好用：免费的图床

经常写文章的小伙伴可能会头疼图片需要一张一张的上传费劲也耗时今天就推荐几款超简单的图床工具图床就是一个在网络上存储图片的地方目的是为了节省本地服务器空间加快图片打开速度话不多说进入正题非技术手段 1 SM MS 永久存储免
根据任务需求自制数据集：Pytorch自定义数据集Dataset代码示例（有监督学习，输入输出均为图像）

自定义数据集一使用torchvision io读取照片二使用PIL读取照片一使用torchvision io读取照片 import numpy as np import torch from PIL import Image i