如何使用交错的 Huggingface 数据集创建 PyTorch 数据加载器？

2024-02-15

当我交错数据集、获取标记化批次、将批次提供给 pytorch 数据加载器时，我收到错误：

# -*- coding: utf-8 -*-
"""issues with dataloader and custom data sets

Automatically generated by Colaboratory.

Original file is located at
    https://colab.research.google.com/drive/1sbs95as_66mtK9VK_vbaE9gLE-Tjof1-
"""

!pip install datasets
!pip install pytorch
!pip install transformers

token = None
batch_size = 10
from datasets import load_dataset
import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel

tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
if tokenizer.pad_token_id is None:
  tokenizer.pad_token = tokenizer.eos_token
probe_network = GPT2LMHeadModel.from_pretrained("gpt2")
device = torch.device(f"cuda:{0}" if torch.cuda.is_available() else "cpu")
probe_network = probe_network.to(device)

# -- Get batch from dataset
from datasets import load_dataset
# path, name = 'brando/debug1_af', 'debug1_af'
path, name = 'brando/debug0_af', 'debug0_af'
remove_columns = []
dataset = load_dataset(path, name, streaming=True, split="train", token=token).with_format("torch")
print(f'{dataset=}')
batch = dataset.take(batch_size)
# print(f'{next(iter(batch))=}')

# - Prepare functions to tokenize batch
def preprocess(examples):  # gets the raw text batch according to the specific names in table in data set & tokenize
    return tokenizer(examples["link"], padding="max_length", max_length=128, truncation=True, return_tensors="pt")
def map(batch):  # apply preprocess to batch to all examples in batch represented as a dataset
    return batch.map(preprocess, batched=True, remove_columns=remove_columns)
tokenized_batch = batch.map(preprocess, batched=True, remove_columns=remove_columns)
tokenized_batch = map(batch)
# print(f'{next(iter(tokenized_batch))=}')

from torch.utils.data import Dataset, DataLoader, SequentialSampler
dataset = tokenized_batch
print(f'{type(dataset)=}')
print(f'{dataset.__class__=}')
print(f'{isinstance(dataset, Dataset)=}')
# for i, d in enumerate(dataset):
#     assert isinstance(d, dict)
#     # dd = dataset[i]
#     # assert isinstance(dd, dict)
loader_opts = {}
classifier_opts = {}
# data_loader = DataLoader(dataset, shuffle=False, batch_size=loader_opts.get('batch_size', 1),
#                         num_workers=loader_opts.get('num_workers', 0), drop_last=False, sampler=SequentialSampler(range(512))  )
data_loader = DataLoader(dataset, shuffle=False, batch_size=loader_opts.get('batch_size', 1),
                    num_workers=loader_opts.get('num_workers', 0), drop_last=False, sampler=None)
print(f'{iter(data_loader)=}')
print(f'{next(iter(data_loader))=}')
print('Done\a')

有错误：

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
/usr/local/lib/python3.10/dist-packages/torch/utils/data/_utils/collate.py in collate(batch, collate_fn_map)
    126         try:
--> 127             return elem_type({key: collate([d[key] for d in batch], collate_fn_map=collate_fn_map) for key in elem})
    128         except TypeError:

9 frames
TypeError: default_collate: batch must contain tensors, numpy arrays, numbers, dicts or lists; found <class 'NoneType'>

During handling of the above exception, another exception occurred:

TypeError                                 Traceback (most recent call last)
/usr/local/lib/python3.10/dist-packages/torch/utils/data/_utils/collate.py in collate(batch, collate_fn_map)
    148                 return [collate(samples, collate_fn_map=collate_fn_map) for samples in transposed]
    149 
--> 150     raise TypeError(default_collate_err_msg_format.format(elem_type))
    151 
    152 

TypeError: default_collate: batch must contain tensors, numpy arrays, numbers, dicts or lists; found <class 'NoneType'>

为什么？为什么单个数据集 c4 和 wiki-text 不会给出这个错误？仅交错数据集？

理想情况下，我不想编写自己的 collate_function。

colab: https://colab.research.google.com/drive/1sbs95as_66mtK9VK_vbaE9gLE-Tjof1-?usp=sharing https://colab.research.google.com/drive/1sbs95as_66mtK9VK_vbaE9gLE-Tjof1-?usp=sharing
有关的：如何创建一个带有自定义拥抱面部数据集的 pytorch 数据加载器而不出现错误？ https://stackoverflow.com/questions/76872115/how-does-one-create-a-pytorch-data-loader-with-a-custom-hugging-face-data-set-wi
高频讨论：https://discuss.huggingface.co/t/how-does-one-create-a-pytoch-data-loader-using-an-interleaved-hugging-face-dataset/50320 https://discuss.huggingface.co/t/how-does-one-create-a-pytoch-data-loader-using-an-interleaved-hugging-face-dataset/50320

由于某种原因，当数据集相交时，整理函数会感到困惑，因为有额外的行，所以它不知道如何合并内容？我修复它的方法是只保留我想要的列：

    # -- Get data set
    # remove_columns = ['text', 'timestamp', 'url']
    keep_col = ['text']
    # keep the strings in dataaset.column_names that intersect with keep_col str list, one liner
    print('-- interleaving datasets')
    datasets = [load_dataset(path, name, streaming=True, split="train").with_format("torch") for path, name in zip(path, name)]
    [print(f'{dataset.description=}') for dataset in datasets]
    dataset = interleave_datasets(datasets, probabilities)
    remove_columns = [col for col in dataset.column_names if col not in keep_col]
    print(f'{dataset=}')
    batch = dataset.take(batch_size)

而且如果您知道所需的文本字段（假设"text"由于它很常见）：

    def collate_tokenize(data):
        print(f'{data[0]=}')
        text_batch = [element["text"] for element in data]
        tokenized = tokenizer(text_batch, padding='longest', truncation=True, return_tensors='pt')
        return tokenized
    data_loader = DataLoader(tokenized_batch, shuffle=False, batch_size=8, num_workers=0, drop_last=False, collate_fn=collate_tokenize)
    # data_loader = DataLoader(tokenized_batch, shuffle=False, batch_size=8, num_workers=0, drop_last=False)
    # num_batches = len(list(data_loader))
    batch = next(iter(data_loader))
    print(f'{batch=}')
    print('Done!\a')

完整代码：

def test_interleaved_data_set_2_data_loader():
    """ https://colab.research.google.com/drive/1QWDhA6Q64qijXYnwIGn63Aq9Eg5qt8tQ#scrollTo=Wjyy6QYimvIm """
    remove_columns = []
    # -- Get probe network
    from datasets import load_dataset
    import torch
    from transformers import GPT2Tokenizer, GPT2LMHeadModel

    tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
    if tokenizer.pad_token_id is None:
        tokenizer.pad_token = tokenizer.eos_token
    probe_network = GPT2LMHeadModel.from_pretrained("gpt2")
    device = torch.device(f"cuda:{0}" if torch.cuda.is_available() else "cpu")
    probe_network = probe_network.to(device)

    from datasets import interleave_datasets

    path, name = ['c4', 'wikitext'], ['en', 'wikitext-103-v1']
    probabilities = [1.0/len(path)] * len(path)
    batch_size = 512

    # -- Get data set
    # remove_columns = ['text', 'timestamp', 'url']
    keep_col = ['text']
    # keep the strings in dataaset.column_names that intersect with keep_col str list, one liner
    print('-- interleaving datasets')
    datasets = [load_dataset(path, name, streaming=True, split="train").with_format("torch") for path, name in zip(path, name)]
    [print(f'{dataset.description=}') for dataset in datasets]
    dataset = interleave_datasets(datasets, probabilities)
    remove_columns = [col for col in dataset.column_names if col not in keep_col]
    print(f'{dataset=}')
    batch = dataset.take(batch_size)

    # - Prepare functions to tokenize batch
    def preprocess(examples):
        return tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True, return_tensors="pt")
    def map(batch):
        return batch.map(preprocess, batched=True, remove_columns=remove_columns)
    # tokenized_batch = batch.map(preprocess, batched=True, remove_columns=remove_columns)
    tokenized_batch = map(batch)
    print(f'{next(iter(tokenized_batch))=}')

    # -- Get data loader
    from torch.utils.data import DataLoader, Dataset

    # def collate_tokenize(data):
    #     print(f'{data[0]=}')
    #     text_batch = [element["text"] for element in data]
    #     tokenized = tokenizer(text_batch, padding='longest', truncation=True, return_tensors='pt')
    #     return tokenized
    # data_loader = DataLoader(tokenized_batch, shuffle=False, batch_size=8, num_workers=0, drop_last=False, collate_fn=collate_tokenize)
    data_loader = DataLoader(tokenized_batch, shuffle=False, batch_size=8, num_workers=0, drop_last=False)
    # num_batches = len(list(data_loader))
    batch = next(iter(data_loader))
    print(f'{batch=}')
    print('Done!\a')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Pytorch

Huggingface

pytorchdataloader

huggingfacedatasets

如何使用交错的 Huggingface 数据集创建 PyTorch 数据加载器？的相关文章

Django Rest Framework 嵌套序列化器不显示相关数据

我使用 Django Rest Framework 进行了基本设置我有两个模型和一个嵌套序列化器设置 models py from django db import models class Plan models Model name
用顶点之间的渐变填充 matplotlib 多边形

我正在使用 matplotlib 的 Poly3DCollection 绘制多边形三角形的集合三角形位于具有与其关联的颜色的顶点之间我目前正在用通过平均三个顶点的颜色确定的纯色填充每个三角形绘制三角形以形成 3D 表面网格 I w
如何让服务器监听多个端口

我想用同一台服务器监听 100 个不同的 TCP 端口这是我目前正在做的事情 import socket import select def main server socket socket socket socket AF INET
Boto3 - 打印 AWS 实例平均 CPU 利用率

我正在尝试仅打印 AWS 实例的平均 CPU 利用率此代码将打印出响应但最后的 for 循环不会打印平均利用率有人可以帮忙吗先感谢您 import boto3 import sys from datetime import dat
TypeError：PyQt4.QtCore.QVariantAnimation 表示 C++ 抽象类，无法实例化

我有这个 PyQt5 片段我正在尝试将其转换为 PyQt4 PyQt5 版本运行得很好但是当我尝试转换为 PyQt4 时出现此错误我删除了QtWidgets但我仍然收到此错误我也尝试过实例化self animation QtCor
用户在对话框中输入

python 中是否有任何库可用于图形用户输入我知道关于tk但我相信需要一些代码才能做到这一点我正在寻找最短的解决方案 a input Enter your string here 取而代之的是我想要一个对话框以便用户可以在那里输入
计算5个城市之间的地理距离以及每个城市所有可能的组合

所以我有一个 csv 文件其中包含 3 列城市纬度经度我已经使用此代码从这个 csv 文件在 python 中创建了一个数据框 data pd read csv lat long csv nrows 10 Lat data lat
Python elasticsearch DSL 聚合/每个文档嵌套值的度量

我试图找到 2 级嵌套中的最小值每个文档单独的最小值到目前为止我能够进行聚合计算搜索结果中所有嵌套值的最小值但无需按文档进行分隔我的示例架构 class MyExample DocType myexample id Intege
pip 安装与本地包具有相同命名空间的包

我使用的是 Python 3 6 5 通过 miniconda 安装我的问题是由于我正在安装一个与本地包具有相同命名空间的包 pip 安装此包后我无法再从本地包导入我收到一个ModuleNotFoundError错误如果可能的话命
如何更新 certifi 的根证书？

我正在使用 certifi python 模块来验证 ssl 连接我查看了 certifi python2 7 site packages certifi cacert pem 中包含的根证书其中一些证书已过期我如何更新这些证书我尝
当按下 flutter 中编写的按钮时，有没有办法运行 python 脚本？

本质上我想做的是按下我在 Flutter 中编程的按钮当按下该按钮时 Python 脚本应该开始在我的 Android 设备上运行我想在 python 中使用 youtube dl 用于下载 Youtube 视频库但我想知道是否
如何在关心 NaN 值的同时获取数据框中值的百分比变化？

我有以下数据框 Date A 2015 01 01 10 2015 01 02 14 2015 01 05 NaN 2015 01 06 NaN 2015 01 07 5 2015 01 10 1 2015 01 11 NaN 2015 0
类型错误：“State”和“State”实例之间不支持“<” PYTHON 3

我正在尝试利用队列类中的 PriorityQueue 但是我在将自定义对象放入 PQ 时遇到问题我已经实施了 cmp 函数如下 def cmp self other return self priority gt other prior
如果 Django 中的表单字段与 Python 关键字同名，如何声明该字段？

我在 Django 中有一个简单的表单看起来像这样 class SearchForm forms Form text forms CharField from forms DateField until forms DateField 失
如何在 Robot Framework 中将变量定义为具有列表值的字典

在我的一个测试用例中我需要定义一个字典其中键是字符串值是字符串数组我怎样才能在机器人框架中做到这一点我第一次尝试使用如下所示的构造但行不通 Variables Dictionary A StringA1 StringA2 B S
带有多表查询的 SQL Join 版本的 Djangoviews.py

需要一些有关 Django 版本的 SQL 多表查询的帮助该查询使用 3 个表来检索餐厅名称地址Restaurants table和美食类型来自Cuisinetypes table 所有这些都基于通过 URL 传递的菜品名称菜品 ID
AIORedis 和 PUB/SUB 不是 asnyc

I used aioredis http aioredis readthedocs org en latest examples html用于编写异步服务该服务将侦听某个通道并以异步方式运行一些命令基本上我从示例页面 http aior
导入后属性未添加到模块中

我做了以下实验室 vagrant ubuntu xenial test tree pack1 init py mod1 py pack2 init py mod2 py mod3 py test py 2 directories 6 fil
Python：计算非整数的阶乘

我想知道是否有一种快速的 Pythonic 的方法来计算非整数的阶乘例如 3 4 当然内置的factorial 函数在Math模块可用但它仅适用于积分我不关心这里的负数你想用math gamma x http docs pytho
Flask-SQLAlchemy：如何有条件地插入或更新行

我的应用程序使用 Flask Flask SQLAlchemy Flask WTF 和 Jinja2 的组合在当前的版本中我有一个设置表该表只有一条记录和一个字段最初该表包含零条记录我想要实现的是鉴于数据库中不存在任何条目则显

随机推荐

如何在 WordPress 中加载 Ajax

我熟悉以 jQuery 的普通方式使用 ajax 我已经玩了一段时间了但不明白 WordPress 需要什么才能让它工作我这里的内容取自一些教程或文章这是在函数 php 在儿童主题中 code to load jquery worki
如何在 Moderngl EGL 后端启用抗锯齿功能？

当没有抗锯齿时此代码呈现一个彩色三角形 samples 0 但是当我打开抗锯齿功能时 samples 1 32 它无法渲染任何东西如何使其与抗锯齿一起使用也许我无法直接从多重采样 fbos 或纹理中读取像素但我不知道如何解决这个问题
jQuery Mobile“pagebeforechange”被调用两次

我为 pagebeforechange 设置了以下侦听器与 jQuery Mobile 文档自己的代码非常相似并且在主页上有一个正在调用的链接http localhost product id 255979 http localhost
ASP.Net core 中全大写属性名称默认驼峰命名法序列化为 JSON 的问题

我对 Net Core 的默认序列化 CamelCasing 行为有疑问希望看看其他人是否也遇到同样的问题以及他们使用了什么解决方法像 FOO12 或 FOO1 这样的属性名称被错误地序列化为类似 foO12 或 foO1 事实上它们
您的 InputStream 既不是 OLE2 流，也不是 OOXML 流

我正在使用 Apache Commons 在 Google 应用程序引擎中上传 docx 文件如本链接中所述文件上传 Servlet https developers google com appengine kb java csw 1
在 Docker 中使用卷访问容器文件系统

我是 Docker 的新手正在尝试让卷正常工作但有些事情不太正确我已经在 Docker 上安装了 Wordpress 如 Docker 教程中所述 https docs docker com compose wordpress htt
从包类型扩展命名空间

我在这里尝试从包类型扩展命名空间 typings fullcalendar
Git 推送和弹出？即，结帐最后状态

我正在编写一个 Bash 脚本我想签出一个标签然后签回到我开始的地方 I tried git co HEAD 1 但是当从 master 开始时这会让我回到 master 的提交 SHA 但头是分离的有没有类似的东西pushd po
有没有办法安装 jar 本地 gradle 存储库，就像在 mave 中一样（maven install:install-file [重复]

这个问题在这里已经有答案了我以前只使用 maven 当项目需要一些在任何存储库中都没有的 jar 时我可以使用以下命令安装它 mvn install install file Dfile
WIX 错误 - ICE03：不是有效的外键

目前使用 WIX v3 6 3303 开发安装程序项目我们正在使用 CruiseControl 在发布前自动构建和测试各种更改这是我们从测试构建中返回的错误 errorLGHT0204 ICE03 Not a valid foreign
PyQt 的优雅命令行参数解析

我正在编写一个新的 PyQt 应用程序我正在尝试使用尽可能多的 PyQt API 来完成与程序和 ui 相关的所有事情作为提高我对 PyQt 和 Qt 总体知识的一种手段我的问题是 PyQt Qt 中是否有 API 可以优雅地处理命令
在开发过程中绕过或关闭 [Authorize(Roles="")]？

构建 MVC3 应用程序 TPTB 希望我们使用他们的自定义授权提供程序然而在开发过程中这个身份验证提供程序有点麻烦因为它要么在您关闭重新启动浏览器之前给出错误要么要求您在每次编译时重新登录现在我只是添加了
查询范围不等于0

我在 AX 2012 R2 环境中我想向 HcmEmployment 表添加查询范围并过滤掉 LegalEntity 值 0 的行以下代码在运行时失败并出现无效范围异常 qbrLegalEntity qbds addRange f
引用列的统计信息是否会阻止删除该列？

我正在尝试一个非常简单的drop column陈述 alter table MyTable drop column MyColumn 并收到几个错误消息 5074 16 级状态 1 第 1 行统计信息 dta stat 12682516
QML 中日期和时间的正则表达式(DD/MM/YYYY hh:mm:ss)

在QML2中我没有找到任何Calender控件我已经实现了一个以日期和时间作为输入的控件并且我使用正则表达式进行验证该验证与日期包括闰年和其他验证相匹配主要问题是空格退格键也应该被视为有效例如 s s s s s s s s
Flexbox - 首先在新行上换行中心项目

我正在使用 Flex Box 创建传统的浮动项目列表我有三个项目结构如下 section div item one div div item two div div item three div section 与CSS section
Bash：将来自多个 xargs 并行进程的标准输出记录到单独的日志文件中

我正在处理一个文本文件其中包含由 xargs 生成的多个并行进程我还需要将每个进程的标准输出捕获到单独的日志文件中下面是一个示例其中每个进程的输出被交错到一个文件中这不是我想要的理想情况下每个日志文件应按文件行号进行编号即
Tiff 中的 Jpeg（jpeg 压缩）

如何从 JPEG 压缩的 TIFF 文件中提取图像我已根据 StripOffests 和 StripBytesCount 字段读取字节但无法从中加载图像旧式 TIFF JPEG 压缩类型 6 基本上将普通 JFIF 文件填充到 TIF
Haven::read_sav 显示值标签而不是代码

我在用着haven导入一个 sav文件到R 我想知道如何显示值标签而不是数字代码在下面的示例中我想显示物种名称而不是数字 1 2 3 library haven path lt system file examples iris sav
如何使用交错的 Huggingface 数据集创建 PyTorch 数据加载器？

当我交错数据集获取标记化批次将批次提供给 pytorch 数据加载器时我收到错误 coding utf 8 issues with dataloader and custom data sets Automatically gener

如何使用交错的 Huggingface 数据集创建 PyTorch 数据加载器？

如何使用交错的 Huggingface 数据集创建 PyTorch 数据加载器？ 的相关文章

随机推荐

热门标签

如何使用交错的 Huggingface 数据集创建 PyTorch 数据加载器？的相关文章