如何从具有字典列表的 json 将数据集加载到 pytorch torchtext.data.TabularDataset 中？

2024-01-11

我有一个字典列表如下：

[{'text': ['The', 'Fulton', 'County', 'Grand', ...], 'tags': ['AT', 'NP-TL', 'NN-TL', 'JJ-TL', ...]},
 {'text': ['The', 'jury', 'further', 'said', ...], 'tags': ['AT', 'NN', 'RBR', 'VBD', ...]},
 ...]

每个字典的每个值都是句子单词/标签的列表。这直接来自 NLTK 数据集的 Brown 语料库，使用以下方式加载：

from nltk.corpus import brown
data = brown.tagged_sents()
data = {'text': [[word for word, tag in sent] for sent in data], 'tags': [[tag for word, tag in sent] for sent in data]}

import pandas as pd
df = pd.DataFrame(training_data, columns=["text", "tags"])

from sklearn.model_selection import train_test_split
train, val = train_test_split(df, test_size=0.2)
train.to_json("train.json", orient='records')
val.to_json("val.json", orient='records')

我想使用以下方法将此 json 加载到 torchtext.data.TabularDataset 中：

TEXT = data.Field(lower=True)
TAGS = data.Field(unk_token=None)

data_fields = [('text', TEXT), ('tags', TAGS)]
train, val = data.TabularDataset.splits(path='./', train='train.json', validation='val.json', format='json', fields=data_fields)

但它给了我这个错误：

/usr/local/lib/python3.6/dist-packages/torchtext/data/example.py in fromdict(cls, data, fields)
     17     def fromdict(cls, data, fields):
     18         ex = cls()
---> 19         for key, vals in fields.items():
     20             if key not in data:
     21                 raise ValueError("Specified key {} was not found in "

AttributeError: 'list' object has no attribute 'items'

请注意，我不希望 TabularDataset 为我标记该句子，因为它已被 nltk 标记化。我该如何处理这个问题？（我无法将语料库切换为可以直接从 torchtext.dataset 加载的内容，我have使用布朗语料库）

对于那些现在查看这个问题的人，请注意它使用了 torchtext 的旧版本。您仍然可以使用此功能，但需要添加旧功能...例如：

from torchtext import data
from torchtext import datasets
from torchtext import legacy

TEXT = legacy.data.Field()
TAGS = legacy.data.Field()

然后我建议像这样格式化 data_fields：

fields = {'text': ('text', TEXT), 'tag': ('tag', TAGS)}

这应该够了吧。对于使用最新 torchtext 功能的任何人，执行此操作的方法是：

要创建可迭代数据集，您可以使用 _RawTextIterableDataset 函数。以下是从 json 文件加载的示例：

def _create_data_from_json(data_path):
    with open(data_path) as json_file:
        raw_json_data = json.load(json_file)
        for item in raw_json_data:
            _label, _paragraph = item['tags'], item['text']
            yield (_tag, _text)


#Load torchtext utilities needed to convert (label, paragraph) tuple into iterable dataset               
from torchtext.data.datasets_utils import (
    _RawTextIterableDataset,
    _wrap_split_argument,
    _add_docstring_header,
    _create_dataset_directory,
)

#Dictionary of data sources. The train and test data JSON files have items consisting of paragraphs and labels
DATA_SOURCE = {
    'train': 'data/train_data.json',
    'test': 'data/test_data.json'
}

#This is the number of lines/items in each data set
NUM_LINES = {
    'train': 200,
    'test': 100,
}

#Naming the dataset
DATASET_NAME = "BAR"

#This function return the iterable dataset based on whatever split is passed in
@_add_docstring_header(num_lines=NUM_LINES, num_classes=2)
@_create_dataset_directory(dataset_name=DATASET_NAME)
@_wrap_split_argument(('train', 'test'))
def FOO(root, split):
    return _RawTextIterableDataset(DATASET_NAME, NUM_LINES[split],
                                 _create_data_from_json(DATA_SOURCE[split]))

然后，您可以调用此函数来返回可迭代数据集：

#Get iterable for train and test data sets
train_iter, test_iter = FOO(split=('train', 'test'))

_create_data_from_json 函数可以替换为从数据源生成元组的任何函数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Pytorch

NLTK

torchtext

如何从具有字典列表的 json 将数据集加载到 pytorch torchtext.data.TabularDataset 中？的相关文章

django_openid_auth TypeError openid.yadis.manager.YadisServiceManager 对象不是 JSON 可序列化

I used django openid auth在我的项目上一段时间以来它运行得很好但今天我测试了该应用程序并遇到了这个异常 Environment Request Method GET Request URL http local
python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

Jenkinsfile 是纯 Groovy 中的吗？ Jenkinsfile 的“steps”中使用什么 Groovy 语言结构？

Jenkinsfile 中的以下代码片段使用了什么 Groovy 语言构造语法或控制结构 stage Stage 1 steps One or more steps 即就纯 Groovy 语言而言 Jenkinsfile 中的块是什么
计算位数的最快方法[重复]

这个问题在这里已经有答案了可能的重复如何计算 32 位整数中设置的位数 https stackoverflow com questions 109023 how to count the number of set bits in a
cron 启动的 mysqldump 和密码安全

我编写了一个脚本来备份我的 MySQL 数据库使用 mysqldump opt all databases u user pmypassword gt myDump sql cron 每天晚上都会启动它并将结果发送到另一台服务器 myp
Python 在进入 else 语句之前检查整个循环[重复]

这个问题在这里已经有答案了我如何运行整个循环然后转到else声明如果if条件是假的输出是 No No Yes 但我只希望它在所有值不相等时跳转到 else 语句 test 1 255 200 100 test 2 200 200 10
在非阻塞模式下将 Trait 类型与 rust-portaudio 结合使用

我正在关注正弦例子 https github com RustAudio rust portaudio blob master examples sine rs在 rust portaudio 示例目录使用非阻塞 API 中我试图获取r
XML 数据更新时只读

我可以用 PHP 解析 RSS 我正在寻找的是能够仅获取更新的内容并且如果 RSS 没有新的更新则不执行任何操作例如我有这个RSS File http pastebin com m3ba43ef2 如果没有新内容则不会发生任何事情
用Python中的索引展平嵌套列表

我有一个清单 a b c a b c d 我想用索引压平列表输出应如下所示 flat list a b c a b c d indices 0 1 2 3 3 3 3 4 4 4 5 这个怎么做我已经尝试过这个 def flat num
Polars 惰性框架 - 将其他惰性框架中的字段添加为不带“collect”的结构

我正在尝试填充一个包含所有结构的新字段other来自另一个基于谓词的惰性帧的字段虽然示例是用 python 编写的但我愿意接受 python 或 rust 中的答案 companies pl DataFrame id 1 name go
是否有一个 monad 没有相应的 monad 转换器（IO 除外）？

到目前为止我遇到的每个 monad 可以表示为一种数据类型都有一个相应的 monad 转换器或者可以有一个是否存在这样一个不可拥有的单子或者所有的 monad 都有相应的转换器吗 By a 变压器t对应单子m我的意思是t Iden
WiX Burn 3.6 beta - 自定义 UI 示例

有没有好的参考例子WiX http en wikipedia org wiki WiX Burn http en wikipedia org wiki WiX Burn3 6 自定义UI 我用谷歌搜索了一下但它们都是信息的碎片 WiX
SQL Server varchar(50) 和 varchar(128) 性能差异[重复]

这个问题在这里已经有答案了可能的重复 varchar 500 比 varchar 8000 有优势吗 https stackoverflow com questions 2009694 is there an advantage to v
Flask-SQLAlchemy 的隔离级别

我无法理解数据库隔离级别如何与 Flask SQLAlchemy 配合使用尤其是如何really提交更改或关闭会话这是我的问题的背景我正在将 Flask SQLAlchemy 用于带有 MySQL 数据库的 Flask 项目这是我的
“/”应用程序中的服务器错误。网络平台

问候我使用 ASP Net 3 5 和 C 开发了一个网站它与 Visual Stdio 2010 配合良好我将我的网站上传到我的域的公共文件夹下我第一次在我的网站上进行午餐测试 http wecoders com Habib cu
Python 列表([]) 和 []

from cs1graphics import from math import sqrt numLinks 50 restingLength 20 0 totalSeparation 630 0 elasticityConstant 0
使用 bootstrap 3.37 header 下拉菜单并将 jquery 翻译为 knockoutJS

我正在查看这篇文章以在我的 mvc5 knockoutjs 解决方案中应用带有下拉菜单的标题菜单 https jdmdigital co news codex bootstrap 3 secondary dropdown menu htt
“gem update --system 在 Debian 上被禁用”错误

当我尝试更新 ruby gems 通过运行 gem update system 时出现此错误 ERROR While executing gem RuntimeError gem update system is disabled on
每个目标都有不同的故事板本地化

我有一个有 3 个目标的项目每个目标只需要支持一种语言但每个目标的语言都不相同目前我有目标 1 西目标 2 西目标 3 点我的大部分字符串都在 Localized strings 文件中我只是为每个目标指定一个不同的文件然
Xamarin 表单中的轮播视图自动滑动

我的页面底部有一个轮播视图现在我希望图像每 2 秒自动滚动一次我已经实现了相同的并且工作正常 Device StartTimer TimeSpan FromSeconds 2 gt SlidePosition if SlidePosit
关于硬链接

有人可以解释一下为什么内核不允许我们建立到目录的硬链接吗无论是因为它打破了文件系统有向无环图结构的规则还是因为其他原因如果允许的话还会出现什么其他并发症回到第 7 版或版本 7 UNIX 时代没有系统调用mkdir 2 and
如何从具有字典列表的 json 将数据集加载到 pytorch torchtext.data.TabularDataset 中？

我有一个字典列表如下 text The Fulton County Grand tags AT NP TL NN TL JJ TL text The jury further said tags AT NN RBR VBD 每个字典的每个值

如何从具有字典列表的 json 将数据集加载到 pytorch torchtext.data.TabularDataset 中？

如何从具有字典列表的 json 将数据集加载到 pytorch torchtext.data.TabularDataset 中？ 的相关文章

随机推荐

热门标签

如何从具有字典列表的 json 将数据集加载到 pytorch torchtext.data.TabularDataset 中？的相关文章