对 pickle.dump 中的“OSError: [Errno 22] Invalid argument”有什么想法吗？

2024-04-26

下面是我的代码：在此代码中，我尝试将“.p”文件拆分并规范化为具有不同规范的文件。然而，似乎分割正在工作，但我无法使用 pickle.dump 将它们保存到“.p”文件中。对于这个错误有什么建议吗？

import numpy as np
import pandas as pd
import pickle 
import gzip


# in this example tanh normalization is used
# fold 0 is used for testing and fold 1 for validation (hyperparamter    selection)
norm = 'tanh'
test_fold = 0
val_fold = 1

def normalize(X, means1=None, std1=None, means2=None, std2=None, feat_filt=None, norm='tanh_norm'):
if std1 is None:
    std1 = np.nanstd(X, axis=0)
if feat_filt is None:
    feat_filt = std1!=0
X = X[:,feat_filt]
X = np.ascontiguousarray(X)
if means1 is None:
    means1 = np.mean(X, axis=0)
X = (X-means1)/std1[feat_filt]
if norm == 'norm':
    return(X, means1, std1, feat_filt)
elif norm == 'tanh':
    return(np.tanh(X), means1, std1, feat_filt)
elif norm == 'tanh_norm':
    X = np.tanh(X)
    if means2 is None:
        means2 = np.mean(X, axis=0)
    if std2 is None:
        std2 = np.std(X, axis=0)
    X = (X-means2)/std2
    X[:,std2==0]=0
    return(X, means1, std1, means2, std2, feat_filt)

#contains the data in both feature ordering ways (drug A - drug B - cell line     and drug B - drug A - cell line)
#in the first half of the data the features are ordered (drug A - drug B - cell line)
#in the second half of the data the features are ordered (drug B - drug A - cell line)
file = gzip.open('X.p.gz', 'rb')
X = pickle.load(file)
file.close()



#contains synergy values and fold split (numbers 0-4)
labels = pd.read_csv('labels.csv', index_col=0) 
#labels are duplicated for the two different ways of ordering in the data
labels = pd.concat([labels, labels])



#indices of training data for hyperparameter selection: fold 2, 3, 4
idx_tr = np.where(np.logical_and(labels['fold']!=test_fold,            labels['fold']!=val_fold))
#indices of validation data for hyperparameter selection: fold 1
idx_val = np.where(labels['fold']==val_fold)

#indices of training data for model testing: fold 1, 2, 3, 4
idx_train = np.where(labels['fold']!=test_fold)
#indices of test data for model testing: fold 0
idx_test = np.where(labels['fold']==test_fold)



X_tr = X[idx_tr]
X_val = X[idx_val]
X_train = X[idx_train]
X_test = X[idx_test]

y_tr = labels.iloc[idx_tr]['synergy'].values
y_val = labels.iloc[idx_val]['synergy'].values
y_train = labels.iloc[idx_train]['synergy'].values
y_test = labels.iloc[idx_test]['synergy'].values


if norm == "tanh_norm":
    X_tr, mean, std, mean2, std2, feat_filt = normalize(X_tr, norm=norm)
    X_val, mean, std, mean2, std2, feat_filt = normalize(X_val, mean, std, mean2, std2, 
                                                      feat_filt=feat_filt, norm=norm)
else:
X_tr, mean, std, feat_filt = normalize(X_tr, norm=norm)
X_val, mean, std, feat_filt = normalize(X_val, mean, std, feat_filt=feat_filt, norm=norm)


if norm == "tanh_norm":
X_train, mean, std, mean2, std2, feat_filt = normalize(X_train, norm=norm)
X_test, mean, std, mean2, std2, feat_filt = normalize(X_test, mean, std, mean2, std2, 
                                                      feat_filt=feat_filt, norm=norm)
else:
X_train, mean, std, feat_filt = normalize(X_train, norm=norm)
X_test, mean, std, feat_filt = normalize(X_test, mean, std, feat_filt=feat_filt, norm=norm)

pickle.dump((X_tr, X_val, X_train, X_test, y_tr, y_val, y_train, y_test),    open('data_test_fold%d_%s.p'%(test_fold, norm), 'wb'))

我认为最后两行是最有问题的，但也可能是其他地方的错误引发了这个问题。

这很可能是由 Pickle 实现中的一个错误引起的，该错误不允许生成大于 4GB 的文件。

Python 3 - pickle 可以处理大于 4GB 的字节对象吗？ https://stackoverflow.com/questions/31468117/python-3-can-pickle-handle-byte-objects-larger-than-4gb

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pickle

dump

对 pickle.dump 中的“OSError: [Errno 22] Invalid argument”有什么想法吗？的相关文章

Django 中的 Rpy2 错误 - 未为“”类型的对象定义转换“py2rpy”

我以前从未使用过 R 并且正在尝试使用 rpy2 从 python 调用 R 函数它可以在独立的 python 终端上运行但不能在 Django 中运行但rpy2似乎无法将python字符串转换为r对象我正在使用同事提供的自定义库
在 pandas 中单独打印一列的原始值？

我有一个数据框 df pd DataFrame name george age 23 name anna age 26 现在我想检索乔治的年龄 df df name george age 但这会输出一些额外的信息以及原始值 0 23 Nam
如何在 Google App Engine 的 Python 中获取 StringProperty 的值？

如何获取 nbd Model 的值我想返回由多个字段组成的描述但我无法让它工作这是我的班级代码 class User ndb Model name ndb StringProperty email ndb StringProperty
Python GTK + webkit - 在 gtk.main() 之后插入 JavaScript

我在终端中尝试了这个一切正常但是如果我在脚本内运行这个我无法在 gtk main 之后插入 JavaScript import gtk import webkit w gtk Window b webkit WebView w add
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
Python——捕获异常的效率[重复]

这个问题在这里已经有答案了可能的重复 Python 常见问题解答异常有多快 https stackoverflow com questions 8107695 python faq how fast are exceptions 我记得
reStructuredText：README.rst 未在 PyPI 上解析

我有一个托管在 Github 和 PyPI 上的 Python 项目在 Github 上 https github com sloria TextBlob blob master README rst https github com s
在 Linux 上的 Python 中使用受密码保护的 Excel 工作表

问题很简单我每周都会收到一堆受密码保护的 Excel 文件我必须解析它们并使用 Python 将某些部分写入新文件我得到了文件的密码当在 Windows 上完成此操作时处理起来很简单我只需导入 win32com 并使用 clie
如何将类添加到 LinkML 中的 SchemaDefinition？

中的图表https linkml io linkml model docs SchemaDefinition https linkml io linkml model docs SchemaDefinition and https link
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
使用 WSGI 在 Windows XAMPP 中设置 Python 路径

我正在 Webfaction 上设置实时服务器的开发版本在本地计算机上的虚拟 Apache 服务器环境运行没有任何错误中运行 Django 应用程序 XP 使用 Python 2 6 运行 XAMPP Lite 我可以提交更改通过 G
uri 警告中缺少端口：使用 Python OpenCV cv2.VideoCapture() 打开文件时出错

当我尝试流式传输 ipcam 时出现了如下所示的错误 tcp 000000000048c640 uri 中缺少端口警告打开文件时出错 build opencv modules videoio src cap ffmpeg impl h
用于多个窗口的 Tkinter 示例代码，为什么按钮无法正确加载？

我正在编写一个程序应该按一下按钮即可打开一个窗口按另一个按钮关闭新打开的窗口我使用类以便稍后可以将代码插入到更大的程序中但是我无法正确加载按钮 import tkinter as tk class Demo1 tk Frame
Selenium 不会在新选项卡中打开新 URL（Python 和 Chrome）

我想使用 Selenium WebDriver 和 Python 在不同的选项卡中打开相当多的 URL 我不确定出了什么问题 driver webdriver Chrome driver get url1 time sleep 5 driv
线性同余生成器 - 如何选择种子和统计检验

我需要做一个线性同余生成器它将成功通过所选的统计测试我的问题是如何正确选择发电机的数字以及我应该选择哪些统计检验我想均匀性的卡方频率测试每代收集10 000个号码的方法将 0 1 细分为10个相等的细分柯尔莫哥洛夫斯米尔
python dicttoxml 多次使用相同的键

我正在尝试做如下所示的 xml
如何使用 os.chdir 转到减去最后一步的路径？

例如一个方法传递了一个路径作为参数这个路径可能是 C a b c d 如果我想使用 os chdir 更改为 C a b 怎么办 c 没有最后一个文件夹 os chdir 可以接受命令吗 os chdir 可以采取作为论点是的然
在 HDF5 (PyTables) 中存储 numpy 稀疏矩阵

我在使用 PyTables 存储 numpy csr matrix 时遇到问题我收到此错误 TypeError objects of type csr matrix are not supported in this context so
更新 SQLAlchemy 中的特定行

我将 SQLAlchemy 与 python 一起使用我想更新表中等于此查询的特定行 UPDATE User SET name user WHERE id 3 我通过 sql alchemy 编写了这段代码但它不起作用 session
Pip 无法在 Windows 上安装 Twisted

我正在尝试在 Windows 8 计算机上安装 Twisted 在 Twisted 官方网站上只有一个 Windows 版的 Wheel 文件 https twistedmatrix com trac wiki Downloads htt

随机推荐

生产构建中的 Create-React-App 代理

我正在使用带有 Express 后端的 create react app 我的后端在端口 3001 上运行前端在开发模式下通过端口 3000 运行我有 proxy http localhost 3001 在我的 package json
不同的 Netty 版本及其用途

我现在使用Netty有一段时间了但永远无法解决这个问题一个人可以下载四个不同的版本其中三个正在积极开发中 3 x 4 0 x 4 1 x 5 x 据我了解 3 x 适用于 JRE 1 5 而 JRE 的其他所有版本都高于此版本我使用
如何将异步函数存储在结构中并从结构实例调用它？

我正在尝试用新的方法来实现这一目标async await句法 std future Futures 和最新版本的 Tokio 我正在使用东京0 2 0 alpha 4和铁锈1 39 0 nightly 我尝试过的不同事情包括 using B
为什么namedtuple模块不使用元类来创建nt类对象？

我花了一些时间调查collections namedtuple module https hg python org cpython file 3b920a778484 Lib collections init py l265几周前该模块
Android 10：IMEI 在 API 29 上不再可用。寻找替代方案

我们客户的应用程序的主要功能很大程度上依赖于跟踪客户的设备他们提供与特定手机而不是其所有者绑定的产品使用设备 IMEI 可以实现这一点但随着 Android 10 中的隐私更改他们使其无法访问 https developer a
使用canvg将C3.js SVG可视化到Canvas - 折线图填充黑色矩形，“错误：元素'parsererror'尚未实现”

我正在尝试使用 Canvg 将 SVG 转换为 Canvas 这里是jsfiddle http jsfiddle net sridev24 vcz468f9 我收到一条错误消息错误元素 parsererror 尚未实现我可以理解 ca
当 IDENTITY_INSERT 设置为 OFF 时，无法为标识列插入显式值。（实体框架核心）

当我尝试将新实体添加到数据库中时出现此错误实体名称是DestuffedContainer 该实体及相关实体的定义如下去填充容器 Table DestuffedContainer public class DestuffedContai
允许用户通过点击来选择 UIPickerView 行

我正在尝试使用 UIPicker 视图其行为与 iPhone 代码示例中通常看到的行为有所不同我想要做的是允许用户滚动选择器内容但不自动选择选择器的行使用选择器委托中的 didSelectRow 方法相反我想允许用户触摸选择器的
找不到 project.assets.json - TFS 构建服务器，没有互联网

我们正处于从 VS2013 15 TFS2013 过渡到 VS2017 TFS2017 现场 TFS 而不是 VSTS 的过程中第一个测试解决方案是基于 dotNet Core 1 1 的解决方案多项目 Web 服务该解决方案在原始开
为什么我需要在核心数据项目中使用原始访问器方法？

为什么我需要在核心数据项目中使用原始访问器方法我正在阅读有关核心数据的内容并注意以下内容默认情况下 Core Data 动态地创建高效的公共和原始的获取和设置访问器方法建模属性属性和管理对象的关系课程例如给定一个实体属
如何将 Exif 长/纬度转换为实际值？

我正在尝试从我的一些图片中获取 Exif 数据这些是我收到的纬度和经度值有人可以帮助我并告诉我这些数字的含义吗 DEBUG lat 30 1 12 1 34 1 7588 纬度 DEBUG long 81 1 22 1 41 1 758
如何使用 FormControl 在 Angular 中为 Form 设置值

div class form group div
Symfony 2：添加自定义表单元素，而不是在实体中

我与 Symfony2 合作我想创建一个注册表我不想使用 FOSUserBundle 因此我创建一个实体帐户包含字段用户名密码电子邮件并创建表单 account new Account form this gt create
无论浏览器缩放比例如何，如何保持元素对齐？

我有一个绘制网格的页面如下所示它通过使用绝对定位的 div 来实现这一点每个网格的宽度为 237x237 像素因此第一个网格将放置在顶部 0 左 0 第二个网格将放置在顶部 0 左 237px 第三个网格将放置在顶部 0 左 4
关闭终端后保持express进程存活

我试图在关闭终端后保持进程正常运行是一个带有express的node js项目基本上对于其他进程我通过以下方式保持进程处于活动状态 node server js 我这样就可以完成 SSH 连接并关闭控制台但对于 Express 我
Python / Pandas / Numpy - 直接计算两个日期之间的工作日数（不包括假期）

有没有比下面更好更直接的方法来计算这个 1 Set up the start and end date for which you want to calculate the number of business days excludi
html / javascript / php 中 json 响应的折线图

我正在尝试创建一个单线图html javascript 中的 json 响应 sql 我试图创建的是一个图表其中只有onetag name 行在以下情况下 phone 4 此行应表示所有 json 字符串的所有值和日期时间 JSON 响
保持轮播中的图像长宽比

我正在使用 Bootstrap 创建轮播我有大图像因此当屏幕小于图像时不会保留比例我怎样才能改变这一点这是我的代码 carousel item height 500px carousel img position absolute
如何通过 Python/C API 将 Python 实例传递给 C++

我通过使用 SWIG 2 0 包装接口来使用 Python 2 7 扩展我的库并且有一个我想在其中创建访问者的图形对象在 C 中接口如下所示 struct Visitor virtual void OnStateBegin 0 vir
对 pickle.dump 中的“OSError: [Errno 22] Invalid argument”有什么想法吗？

下面是我的代码在此代码中我尝试将 p 文件拆分并规范化为具有不同规范的文件然而似乎分割正在工作但我无法使用 pickle dump 将它们保存到 p 文件中对于这个错误有什么建议吗 import numpy as np impo

对 pickle.dump 中的“OSError: [Errno 22] Invalid argument”有什么想法吗？

对 pickle.dump 中的“OSError: [Errno 22] Invalid argument”有什么想法吗？ 的相关文章

随机推荐

热门标签

对 pickle.dump 中的“OSError: [Errno 22] Invalid argument”有什么想法吗？的相关文章