pandas 数据帧上的 s3fs gzip 压缩

2024-02-07

我正在尝试使用以下方法在 S3 上将数据帧写入为 CSV 文件s3fs https://github.com/dask/s3fs图书馆和熊猫。尽管有文档，但我担心 gzip 压缩参数不适用于 s3fs。

def DfTos3Csv (df,file):
    with fs.open(file,'wb') as f:
       df.to_csv(f, compression='gzip', index=False)

此代码将数据帧保存为 S3 中的新对象，但以纯 CSV 格式而不是 gzip 格式保存。另一方面，使用此压缩参数，读取功能可以正常工作。

def s3CsvToDf(file):
   with fs.open(file) as f:
      df = pd.read_csv(f, compression='gzip')
  return df

写入问题的建议/替代方案？先感谢您！。

函数的压缩参数to_csv()写入流时不起作用。您必须分别进行压缩和上传。

import gzip
import boto3
from io import BytesIO, TextIOWrapper

buffer = BytesIO()

with gzip.GzipFile(mode='w', fileobj=buffer) as zipped_file:
    df.to_csv(TextIOWrapper(zipped_file, 'utf8'), index=False)

s3_resource = boto3.resource('s3')
s3_object = s3_resource.Object('bucket_name', 'key')
s3_object.put(Body=buffer.getvalue())

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

amazons3

pythons3fs

pandas 数据帧上的 s3fs gzip 压缩的相关文章

Flask：缓存静态文件（.js、.css）

我真的找不到任何这方面的资源那么如何将视图函数的缓存与静态文件即 css js 分开我想将静态对象缓存一周另一方面我只需要缓存函数视图几分钟当我执行以下操作时 from flask ext cache import Cach
使用 python 中的 java 库

我有一个 python 应用程序和 java 应用程序 python 应用程序为 java 应用程序生成输入并在命令行上调用它我确信一定有一个更优雅的解决方案就像使用 JNI 从 Java 调用 C 代码一样有什么指点吗仅供参考我
计时器显示负的已用时间

我正在使用一个非常简单的代码来计算每个循环的时间for陈述它看起来像这样 import time for item in list of files Start timing this loop start time clock Do a
Windows 中的信号处理

在Windows中我试图创建一个等待SIGINT信号的python进程当它收到SIGINT时我希望它只打印一条消息并等待SIGINT的另一次出现所以我使用了信号处理程序这是我的 signal receiver py 代码 impo
添加反斜杠而不转义[重复]

这个问题在这里已经有答案了我需要逃离字符串中的字符问题是每当我string string replace 结果是添加额外的反斜杠来转义原始反斜杠如何删除这个多余的反斜杠结果仅显示实际上字符串是 gt gt gt str g
cx_freeze：QODBC 驱动程序未加载

我的 python 应用程序如下所示 test py from PyQt4 import QtCore from PyQt4 import QtGui from PyQt4 import QtSql import sys import at
散景服务器获取鼠标位置

我正在开发一个带有散景 0 12 2 的交互式应用程序它根据特定的交互更新绘图现在我使用滑块来更改图中字形的位置但实际上我想访问鼠标在特定图中的位置数据集是一个多维矩阵张量密集数据每个图在特定位置显示一个维度如果我更改一个
Python Pandas groupby、排名，然后根据自定义排名分配值

问题设置大熊猫数据框 df pd DataFrame Group A A A A A A A A A Subgroup Group 1 Group 1 Group 1 Group 1 Group 1 Group 1 Group 2 Gro
Seaborn 条形图条之间没有空格

我使用下面的代码创建了一个 Seaborn 条形图它来自https www machinelearningplus com plots top 50 matplotlib visualizations the master plots p
在 Qt Creator 中相互公开 QML 组件

我正在使用 Qt Quick 和 PySide2 开发仪表板应用程序但在 Qt Creator 的设计模式中公开我的 QML 组件时遇到问题我的文件夹结构如下所示 myapp mycomponents component1 qml co
显示多索引 pandas 数据帧的前 10 行

我有一个多级索引 pandasDataFrame第一级在哪里year第二级是username 我只有一列已经按降序排序我想显示每个索引级别 0 的前 2 行我拥有的 count year username 2010 b 677 a 50
Python Pandas：将参数传递给 agg() 中的函数

我试图通过使用不同类型的函数和参数值来减少 pandas 数据框中的数据但是我无法更改聚合函数中的默认参数这是一个例子 gt gt gt df pd DataFrame x 1 np nan 2 1 y a a b b gt gt g
Django：通过外键将两个表连接到第三个表？

我有三个型号 class A Model class B Model id IntegerField a ForeignKey A class C Model id IntegerField a ForeignKey A 我想要得到 B i
使用 Python gdata 和 oAuth 2 对日历进行身份验证

我正在将一个 Python 应用程序从 oAuth 1 迁移到 oAuth 2 该应用程序读取用户的 Google 日历提要使用 oAuth 1 如果用户可以使用他的 GMail 进行身份验证我的应用程序将打开浏览器帐户并授权访问我
解释 scipy.stats.entropy 值

我正在尝试使用scipy stats 熵来估计库尔巴克莱布勒 KL 两个分布之间的散度更具体地说我想使用 KL 作为衡量标准来确定两个分布的一致性但是我无法解释 KL 值例如 t1 numpy random normal 2 5
在Python中使用Counter()来构建直方图？

我在另一个问题上看到我可以使用Counter 计算一组字符串中出现的次数所以如果我有 A B A C A A I get Counter A 3 B 1 C 1 但现在我如何使用该信息来构建直方图对于您的数据最好使用条形图而不是直方
使用 PyQt5 拖放 QLabels

我正在尝试使用 PyQt5 将 Qlabel 拖放到另一个 Qlabel 上 from PyQt5 QtWidgets import QApplication QWidget QToolTip QPushButton QMessageBox
numpy 中的分层抽样

在 numpy 中我有一个这样的数据集前两列是索引我可以通过索引将数据集分成多个块即第一个块是 0 0 第二个块是 0 1 第三个块 0 2 然后是 1 0 1 1 1 2 等等每个块至少有两个元素索引列中的数字可能会有所不同我
按工作日分组的熊猫 (M/T/W/T/F/S/S)

我有一个 pandas 数据框其中包含 YYYY MM DD arrival date 形式的时间序列作为索引我想按每个工作日周一到周日进行分组以便计算其他日期列是平均值中位数标准差等我最终应该只有七行到目前为止我只知道
如何更改 PyGame 中声音或音乐的音量？

如何更改 PyGame 中的音量例如通过设置更改音量我制作了 UI 元素只需要知道如何更改音量即可我知道我说不清楚但你可以理解我请帮忙更改音量取决于您是否正在播放pygame mixer Sound https www pyg

随机推荐

在数据框中设置样式后执行操作

每当我尝试在代码中设置样式后执行任何操作时我都会看到以下错误 AttributeError Styler 对象没有属性 drop 在本例中我尝试在应用样式后删除一列在其他情况下我尝试连接 2 个数据帧但它会引发类似的错误我对 P
psql：错误：致命：用户的 Cloud SQL IAM 服务帐户身份验证失败

我已按照以下说明使用 IAM 身份验证设置了我的云 sql 数据库 https binx io 2021 05 19 how to connect to a cloudsql with iam authentication https bi
不要扩展 CMake 列表变量

我有一个 CMake 脚本可以通过以下方式运行一些测试add test 在 Windows Server 2008 不要问下运行于 CMake 3 15 当调用这些测试时它们运行的环境中的 PYTHONPATH 环境变量似乎会重置为
将 twig 与 React.js 集成

我已经成功使用 php symphony 及其 twig 模板系统构建了一个 Web 应用程序但现在需求发生了变化我必须使用 Node React js 我已经阅读了一些关于 React js 的文档但我仍然不知道在严格的时间范围内最
无法更改 PySide.QtGui 对象的 __class__

我经常使用 PyQt4 有时我喜欢重载一些对象以允许我添加一些功能这在 PyQt4 中工作得很好例如 from PyQt4 import QtGui button QtGui QPushButton class MyPushButton
在 amazon ec2 Linux 微实例上的 virtualenv 中安装 scipy 时遇到问题

我已经安装成功了scipy在亚马逊 ec2 微实例 Ubuntu 13 04 上的默认 python 编译器中但是我无法安装scipy在虚拟环境中 pip install scipy以这个错误结束 scipy sparse sparset
将 SSD 转换为张量流中的冻结图。必须使用哪些输出节点名称？

我使用 SSD 进行训练TensorFlow 对象检测 API https research googleblog com 2017 06 supercharge your computer vision models html如上所述he
有向无环图遍历...有帮助吗？

有点超出我的深度需要给朋友打电话我有一个需要遍历的有向非循环图这是我第一次接触图论我最近读了很多关于它的文章但不幸的是我没有时间从学术上解决这个问题有人可以给我一些关于如何处理这棵树的帮助吗规则如下有n根节点我称之为源
在django Rest框架中实现多级嵌套关系的可写序列化器

在 drf3 中您现在可以通过重写 create 方法并自行处理 valid data 来实现可写嵌套序列化器但是如果模型中有多层嵌套关系如下所示 class Order models Model Order model to ag
UIScrollView 滚动时 loadHTMLString 不会触发

我正在尝试延迟加载UIWebViews里面一个UIScrollView 每次用户滚动时 WebViews 框架都会更新并且应该加载新内容这正是我遇到麻烦的地方重新定位效果很好但新内容本地NSStrings 这被称为使用loadHT
XML CDATA 内的 HTML 使用 < 和 > 括号进行转换

我有一些示例 XML
HTML / CSS 文本上的弹出 div 单击 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 I want to make popup div instead of popup window for my About picture
Unity 包含的 DLL 大小

我正在研究 WebGL 项目并且构建规模非常大毕竟我在 Web 中建立了优化建议我研究了构建日志发现包含的 DLL 占用了构建大小的 85 以上 13 4 MB 空项目上的类似情况你能帮我减少 DLL 内存吗很难说你是否已经这样
VB.NET Lambda 表达式

如果我有 Visual Studio 2008 并且我的目标是 NET 2 0 应用程序我仍然可以使用 Lambda 表达式吗我对 Lambda 表达式的理解是它是内置于编译器而不是框架中的功能因此我的结论是我可以在 NET 2 0
如何查看本地分支和远程分支之间指定文件的差异？

如何查看本地分支和远程分支指定文件的差异我知道这个命令 git diff
如何在 django 模板中重复“块”

我想用同样的堵塞在同一个 django 模板中两次我希望此块在我的基本模板中多次出现 base html h1 block title My Cool Website endblock h1 然后扩展它 blog html exten
实体框架 5：代码优先的循环关系问题

我明白为什么 EF 不允许 PK FK 关系中的循环引用我正在寻求有关如何更改模型以使以下场景发挥作用的建议 Scenario 三个实体 Employee Agency WorkRecord 他们的目的是记录员工工作所花费的时间 Emp
Laravel 5 覆盖辅助函数 __() 因为在 WordPress 中使用

我读过 stackoverflow 上的几篇文章但没有帮助所以我希望有人能给出好的答案我正在使用 Laravel 和 wordpress 现在有一个错误是否可以重命名或其他方法来改变它 Error Fatal error Cannot
ASP.NET Server.HtmlEncode 限制

我正在使用 Server HTMLEncode 来编码我的 HTML 我注意到它不会转义单引号如果您在 html 中使用单引号这是一个限制例如
pandas 数据帧上的 s3fs gzip 压缩

我正在尝试使用以下方法在 S3 上将数据帧写入为 CSV 文件s3fs https github com dask s3fs图书馆和熊猫尽管有文档但我担心 gzip 压缩参数不适用于 s3fs def DfTos3Csv df file

pandas 数据帧上的 s3fs gzip 压缩

pandas 数据帧上的 s3fs gzip 压缩 的相关文章

随机推荐

热门标签

pandas 数据帧上的 s3fs gzip 压缩的相关文章