Pyspark：从 blob 存储加载 zip 文件

2024-01-23

我正在使用 Pyspark 尝试从 blob 存储中读取 zip 文件。我想在加载后解压缩文件，然后将解压缩的 CSV 写回 Blob 存储。

我正在遵循此指南，该指南解释了如何在阅读后解压缩文件：https://docs.databricks.com/_static/notebooks/zip-files-python.html https://docs.databricks.com/_static/notebooks/zip-files-python.html

但它没有解释我如何从 blob 读取 zip。我有以下代码

file_location = "path_to_my.zip"
df = sqlContext.read.format("file_location").load

我希望这会将 zip 加载到 databricks 中df，然后我可以按照文章中的建议解压缩，将 csv 加载到数据帧，然后将数据帧写回到 blob。

关于如何使用 pyspark 最初从 blob 读取 zip 文件有什么想法吗？

Thanks,

如 DataBricks 笔记本的第一个单元格所示，您需要下载 zip 文件并以某种方式解压缩。您的情况有所不同，因为您使用的是 Azure Blob 存储，并且希望在 Python 中完成所有操作（没有其他 shell 应用程序）。

这一页 https://learn.microsoft.com/en-us/azure/storage/blobs/storage-quickstart-blobs-python记录访问 Azure Blob 存储中的文件的过程。您需要按照以下步骤操作：

Install https://learn.microsoft.com/en-us/azure/storage/blobs/storage-quickstart-blobs-python#install-the-package包裹azure-storage-blob.
导入 SDK 模块并设置必要的凭据（参考 https://learn.microsoft.com/en-us/azure/storage/blobs/storage-quickstart-blobs-python#set-up-the-app-framework).
创建一个实例BlobServiceClient使用连接字符串：

# Create the BlobServiceClient object which will be used to create a container client
blob_service_client = BlobServiceClient.from_connection_string(connect_str)

创建一个实例BlobClient对于你想要的文件：

blob_client = blob_service_client.get_blob_client(container="container", blob="path_to_my.zip")

下载 blob https://learn.microsoft.com/en-us/azure/storage/blobs/storage-quickstart-blobs-python#download-blobs（zip 文件）并使用gzip。我会写这样的东西：

from pathlib import Path
import gzip

Path("./my/local/filepath.csv").write_bytes(
    gzip.decompress(blob_client.download_blob().readall())
)

Use "./my/local/filepath.csv"创建数据框。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pyspark：从 blob 存储加载 zip 文件的相关文章

CVXPY 二次规划； ArpackNoConvergence 错误

我尝试使用 Python 包 CVXPY 来解决第一种形式的凸二次规划问题 https www cvxpy org examples basic quadratic program html https www cvxpy org exam
优化完美平方问题，类似于Python中的硬币找零

我这里有一个硬币兑换的解决方案 python 中的 leetcode 硬币兑换 https stackoverflow com questions 69517078 coin change leetcode in python 因为完全平方
如何为 Intellij/PyCharm 设置 PYTHONSTARTUP 脚本

我尝试添加PYTHONSTARTUP环境变量我还尝试了自定义启动脚本但更令人惊讶的是这also没有工作 npa别名无法识别出于一点绝望我什至尝试添加到interpreter options 那什么也没做实际上是什么Interpr
如何使用 lxml 解析包含前缀但没有名称空间声明的 XML？

我有一堆使用前缀但没有相应名称空间声明的 XML 文件像这样的东西
pip 安装失败，SSL 证书验证失败 (_ssl.c:833)

我无法通过 pip install 安装任何外部 python 模块我已经正确安装了 python 但如果我使用 pip install 它会显示此错误这是我运行后的代码pip install pytesseract C Users 1
蜘蛛内的Scrapyd jobid值

Scrapy 框架 Scrapyd 服务器我在获取蜘蛛内部的 jobid 值时遇到一些问题将数据发布到后http localhost 6800 schedule json http localhost 6800 schedule jso
Spyder 导入模块出错

我正在尝试在 Spyder 中使用 sklearn 一开始当我尝试导入它时我收到 ImportError No module named sklearn 然后我用 PYTHONPATH 管理器设置 PATH 然后使用工具菜单中的更新模
小数缓存是Python规范中定义的还是一个实现细节？

Python 似乎有一个所谓的小数字缓存用于存储 5 到 256 范围内的数字我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
如何从 Lua 调用 Python 函数？

我想从我的 lua 文件运行 python 脚本我怎样才能实现这个目标 Example Python代码 sum py file def sum from python a b return a b Lua code main lua f
检测/删除 Python 2 + GTK 中不成对的代理字符

在Python 2 7中我可以成功转换Unicode字符串 abc udc34xyz 转换为 UTF 8 结果是 abc xed xb0 xb4xyz 但是当我将 UTF 8 字符串传递给例如时 pango parse markup or
pandas to_sql sqlalchemy 与 secure_transport 的连接

我正在尝试将数据发送到具有 require secure transport ON 的服务器上的 mysql 数据库当我尝试使用以下代码连接到它时 import pandas as pd import pymysql from sqlal
使 np.loadtxt 使用多个可能的分隔符

我有一个程序可以读取数据文件用户可以选择他们想要使用的列我希望它对于输入文件更加通用有时列可能如下所示 10 34 24 58 8 284 6 121 有时它们可能看起来像这样 10 34 24 58 8 284 6 121 我希
在python中安装scipy模块时出错

我正在尝试使用 pip 在 python 中安装 scipy 模块它显示以下错误 Command c users sony appdata local programs python python35 32 python exe u c
如何修改 contenteditable 元素的innerHTML

我使用 Selenium 与 Chrome driver 和 python3 6 来测试网站我在网页中有代码片段如下 div class 3F6QL 2WovP div class 39LWd Type a message div div
Python：帮助（numpy）在退出时导致段错误

我遇到了一个奇怪的现象在 python 解释器中我执行以下操作 gt gt gt import numpy gt gt gt help numpy 帮助显示正确但一旦我按 q 返回解释器 Segmentation fault core
Python 队列 get()/task_done() 问题

我的消费者端队列 m queue get queue task done
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p
Azure DevOps 不会从 ZIP Deploy 发布 Web 应用程序，而是将其作为只读 ZIP 包运行

我们有一个 Azure DevOps Pipeline 以 ZIP 包的形式运行我们的应用程序https learn microsoft com en us azure app service deploy run package http
django admin 中内联模型的分页器

我有这个简单的 django 模型由一个传感器和特定传感器的值组成每个日射强度计的值数量很多 gt 30k 是否可以以某种方式分页PyranometerValues在特定日期或一般情况下将分页器应用于管理内联视图 class Pyran

随机推荐

从 preg_match_all() 获取行号

我正在使用 PHP 的 preg match all 来搜索使用 file get contents 导入的字符串正则表达式返回匹配项但我想知道在哪个行号找到这些匹配项实现这一目标的最佳技术是什么我可以将文件作为数组读取并为每一行
Jekyll 将每个换行符转换为换行符

我正在使用 Jekyll 和 kramdown 来制作一个静态站点今天我注意到每当我将同一个句子继续到新行时 Jekyll 就会插入一个 br 标记那里以前从未发生过这种情况由于我所有的 Markdown 文件都没有超过 80 个字符
用于清除 RStudio 中命令历史记录的命令或键盘快捷键

相当于按 RStudio 历史记录窗口中的小扫帚按钮清除当前会话中的整个历史记录缓冲区的命令或键盘快捷键是什么 Note that I don t mean Ctrl L which clears the command window I
从模板创建用于在 Qt 中打印的 PDF 文档

我编写一个应用程序当用户在对话框窗口中插入数据文档标题发件人姓名和地址等时我的应用程序应该根据该用户数据生成一个 pdf 文件 PDF 文件应该有定义的布局如下所示我尝试这样做QPdfWriter但在 pdf 中对齐文本时遇到
为什么接口方法没有主体

要实现多重继承我们必须使用接口但是为什么接口方法没有主体为什么必须在派生类中重写它们呢我真的想要一个清晰的答案不涉及太多计算机术语我似乎无法理解这一点我参考了各种参考资料因为 Java 与 C 或 Eiffel 等语言相比
android recyclerView水平和垂直间距

大家好我对 android 很陌生我在 recyclerview 方面遇到了问题我试图在回收视图中的图像视图之间添加空间但没有成功我想要的是怎么了以下是我的实现ItemOffsetDecoration java public
EmberJS 中的 I18n（路由和一般情况）

EmberJS 支持国际化应用程序的翻译路由吗或者至少可以轻松扩展它以支持 i18n 路由有人有这方面的经验吗例如可以以某种方式从语言环境文件动态设置路由字符串吗另外当使用 Ember 和 Rails 路由时不必指定两次这会很
无法分配 CursorWindow

我正在操作SQLite3我的 Android 应用程序中的数据库我刚刚从预填充的数据库中读取数据该数据库有 20 万行和 14 列条目是文字所有列的数据类型都是文本查询最多 11 个字母的单词例如 ABANDONMENT 效果很
使用 IMongoQueryable 进行单元测试

我正在使用 NET Core 2 0 和 NET Core MongoDB 驱动程序我创建了一个像这样的存储库 public interface IRepository
Laravel 5.1 eloquent 的 with() 方法中的使用限制

Eloquent staffGroup StaffGroup where id id gt with staffGroupRight gt first In StaffGroup Model public function staffGro
获取类的实例方法列表

我有一堂课 class TestClass def method1 end def method2 end def method3 end end 我如何获得此类中的方法列表 method1 method2 method3 TestClas
将参数添加到 @keyframes 属性 Less

我有一处房产 keyframes 我用autoprefixer编译来添加所需的前缀我想做的是向动画名称或任何可能的地方添加一个参数以将属性值更改为关键帧键这就是我现在所拥有的 keyframes loader 0 transfor
Node.js Express 模块未正确加载

Geos Mac hone georgiana npm list Users georgiana local hone email protected cdn cgi l email protection email protected c
(Z3Py) 函数声明有什么限制吗？

函数声明有什么限制吗例如这段代码返回 unsat from z3 import def one op op arg1 arg2 if op 1 return arg1 arg2 if op 2 return arg1 arg2 if o
如何让PHP使用代理设置来连接互联网？

我位于不允许直接连接到互联网的代理服务器后面我的所有 PHP 应用程序都无法连接到互联网进行更新检查等我如何告诉 PHP 我的代理设置我不想在代码中输入代理设置我希望 PHP 本身通过全局配置设置或类似的东西使用它如果几乎所有人的
根据类中的变量对类向量进行排序[重复]

这个问题在这里已经有答案了我有一个类其中有一个类型变量int储存在里面然后我创建了一个向量其中包含此类然后我需要对其进行排序然而我的问题源于这样一个事实我需要使用此类中存储的 int 值按升序对向量进行排序我看过std s
羽毛可以与羽毛外部管理的路线共存吗

我们有一个大型应用程序它使用 Express 进行休息使用 primus 进行套接字路由一下子全部变成羽毛是非常困难的我正在考虑分阶段的方法我可以采用一些路线并将它们转换为服务因此任何新路线都将遵循服务模式我将慢慢迁移应用程序
如何处理文件路径中的空格

我在使用以下脚本时遇到问题我正在检查的文件路径中的空格似乎让我感到震惊关于如何不让 PoweShell 崩溃的任何想法 Program Files x86 GC C server txt server if Test Path serv
如何将数组类型作为泛型类型参数传递给 VHDL 包？

我正在 VHDL 2008 中开发通用包列表该包具有元素类型的泛型类型如果我在包中声明此元素类型的数组类型那么它就是一个新类型所以对于例如整数我的新整数数组将与 ieee 库中的整数向量不兼容所以我还需要传入数组类型例如in
Pyspark：从 blob 存储加载 zip 文件

我正在使用 Pyspark 尝试从 blob 存储中读取 zip 文件我想在加载后解压缩文件然后将解压缩的 CSV 写回 Blob 存储我正在遵循此指南该指南解释了如何在阅读后解压缩文件 https docs databricks

Pyspark：从 blob 存储加载 zip 文件

Pyspark：从 blob 存储加载 zip 文件 的相关文章

随机推荐

热门标签

Pyspark：从 blob 存储加载 zip 文件的相关文章