如何使用Azure Blob存储挂载数据?

2024-03-20

我是 Azure Databricks 的新手,我的导师建议我完成机器学习训练营:

https://aischool.microsoft.com/en-us/machine-learning/learning-paths/ai-platform-engineering-bootcamps/custom-machine-learning-bootcamp https://aischool.microsoft.com/en-us/machine-learning/learning-paths/ai-platform-engineering-bootcamps/custom-machine-learning-bootcamp

不幸的是,在成功设置 Azure Databricks 后,我在步骤 2 中遇到了一些问题。我成功将 1_01_introduction 文件作为笔记本添加到我的工作区。然而,虽然本教程讨论了如何在 Azure Blob 存储中挂载数据,但它似乎跳过了该步骤,这导致接下来的所有教程编码步骤都会引发错误。第一个代码位(教程告诉我运行)以及随后出现的错误包含在下面。

%运行“../presenter/includes/mnt_blob”

找不到笔记本:presenter/includes/mnt_blob。笔记本可以通过相对路径(./Notebook 或 ../folder/Notebook)或绝对路径(/Abs/Path/to/Notebook)指定。确保您指定的路径正确。

堆栈跟踪: /1_01_简介:Python

据我所知,Azure Blob 存储尚未设置,因此我运行的代码(以及以下所有步骤中的代码)无法找到应该是的教程项目存储在 blob 中。各位好心人能提供的任何帮助将不胜感激。


在 Azure Databricks 中设置和安装 Blob 存储需要几个步骤。

First, 创建存储帐户 https://learn.microsoft.com/en-us/azure/storage/common/storage-quickstart-create-account?tabs=azure-portal进而创建一个容器 https://learn.microsoft.com/en-us/azure/storage/blobs/storage-quickstart-blobs-portal#create-a-container在它里面。

接下来,记下以下事项:

  • 存储帐户名称:创建存储帐户时的名称
  • 存储帐户密钥:可以在资源页面的 Azure 门户中找到。
  • 容器名称:容器的名称

在 Azure Databricks 笔记本中,为上述项目创建变量。

storage_account_name = "Storage account name"
storage_account_key = "Storage account key"
container = "Container name"

然后,使用以下代码设置 Spark 配置以指向 Azure Blob 存储实例。

spark.conf.set("fs.azure.account.key.{0}.blob.core.windows.net".format(storage_account_name), storage_account_key)

要将其安装到 Azure Databricks,请使用dbutils.fs.mount方法。源是 Azure Blob 存储实例和特定容器的地址。装载点是将其装载到 Azure Databricks 上的 Databricks 文件存储中的位置。额外的配置是您传递 Spark 配置的位置,因此并不总是需要设置它。

dbutils.fs.mount(
 source = "wasbs://{0}@{1}.blob.core.windows.net".format(container, storage_account_name),
 mount_point = "/mnt/<Mount name>",
 extra_configs = {"fs.azure.account.key.{0}.blob.core.windows.net".format(storage_account_name): storage_account_key}
)

完成这些设置后,您现在可以开始使用安装座。要检查它是否可以看到存储帐户中的文件,请使用dbutils.fs.ls命令。

dbutils.fs.ls("dbfs:/mnt/<Mount name>")

希望有帮助!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用Azure Blob存储挂载数据? 的相关文章

  • 行未从树视图复制

    该行未在树视图中复制 我在按行并复制并粘贴到未粘贴的任何地方后制作了弹出复制 The code popup tk Menu tree opportunity tearoff 0 def row copy item tree opportun
  • python - 是否可以扩展 xml-rpc 可以序列化的事物集?

    我看到几个问题询问如何发送numpy ndarray通过 xml rpc 调用 这不能开箱即用 因为正如 xml rpc 中所述docs https docs python org 2 library xmlrpclib html 有一组固
  • 即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

    这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
  • 如何使用Python将WebP图像转换为Gif?

    我已经尝试过这个 from PIL import Image im Image open this webp im save that gif gif save all True 这给了我这个错误 类型错误 不支持的操作数类型 tuple
  • python 中分割字符串以获得一个值?

    需要帮助 假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作 我得到两个具有不同字符串 Sam 和 Person 的变量 有没有办法只获取第一个值 name S
  • 带图像的简单 GUI [关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions 我试图在简单的 GUI 上显示一些卡
  • Python igraph:从图中删除顶点

    我正在使用安然电子邮件数据集 并尝试删除没有 enron com 的电子邮件地址 即我只想拥有安然电子邮件 当我尝试删除那些没有 enron com 的地址时 一些电子邮件由于某些原因被跳过 下面显示了一个小图 其中顶点是电子邮件地址 这是
  • 无法打开 Python。错误 0xc000007b

    我最近一直在学习 Python 3 我在我的上网本 32 位 Windows 7 上创建简单的小程序没有任何问题 当我将它安装在我的上网本上时 我没有遇到任何问题 但现在我已经开始使用它了 我想将它安装在我的台式机上 并且我有一个 我的桌面
  • 更改 pandas 中多个日期时间列的时区信息

    有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地 任何时区 不是逐列进行吗 您可以有选择地将转换应用于所有日期时间列 首先 选择它们select dtypes https pandas pydata org pandas docs
  • Python 中的 @staticmethod 与 @classmethod

    方法和方法有什么区别装饰的 https peps python org pep 0318 with staticmethod http docs python org library functions html staticmethod和
  • 为什么我用 beautifulSoup 刮的时候有桌子,但没有 pandas

    尝试抓取条目页面转换为制表符分隔格式 主要拉出序列和 UniProt 登录号 当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
  • App Insights 升级到 2.5 后,Azure 应用服务将无法启动

    我有一个存储库 它使用应用程序洞察来记录有关在 ASP NET 中运行的服务的信息 我们有一些 ASP NET Core 2 0 站点以及一些完整框架的 asp net 4 应用程序 随着应用程序洞察 2 5 的发布 我们在核心站点中获得了
  • Django 在选择列表更改时创建毫无意义的迁移

    我正在尝试使用可调用创建一个带有选择字段的模型 以便 Django 在选择列表更改时不会创建迁移 如中所述this https stackoverflow com questions 31788450 stop django from cr
  • 在 MacO 和 Linux 上安装 win32com [重复]

    这个问题在这里已经有答案了 我的问题很简单 我可以安装吗win32com蟒蛇API pywin32特别是 在非 Windows 操作系统上 我一直在Mac上尝试多个版本pip install pywin32 都失败了 下面是一个例子 如果你
  • 导入错误:没有名为 google.auth 的模块

    当我尝试导入时firebase admin in python 2 7我收到错误 导入错误 没有名为 google auth 的模块 这是Docker文件 https github com ammaratef45 Attendance bl
  • 如何通过字符串匹配加速 pandas 行过滤?

    我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作 有没有快速的方法可以做到这一点 例如 In 1 df mul df 3000 2000 3 reset inde
  • Python - 如何查询定义方法的类?

    我的问题有点类似于this one https stackoverflow com questions 5520580 how do you get all classes defined in a module but not impor
  • 张量流:注册 numpy bfloat16 扩展

    正如我所见 tensorflow 中有 bfloat16 的 numpy 扩展 https github com tensorflow tensorflow blob 24ffe9f729160a095a5cab8f592392018280
  • 如何在sphinx中启用数学?

    我在用sphinx http sphinx pocoo org index html与pngmath http sphinx pocoo org ext math html module sphinx ext pngmath扩展来记录我的代
  • 异步和协程与任务队列

    我一直在阅读有关 python 3 中的 asyncio 模块的内容 以及更广泛地了解 python 中的协程的内容 但我不明白是什么让 asyncio 成为如此出色的工具 我的感觉是 你可以用协程做的所有事情 通过使用基于多处理模块 例如

随机推荐

  • FreeTDS - tsql 连接,isql 失败

    我正在尝试连接到我的主机 Windows XP SQL Server 05 上的数据库 我的客户机器是 Ubuntu 10 04 我可以使用 tsql 连接并执行命令 但 isql 失败 以下是我的配置文件和错误消息 freetds con
  • UITableView 部分未按预期排序

    我正在使用带有自定义部分标题的 tableView 核心数据对象根据称为 sectionIdentifier 的瞬态属性的值显示在精确的部分上 一切都按预期工作 但各部分的顺序没有按我的预期响应 这应该是部分顺序 1 OVERDUE sec
  • 匿名函数和内存消耗

    就内存消耗而言 这些是否等效 或者我们是否为后者中的每个对象获得一个新的函数实例 var f function alert this animal var items for var i 0 i lt 10 i var item anima
  • 如何重置 Apache Archiva 密码

    我正在使用 apache archiva 2 2 0 版本 我丢失了管理员密码 因此我想重置管理员用户的密码 我尝试通过删除下面提到的文件来重置密码 apache archiva 2 2 0 data databases users dbe
  • 检测 pandas.DataFrame 中的列是否是分类的好的启发式是什么?

    我一直在开发一个工具 可以自动预处理 pandas DataFrame 格式的数据 在此预处理步骤中 我想以不同的方式处理连续数据和分类数据 特别是 我希望能够应用 OneHotEncoder 等only分类数据 现在 假设我们提供了一个
  • Python 3 默认编码 cp1252 [重复]

    这个问题在这里已经有答案了 我最近在索尼 vaio windows 10 系统上使用 anaconda 4 1 1 python 3 5 2 安装从 Biopython 模块解码句柄 错误映射 0x81 0x8D 时遇到了一些问题 经过一番
  • bash 逗号分隔值的逆序

    我有以下元素列表 a b c 1337 d e 我希望我有 e d 1337 c b a 我怎样才能在 bash 中实现这一目标 你可以这样做awk bin bash awk BEGIN FS OFS for i NF i gt 0 i p
  • Maven 与 Android - R.java 文件生成 (Eclipse)

    我正在尝试将 R java 生成工作到 gen 文件夹中的项目 实际上 应用程序在使用 maven 构建时构建 但是 eclipse 发现错误 因为它无法解析 R java 文件 实际上在每次构建后放入 target generated s
  • CodeIgniter 和 Oracle 数据库 - ActiveRecord insert() 在查询中添加双引号

    我正在使用 CodeIgniter 框架版本 2 2 和 Oracle 11g 数据库 在database php中我的配置如下所示 与 CodeIgniter 的数据库连接良好 当我尝试使用 CodeIgniter 的 ActiveRec
  • c#图表控件,垂直滚动缩放问题[“Stuck Scroll bar”]

    我有一个带有大型 C 图表控件的程序 我允许用户选择任何区域来进行缩放 它将放大 这一切都很好 当我水平滚动时 这也工作得很好而且非常流畅 但是 当我尝试垂直滚动时 滚动条不会移动 我唯一能做的就是使用滚动条上的向上和向下箭头键 这只会给出
  • 使用 Popen 运行本地二进制文件时出现“文件未找到”错误

    我正在编写一个 Python 程序来使用 Popen 调用本地二进制文件来捕获其输出 我将目录更改为os chdir我已经验证该文件在那里 但是 以下代码引发 找不到文件 异常 谁能告诉我我做错了什么 从不在我的 PATH 中的目录运行程序
  • Raspberry 上的 Libtorch 无法加载 pt 文件,但可以在 ubuntu 上运行

    我正在尝试在 Raspberry PI 上使用 libtorch 构建 C 程序 该程序在 Ubuntu 上运行 但在 Raspberry 上构建时出现以下错误 error use of deleted function void torc
  • 如果 observable 在 X 时间内没有发出值,则会产生副作用

    我正在研究一个用例 要求如果可观察量在一定时间内没有发出值 那么我们应该做一些副作用 给出一个实际用例 打开网络套接字连接 如果在 X 时间内没有发送 接收消息 则关闭 Web 套接字连接并通知用户 这需要在每个发出的值上以及在初始订阅可观
  • 列出表中不同的元组(SQL 查询)(10 种方式)

    有哪些不同的列出方式不同的元组在表格中 原始问题来自高盛说列出 10 种不同的方式 其中一种方式正在使用DISTINCT 任何人都可以帮助我更多 这是四个 GROUP BY
  • 如何在php中使用“for”循环创建动态递增变量?

    如何在php中使用 for 循环创建动态递增变量 同样 track 1 track 2 track 3 track 4 等等 Use parse str http pt php net manual en function parse st
  • 查找不在列表中的最小非负整数的算法

    给定一个整数列表 我怎样才能最好地找到一个整数not在列表中 该列表可能非常大 并且整数也可能很大 即 BigIntegers 而不仅仅是 32 位整数 如果有什么区别 列表 可能 已排序 即 99 的时间都会排序 但我不能依赖总是排序 E
  • wttr.in 对浏览器的响应与对curl 的响应有何不同?

    如果你去http wttr in http wttr in 在浏览器中 您将看到一个包含在标签中 具有链接并使用跨度着色的页面 如果您然后转到终端并输入curl http wttr in 您将得到几乎完全相同的页面 但代码却截然不同 wtt
  • 参数前缀“:”后不允许有空格

    我的问题是我尝试在查询中插入包含 char 的文本 我尝试在 char 之前添加双反斜杠 但仍然不起作用 ABNORMALLY java lang IllegalArgumentException org hibernate QueryEx
  • 新的 TypeScript 版本不包括“window.navigator.msSaveBlob”

    我有一个 TypeScript 项目 https github com jmaister excellentexport https github com jmaister excellentexport 并且工作正常 添加dependab
  • 如何使用Azure Blob存储挂载数据?

    我是 Azure Databricks 的新手 我的导师建议我完成机器学习训练营 https aischool microsoft com en us machine learning learning paths ai platform