在 databrick 上运行时将 PySpark 标准输出和标准错误日志保存到云对象存储

2024-04-15

我正在标准 databricks 集群上运行 PySpark 数据管道代码。我需要保存所有 Python/PySpark 标准输出和标准错误消息存储到 Azure BLOB 帐户中的文件中。

当我在本地运行 Python 代码时，我可以在终端中看到包括错误在内的所有消息并将它们保存到日志文件中。如何使用 Databricks 和 Azure 完成类似的事情 PySpark 数据管道代码的 BLOB？这可以做到吗？

非常感谢：）

如果要将错误日志存储到 azure 存储帐户。

请按照以下步骤操作：

1.创建一个挂载到azure blob存储容器，如果您已经有日志文件，则将日志存储到挂载位置。

访问密钥

dbutils.fs.mount(    
    source = "wasbs://<container_name>@<storage_account_name>.blob.core.windows.net/",
    mount_point = "/mnt/<mount_name>",
    extra_configs = {"fs.azure.account.key.<storage_account_name>.blob.core.windows.net":"< storage_account_access key>})

2.文件路径创建

根据您的要求，您可以更改时区并保存文件。（例如：IST、UST...等）

from datetime import datetime
import pytz
curr_dt=datetime.now(pytz.timezone('Asia/Kolkata')).strftime("%Y%m%d_%H%M%S")#create timezone
directory="/mnt/"
logfilename="<file_name>"+curr_dt+"log"
path=directory+logfilename
print(path)

3.File Handler

import logging
logger = logging.getLogger('demologger')
logger.setLevel(logging.INFO)
FileHandler=logging.FileHandler(path,mode='a')
formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s: %(message)s',datefmt='%m/%d/%Y %I:%M:%S %p')
FileHandler.setFormatter(formatter)
logger.addHandler(FileHandler)
logger.debug( 'debug message')
logger.info('info message')
logger.warn('warn message')
logger.error('error message')
logger.critical ('critical message')

4.创建分区

from datetime import datetime
import pytz
partition=datetime.now(pytz.timezone('Asia/Kolkata')).strftime("%Y/%m/%d")
print(partition)

5.上传日志文件存储帐户。

 dbutils.fs.mv("file:"+path,"dbfs:/mnt/<filelocation>/log/"+partition+logfilename)

Output:

参考：

Databricks pyspark 中的自定义日志记录 || Azure Databricks 中的日志记录策略（作者：Cloudpandith） https://www.youtube.com/watch?v=Dp1Nv4o0lrA
使用微软提供的azure DataBricks访问Azure Blob存储 https://learn.microsoft.com/en-us/azure/databricks/data/data-sources/azure/azure-storage#access-azure-blob-storage-using-the-dataframe-api.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

azureblobstorage

azuredatabricks

在 databrick 上运行时将 PySpark 标准输出和标准错误日志保存到云对象存储的相关文章

检测到通过 ChromeDriver 启动的 Chrome 浏览器

我正在尝试在 python 中使用 selenium chromedriver 来访问 www mouser co uk 网站然而从第一次拍摄开始它就被检测为机器人有人对此有解释吗此后我使用的代码 options Options
TensorFlow：带有轴选项的 bincount

在 TensorFlow 中我可以使用 tf bincount 获取数组中每个元素的计数 x tf placeholder tf int32 None freq tf bincount x tf Session run freq feed
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
“一旦获取切片就无法更新查询”。最佳实践？

由于我的项目的性质我发现自己不断地从查询集中取出切片如下所示 Thread objects filter board requested board id order by updatedate 10 但这给我带来了实际对我选择的元素进
小部件之间的自定义信号

尝试将信号从一个 gtk EventBox 子级发送到另一个在 init HeadMode 第 75 行上出现错误类型错误未知信号名称消息发送 why usr bin env python coding utf8 import p
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
使用 Conda 更新特定模块会删除大量软件包

我最近开始使用 Anaconda Python 发行版因为它提供了许多开箱即用的数据分析库使用 conda 创建环境和安装软件包也轻而易举但是当我想更新 Python 本身或任何其他模块时我遇到了一些严重的问题我事先被告知我的很多
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0
Azure函数版本2.0-应用程序blobTrigger不工作

我有一个工作功能应用程序它有一个 blob 输入和一个事件中心输出在测试版中工作随着最新的更改我的功能不再起作用我尝试根据发行说明更新 host json 文件但它没有引用 blob 触发器 version 2 0 extens

随机推荐

如何使用 jQuery 处理复选框的更改？

我有一些代码
如何禁用 Nexus Galaxy 画布上的点击突出显示？

我正在编写一个使用 HTML5 画布的 Web 应用程序并在 Nexus Galaxy 上进行测试当用户点击画布时它会突出显示青色一秒钟即使我在 touchstart 事件上调用了 PreventDefault 我也尝试过一些CSS规
jQuery 和 CSS - 按高度剪切文本，不截断

因为我想切换文本所以需要隐藏其中的一部分 Problem 我的文本高度将为 X 或更少像素 div 的高度取决于侧边栏的高度并且不像此演示那样静态如果最后一行的字母现在被截断参见演示我也想隐藏该行看看我的演示 http jsfi
Oracle REGEX_SUBSTR 不支持空值

我有一个 regex substr 不支持 null 值的问题 select REGEXP SUBSTR 2035197553 2 S 14 JUN 14 P 1 1 AS phn nbr REGEXP SUBSTR 2035197553
iOS Safari – 如何禁用过度滚动但允许可滚动 div 正常滚动？

我正在开发一个基于 iPad 的网络应用程序需要防止过度滚动使其看起来不像网页我目前正在使用它来冻结视口并禁用过度滚动 document body addEventListener touchmove function e e pre
将 JPA AttributeConverter 用于布尔 Y/N 字段：“无法呈现布尔文字值”

我正在实施解决方案here https stackoverflow com a 22368268 26535将 Y N 列转换为布尔值 Basic optional false Column name ACTIVE YN Convert c
使用数字属性的 MVC3 DataAnnotationsExtensions 错误

我已经安装了 Scott 的 Kirkland DataAnnotationsExtensions 在我的模型中我有 Numeric public double expectedcost get set 在我看来 Html EditorFo
根据磁盘可用空间获取节点IP

我正在尝试编写一个 Ansible 剧本来检查多个服务器上的磁盘空间到目前为止这是我的 Ansible 剧本 hosts all become yes tasks name Check freespace shell df h awk
在第二次编辑后刷新表单[重复]

这个问题在这里已经有答案了嘿大家好我目前正在尝试在更改完成后立即刷新表单在我的第一个表单上我按下创建按钮这将打开另一个表单 form2 第二个表单将具有输入字段并允许您输入填充第一个表单上的组合框的值在第二个表单上有一个
标题消息就像 Stack Overflow 中一样

这是我第一次访问堆栈溢出我看到了一条漂亮的标题消息其中显示了文本和关闭按钮标题栏是固定的非常能吸引访问者的注意力我想知道你们中是否有人知道获得相同类型标题栏的代码快速的纯 JavaScript 实现 function Messa
openui5：如何在 RowRepeater 中获取当前 JSON 模型元素

我无法获取绑定到 RowRepeater 元素的当前 JSON 模型元素对于表和列表我只需检索当前索引或多个索引并根据这些值指向 JSON 模型中的匹配元素但是 RowRepeater 元素没有当前索引属性我觉得我应该能够直接
主题消息可以在activemq中持久化吗？

我对 JMS 和 ESB 非常陌生我使用 activemq 作为 JMS 使用 mule 作为 ESB 当我将消息从一个队列转发到另一个队列时 jms 连接器参数 persistentDelivery 为 true 它会在 activem
将部分 Activity/Fragment 保存为图像

我试图保存我的活动的一部分没有工具栏和状态栏我现在拥有的代码可以保存整个屏幕请参考下图我现在拥有的代码 llIDCardRootView LinearLayout view findViewById R id ll id card
Laravel psr-4 不自动加载

我有一个在本地运行良好的 Laravel 项目 Mavericks 但 psr 4 下的类未加载到我们的阶段服务器 CentOS 上每次尝试作曲家更新或运行 artisan 命令时我都会收到反射未找到类错误我所有的应用程序特定类都
无法将 IBOutlet 连接到 Storyboard

我最近开始使用故事板为我的 iPad 应用程序创建 iPhone 界面我已将项目更改为 Universal 而不是 iPad 并在项目摘要屏幕中将所需的故事板分配给其设备但是当我尝试使用 control drag 将任何元素连接到一段代
如何以编程方式激活“在高 dpi 设置上禁用显示缩放”[重复]

这个问题在这里已经有答案了我正在 Visual Studio 2010 上使用 C 开发 Windows 窗体应用程序我发现如果我使用高 dpi 显示设置该应用程序会缩放但是如果我通过 Windows 资源管理器上的鼠标右键单击菜
在 Visual Studio 2017 中出现未处理的异常后启用编辑

在 Visual Studio 2017 中出现未处理的异常后如何继续执行在 2015 及以下版本中可以通过单击轻松完成此操作Enable Editing它将调用堆栈展开到异常之前的点然后就可以编辑执行点变量和代码当库抛出异常时
如何使用“here-doc”将行打印到文件？

基本上这是我在过去半小时内编程和使用 Google 的结果试图实现一个简单的事情从以下位置获取用户输入 STDIN并将它们写入结构化 XML 文件作为输出下面是我丑陋的代码 bin perl print img URL img lt
Akka 流如何不断实现？

我在用阿卡流 http doc akka io docs akka stream and http experimental 1 0 scala stream index html在 Scala 中进行轮询AWS SQS https aws
在 databrick 上运行时将 PySpark 标准输出和标准错误日志保存到云对象存储

我正在标准 databricks 集群上运行 PySpark 数据管道代码我需要保存所有 Python PySpark 标准输出和标准错误消息存储到 Azure BLOB 帐户中的文件中当我在本地运行 Python 代码时我可以在终端

在 databrick 上运行时将 PySpark 标准输出和标准错误日志保存到云对象存储

在 databrick 上运行时将 PySpark 标准输出和标准错误日志保存到云对象存储 的相关文章

随机推荐

热门标签

在 databrick 上运行时将 PySpark 标准输出和标准错误日志保存到云对象存储的相关文章