Databricks

Pyspark：从 blob 存储加载 zip 文件

我正在使用 Pyspark 尝试从 blob 存储中读取 zip 文件我想在加载后解压缩文件然后将解压缩的 CSV 写回 Blob 存储我正在遵循此指南该指南解释了如何在阅读后解压缩文件 https docs databricks

python Azure PySpark Databricks

在 Databricks 中使用 Selenium（chrome 无法访问）

我无法从 Databricks 中运行 Selenium 我在其他各种线程中遵循了其他人的步骤 https forums databricks com questions 15480 how to add webdriver for sel

python selenium Googlechrome seleniumchromedriver Databricks

如何使用PySpark读取目录下的Parquet文件？

我在网上搜索了一下网上提供的解决方案并没有解决我的问题我正在尝试读取分层目录下的镶木地板文件我收到以下错误无法推断 Parquet 的架构必须手动指定我的目录结构如下 dbfs mnt sales region country

python PySpark apachesparksql Databricks azuredatabricks

如何处理 Spark SQL 上的 AnalysisException？

我正在尝试在 Spark 中执行查询列表但如果查询未正确运行 Spark 会抛出以下错误 AnalysisException 不支持更改表更改列这是我的代码的一部分我在 Databricks 上使用 python 和 Spark SQ

python apachespark PySpark apachesparksql Databricks

如何在轮子中包含和安装测试文件并部署到 Databricks

我正在开发一些在 Databricks 上运行的代码鉴于 Databricks 无法在本地运行我需要在 Databricks 集群上运行单元测试问题是当我安装包含我的文件的轮子时测试文件永远不会安装如何安装测试文件理想情况下我想

python unittesting Databricks pythonwheel pythonpoetry

如何在 NoteBook 之外的 pyspark 作业中使用 dbutils 命令

我想使用 dbutils 命令来访问通过 Databricks 上的作业内的 Spark Submit 提交的 pyspark 作业中的机密使用 dbutils 命令时出现错误 dbutils not Defined 除了笔记本之外还

PySpark Databricks azuredatabricks

Azure databricks 存储库：如何通过 API 拉取

我正在使用 Azure DevOps 存储库将 Azure databricks 连接到我在 DevOps 中的存储库我需要从 Azure DevOps 管道自动拉取为此我尝试使用 databricks API 来拉取但参考这个链接

Databricks azuredatabricks databricksrepos

如何将 xlsx 或 xls 文件读取为 Spark 数据帧

谁能告诉我在不转换 xlsx 或 xls 文件的情况下我们如何将它们读取为 Spark 数据框我已经尝试使用 pandas 进行读取然后尝试转换为 Spark 数据帧但出现错误错误是 Error Cannot merge type

python3x Azure Databricks

使用 R 从 Microsoft Azure 读取 csv 文件

我最近开始使用 databricks 和 azure 我有微软天蓝色存储资源管理器我在 databricks 上运行了一个 jar 程序它在路径中的 azure storgae explorer 中输出许多 csv 文件 myfolde

r Azure Databricks

Databricks SQL 和 Spark SQL 有什么区别？

Databricks SQL 和 Spark SQL 有什么区别 Data SQL 只是 Databricks 上的 Spark SQL 吗 Databricks SQL 主要基于 Spark SQL 现在正在慢慢收敛到 ANSI SQL

apachespark Databricks azuredatabricks databrickssql

在 pyspark databricks 中并行执行多个笔记本

问题很简单 master dim py calls dim 1 py and dim 2 py并行执行这在 databricks pyspark 中可能吗下图解释了我想要做什么由于某种原因它出错了我在这里遗漏了什么吗仅供其他人使用

检查Databricks中是否存在该路径

我尝试使用 Python 检查 Databricks 中是否存在该路径 try dirs dbutils fs ls my path pass except IOError print The path does not exist 如果路

python Databricks azuredatabricks DButils

如何确定 Apache Spark Dataframe 中的分区大小

我一直在使用 SE 上发布的问题的出色答案来确定分区数量以及数据帧中分区的分布需要了解 Spark Dataframe 中的分区详细信息 https stackoverflow com questions 39217964 need to

apachespark PySpark Databricks

使用 Spark 从 Oracle 导入数据

在 Databricks 中我使用以下代码从 Oracle 中提取数据 scala val empDF spark read format jdbc option url jdbc oracle thin username passwor

Oracle scala apachespark Databricks

Databricks 更改默认目录

似乎当我连接到 Databricks Warehouse 时它使用的是默认目录hive metastore 有没有办法将统一目录定义为默认目录我知道我可以运行查询 USE CATALOG MAIN 然后当前会话将使用unity cat

Databricks databrickssql awsdatabricks databricksunitycatalog

Databricks 仅打印大约 280 行数据

我正在 Databricks 中运行一些大型作业目前包括盘点数据湖我正在尝试打印前缀子文件夹内的所有 blob 名称这些子文件夹中有很多文件我打印了大约 280 行文件名但随后我看到了以下内容 WARNING skipped

python python3x Databricks azuredatalake

Terraform databricks 无法配置默认凭据

我们正在通过 Azure 管道运行 terraform 以创建 databricks 工作区和相关资源但是当 Terraform 的应用阶段到达获取最新版本的 Spark 的阶段时该过程会引发错误错误是 Error default a

当 DataFrame 为空时抛出 AnalysisException（没有这样的结构字段）

我有一个数据框在其上应用过滤器然后进行一系列转换最后我选择了几列 Filters the event related to a user principal var filteredCount events filter Prope

scala apachespark Databricks

将 Pickle 文件记录为 Mlflow 运行的一部分

我正在运行 MLflow 实验作为其中的一部分我想将一些工件记录为 python pickle 例如尝试不同的分类编码器因此想将编码器对象记录为 pickle 文件有办法实现这一点吗那里有两个功能日志工件 https mlflo

python Databricks azuredatabricks mlflow mlops

Databricks：SQL 查询的等效代码

我正在寻找查询的等效数据块代码我添加了一些示例代码和预期的代码但特别是我正在 Databricks 中寻找等效的代码query 目前我陷入了交叉应用字符串分割部分 SQL 数据示例 CREATE TABLE FactTurnover

sql apachesparksql Databricks azuredatabricks