Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Pyspark:从 blob 存储加载 zip 文件
我正在使用 Pyspark 尝试从 blob 存储中读取 zip 文件 我想在加载后解压缩文件 然后将解压缩的 CSV 写回 Blob 存储 我正在遵循此指南 该指南解释了如何在阅读后解压缩文件 https docs databricks
python
Azure
PySpark
Databricks
在 Databricks 中使用 Selenium(chrome 无法访问)
我无法从 Databricks 中运行 Selenium 我在其他各种线程中遵循了其他人的步骤 https forums databricks com questions 15480 how to add webdriver for sel
python
selenium
Googlechrome
seleniumchromedriver
Databricks
如何使用PySpark读取目录下的Parquet文件?
我在网上搜索了一下 网上提供的解决方案并没有解决我的问题 我正在尝试读取分层目录下的镶木地板文件 我收到以下错误 无法推断 Parquet 的架构 必须手动指定 我的目录结构如下 dbfs mnt sales region country
python
PySpark
apachesparksql
Databricks
azuredatabricks
如何处理 Spark SQL 上的 AnalysisException?
我正在尝试在 Spark 中执行查询列表 但如果查询未正确运行 Spark 会抛出以下错误 AnalysisException 不支持更改表更改列 这是我的代码的一部分 我在 Databricks 上使用 python 和 Spark SQ
python
apachespark
PySpark
apachesparksql
Databricks
如何在轮子中包含和安装测试文件并部署到 Databricks
我正在开发一些在 Databricks 上运行的代码 鉴于 Databricks 无法在本地运行 我需要在 Databricks 集群上运行单元测试 问题是当我安装包含我的文件的轮子时 测试文件永远不会安装 如何安装测试文件 理想情况下我想
python
unittesting
Databricks
pythonwheel
pythonpoetry
如何在 NoteBook 之外的 pyspark 作业中使用 dbutils 命令
我想使用 dbutils 命令来访问通过 Databricks 上的作业内的 Spark Submit 提交的 pyspark 作业中的机密 使用 dbutils 命令时 出现错误 dbutils not Defined 除了笔记本之外 还
PySpark
Databricks
azuredatabricks
Azure databricks 存储库:如何通过 API 拉取
我正在使用 Azure DevOps 存储库将 Azure databricks 连接到我在 DevOps 中的存储库 我需要从 Azure DevOps 管道自动拉取 为此 我尝试使用 databricks API 来拉取 但参考这个链接
Databricks
azuredatabricks
databricksrepos
如何将 xlsx 或 xls 文件读取为 Spark 数据帧
谁能告诉我在不转换 xlsx 或 xls 文件的情况下我们如何将它们读取为 Spark 数据框 我已经尝试使用 pandas 进行读取 然后尝试转换为 Spark 数据帧 但出现错误 错误是 Error Cannot merge type
python3x
Azure
Databricks
使用 R 从 Microsoft Azure 读取 csv 文件
我最近开始使用 databricks 和 azure 我有微软天蓝色存储资源管理器 我在 databricks 上运行了一个 jar 程序 它在路径中的 azure storgae explorer 中输出许多 csv 文件 myfolde
r
Azure
Databricks
Databricks SQL 和 Spark SQL 有什么区别?
Databricks SQL 和 Spark SQL 有什么区别 Data SQL 只是 Databricks 上的 Spark SQL 吗 Databricks SQL 主要基于 Spark SQL 现在正在慢慢收敛到 ANSI SQL
apachespark
Databricks
azuredatabricks
databrickssql
在 pyspark databricks 中并行执行多个笔记本
问题很简单 master dim py calls dim 1 py and dim 2 py并行执行 这在 databricks pyspark 中可能吗 下图解释了我想要做什么 由于某种原因它出错了 我在这里遗漏了什么吗 仅供其他人使用
检查Databricks中是否存在该路径
我尝试使用 Python 检查 Databricks 中是否存在该路径 try dirs dbutils fs ls my path pass except IOError print The path does not exist 如果路
python
Databricks
azuredatabricks
DButils
如何确定 Apache Spark Dataframe 中的分区大小
我一直在使用 SE 上发布的问题的出色答案来确定分区数量以及数据帧中分区的分布需要了解 Spark Dataframe 中的分区详细信息 https stackoverflow com questions 39217964 need to
apachespark
PySpark
Databricks
使用 Spark 从 Oracle 导入数据
在 Databricks 中 我使用以下代码从 Oracle 中提取数据 scala val empDF spark read format jdbc option url jdbc oracle thin username passwor
Oracle
scala
apachespark
Databricks
Databricks 更改默认目录
似乎当我连接到 Databricks Warehouse 时 它 使用的是默认目录hive metastore 有没有办法将统一目录定义为默认目录 我知道我可以运行查询 USE CATALOG MAIN 然后当前会话将使用unity cat
Databricks
databrickssql
awsdatabricks
databricksunitycatalog
Databricks 仅打印大约 280 行数据
我正在 Databricks 中运行一些大型作业 目前包括盘点数据湖 我正在尝试打印前缀 子文件夹 内的所有 blob 名称 这些子文件夹中有很多文件 我打印了大约 280 行文件名 但随后我看到了以下内容 WARNING skipped
python
python3x
Databricks
azuredatalake
Terraform databricks 无法配置默认凭据
我们正在通过 Azure 管道运行 terraform 以创建 databricks 工作区和相关资源 但是当 Terraform 的应用阶段到达获取最新版本的 Spark 的阶段时 该过程会引发错误 错误是 Error default a
当 DataFrame 为空时抛出 AnalysisException(没有这样的结构字段)
我有一个数据框 在其上应用过滤器 然后进行一系列转换 最后 我选择了几列 Filters the event related to a user principal var filteredCount events filter Prope
scala
apachespark
Databricks
将 Pickle 文件记录为 Mlflow 运行的一部分
我正在运行 MLflow 实验作为其中的一部分 我想将一些工件记录为 python pickle 例如 尝试不同的分类编码器 因此想将编码器对象记录为 pickle 文件 有办法实现这一点吗 那里有两个功能 日志工件 https mlflo
python
Databricks
azuredatabricks
mlflow
mlops
Databricks:SQL 查询的等效代码
我正在寻找查询的等效数据块代码 我添加了一些示例代码和预期的代码 但特别是我正在 Databricks 中寻找等效的代码query 目前我陷入了 交叉应用字符串分割 部分 SQL 数据示例 CREATE TABLE FactTurnover
sql
apachesparksql
Databricks
azuredatabricks
«
1
2
3
4
5
6
»