googleclouddataproc

Spark 2.x 的 Spark.sql.crossJoin.enabled

我正在使用预览 Google DataProc Image 1 1 和 Spark 2 0 0 为了完成我的一项操作我必须完成笛卡尔积从2 0 0版本开始创建了一个spark配置参数 spark sql cross Join ena

apachespark googleclouddataproc

由于 GCS 中无法重命名错误，Spark Dataproc 作业失败

我有一个 Spark 作业由于以下错误而失败 org apache spark SparkException Job aborted due to stage failure Task 0 in stage 34338 0 failed

apachespark googlecloudplatform googlecloudstorage googleclouddataproc

ImportError：使用 Jupyter Notebook 时没有名为 numpy 的模块 - Google Cloud Dataproc

在 Google Dataproc 上启动 Jupyter Notebook 时导入模块失败我尝试使用不同的命令安装模块一些例子 import os os sytem sudo apt get install python numpy

python ImportError jupyternotebook googleclouddataproc

从 Composer 在 dataproc 集群上执行 bash 脚本

我想在使用简单的 shell 脚本创建集群后将 jar 添加到特定位置的 dataproc 集群中创建 dataproc 集群后我想自动执行此步骤以从 Composer 运行下一步是执行 bash 脚本该脚本会将 jar 添加到 d

googleclouddataproc googlecloudcomposer

如何向 GCP 中的 dataproc 集群添加 jar 依赖项？

特别是如何添加 Spark bigquery connector 以便可以从 dataproc 的 Jupyter Web 界面中查询数据关键链接 https github com GoogleCloudPlatform spark b

Maven googlecloudplatform PySpark googleclouddataproc

根据 Flink 的模式使用 GCS 文件

由于 Flink 支持 Hadoop 文件系统抽象并且有一个GCS连接器 https github com GoogleCloudPlatform bigdata interop 在 Google Cloud Storage 之上实现它的

apacheflink googleclouddataproc

如何保持 Google Dataproc master 运行？

我在 Dataproc 上创建了一个集群效果很好但是当集群空闲一段时间约90分钟后主节点将自动停止我创建的每个集群都会发生这种情况我看到这里有一个类似的问题继续运行 Dataproc 主节点 https stackover

googlecloudplatform googleclouddataproc googleclouddatalab

如何在 google dataproc 上运行 Spark 3.2.0？

目前 google dataproc 没有 Spark 3 2 0 作为图像最新可用的是 3 1 2 我想使用 Spark 随 3 2 0 发布的 pandas on pyspark 功能我正在执行以下步骤来使用 Spark 3 2 0

apachespark PySpark googleclouddataproc

Spark 设置为从最早的偏移量读取 - 在尝试使用 Kafka 上不再可用的偏移量时抛出错误

我目前正在 Dataproc 上运行 Spark 作业在尝试重新加入组并从 kafka 主题读取数据时遇到错误我做了一些挖掘但不确定问题是什么我有auto offset reset set to earliest所以它应该从最早可用

apachespark ApacheKafka Streaming googleclouddataproc

在 Datalab 中查询 Hive 表时出现问题

我已经创建了一个 dataproc 集群其中包含更新的 init 操作来安装 datalab 一切正常除了当我从 Datalab 笔记本查询 Hive 表时我遇到了 hc sql select from invoices limit

hive googleclouddataproc googleclouddatalab

Dataproc 虚拟机内存和本地磁盘使用指标

我正在尝试使用云指标监控 Dataproc 2 0 上的本地磁盘使用情况百分比这对于监控 Spark 临时文件填满磁盘的情况非常有用默认情况下 Dataproc 似乎仅发送本地磁盘性能指标 CPU 等指标和集群级别 HDFS 指标但

googleclouddataproc

Dataproc：Jupyter pyspark 笔记本无法导入 graphframes 包

在 Dataproc Spark 集群中 graphframe 包在 Spark Shell 中可用但在 Jupyter pyspark Notebook 中不可用 Pyspark 内核配置 PACKAGES ARG packages g

PySpark jupyter googleclouddataproc graphframes

从 Google 的 dataproc 读取 S3 数据

我正在我创建的集群上通过 Google 的 dataproc 运行 pyspark 应用程序在一个阶段应用程序需要访问 Amazon S3 目录中的目录在那个阶段我收到错误 AWS 访问密钥 ID 和秘密访问密钥必须指定为 s3 U

amazonwebservices apachespark amazons3 googleclouddataproc

如何使用 Dataproc 中的 Jupyter 笔记本获取 GCS 存储桶中的文件列表？

我最近开始在我的项目中使用 GCP 在使用 Dataproc 集群中 Jupyter 笔记本中的存储桶时遇到了困难目前我有一个包含一堆文件的存储桶以及一个包含 Jupyter 笔记本的 Dataproc 集群我想做的是检查存储桶中的

如何运行创建 Dataproc 集群、运行作业、从 Cloud Function 删除集群

我想启动 Dataproc 作业来响应到达 GCS 存储桶中的日志文件我也不想让持久集群保持运行因为新的日志文件每天只到达几次并且大多数时间都是空闲的此处提供了本教程的较新版本 https cloud google com data

googleclouddataproc

从 GCP 连接到 Azure SQL 时出现 NoClassDefFoundError com/microsoft/aad/adal4j/AuthenticationException

我的 Spark 项目位于 GCP 中的 data proc 上并在 Spark 提交上运行驱动程序当我尝试连接到 Azure SQL DB 时它抛出以下异常 20 39 15 DOCKER Exception in thread m

pyspark rdd isCheckPointed() 为 false

当我向 pyspark 数据帧迭代添加 500 多列时遇到了 stackoverflowerrors 所以我包括了检查点检查站没有帮助因此我创建了以下玩具应用程序来测试我的检查点是否正常工作我在此示例中所做的就是通过一遍又一遍地

apachespark PySpark googleclouddataproc

Dataproc导入存储在谷歌云存储（gcs）存储桶中的python模块

我在 GCS 存储桶上有以下结构 my bucket notebooks jupyter modules mymodule py init py 笔记本 1 ipynb 如何在notebook 1 ipynb中导入mymodule note

googlecloudstorage pythonimport googleclouddataproc

将conf文件添加到Google Dataproc中的类路径

我们正在 Scala 中使用 HOCON 配置构建 Spark 应用程序该配置称为application conf 如果我添加application conf添加到我的 jar 文件并在 Google Dataproc 上启动作业它可以

apachespark googleclouddataproc hocon

如何从 Dataproc 上的检查点重新启动 Spark Streaming 作业？

这是后续dataproc 上的 Spark 流抛出 FileNotFoundException 在过去的几周里不确定从什么时候开始重新启动 Spark 流作业即使使用 kill dataproc agent 技巧也会抛出此异常 17

googleclouddataproc