Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Spark 2.x 的 Spark.sql.crossJoin.enabled
我正在使用 预览 Google DataProc Image 1 1 和 Spark 2 0 0 为了完成我的一项操作 我必须完成笛卡尔积 从2 0 0版本开始 创建了一个spark配置参数 spark sql cross Join ena
apachespark
googleclouddataproc
由于 GCS 中无法重命名错误,Spark Dataproc 作业失败
我有一个 Spark 作业 由于以下错误而失败 org apache spark SparkException Job aborted due to stage failure Task 0 in stage 34338 0 failed
apachespark
googlecloudplatform
googlecloudstorage
googleclouddataproc
ImportError:使用 Jupyter Notebook 时没有名为 numpy 的模块 - Google Cloud Dataproc
在 Google Dataproc 上启动 Jupyter Notebook 时 导入模块失败 我尝试使用不同的命令安装模块 一些例子 import os os sytem sudo apt get install python numpy
python
ImportError
jupyternotebook
googleclouddataproc
从 Composer 在 dataproc 集群上执行 bash 脚本
我想在使用简单的 shell 脚本创建集群后将 jar 添加到特定位置的 dataproc 集群中 创建 dataproc 集群后 我想自动执行此步骤以从 Composer 运行 下一步是执行 bash 脚本 该脚本会将 jar 添加到 d
googleclouddataproc
googlecloudcomposer
如何向 GCP 中的 dataproc 集群添加 jar 依赖项?
特别是 如何添加 Spark bigquery connector 以便可以从 dataproc 的 Jupyter Web 界面中查询数据 关键链接 https github com GoogleCloudPlatform spark b
Maven
googlecloudplatform
PySpark
googleclouddataproc
根据 Flink 的模式使用 GCS 文件
由于 Flink 支持 Hadoop 文件系统抽象 并且有一个GCS连接器 https github com GoogleCloudPlatform bigdata interop 在 Google Cloud Storage 之上实现它的
apacheflink
googleclouddataproc
如何保持 Google Dataproc master 运行?
我在 Dataproc 上创建了一个集群 效果很好 但是 当集群空闲一段时间 约90分钟 后 主节点将自动停止 我创建的每个集群都会发生这种情况 我看到这里有一个类似的问题 继续运行 Dataproc 主节点 https stackover
googlecloudplatform
googleclouddataproc
googleclouddatalab
如何在 google dataproc 上运行 Spark 3.2.0?
目前 google dataproc 没有 Spark 3 2 0 作为图像 最新可用的是 3 1 2 我想使用 Spark 随 3 2 0 发布的 pandas on pyspark 功能 我正在执行以下步骤来使用 Spark 3 2 0
apachespark
PySpark
googleclouddataproc
Spark 设置为从最早的偏移量读取 - 在尝试使用 Kafka 上不再可用的偏移量时抛出错误
我目前正在 Dataproc 上运行 Spark 作业 在尝试重新加入组并从 kafka 主题读取数据时遇到错误 我做了一些挖掘 但不确定问题是什么 我有auto offset reset set to earliest所以它应该从最早可用
apachespark
ApacheKafka
Streaming
googleclouddataproc
在 Datalab 中查询 Hive 表时出现问题
我已经创建了一个 dataproc 集群 其中包含更新的 init 操作来安装 datalab 一切正常 除了当我从 Datalab 笔记本查询 Hive 表时 我遇到了 hc sql select from invoices limit
hive
googleclouddataproc
googleclouddatalab
Dataproc 虚拟机内存和本地磁盘使用指标
我正在尝试使用云指标监控 Dataproc 2 0 上的本地磁盘使用情况 百分比 这对于监控 Spark 临时文件填满磁盘的情况非常有用 默认情况下 Dataproc 似乎仅发送本地磁盘性能指标 CPU 等指标和集群级别 HDFS 指标 但
googleclouddataproc
Dataproc:Jupyter pyspark 笔记本无法导入 graphframes 包
在 Dataproc Spark 集群中 graphframe 包在 Spark Shell 中可用 但在 Jupyter pyspark Notebook 中不可用 Pyspark 内核配置 PACKAGES ARG packages g
PySpark
jupyter
googleclouddataproc
graphframes
从 Google 的 dataproc 读取 S3 数据
我正在我创建的集群上通过 Google 的 dataproc 运行 pyspark 应用程序 在一个阶段 应用程序需要访问 Amazon S3 目录中的目录 在那个阶段 我收到错误 AWS 访问密钥 ID 和秘密访问密钥必须指定为 s3 U
amazonwebservices
apachespark
amazons3
googleclouddataproc
如何使用 Dataproc 中的 Jupyter 笔记本获取 GCS 存储桶中的文件列表?
我最近开始在我的项目中使用 GCP 在使用 Dataproc 集群中 Jupyter 笔记本中的存储桶时遇到了困难 目前 我有一个包含一堆文件的存储桶 以及一个包含 Jupyter 笔记本的 Dataproc 集群 我想做的是检查存储桶中的
如何运行创建 Dataproc 集群、运行作业、从 Cloud Function 删除集群
我想启动 Dataproc 作业来响应到达 GCS 存储桶中的日志文件 我也不想让持久集群保持运行 因为新的日志文件每天只到达几次 并且大多数时间都是空闲的 此处提供了本教程的较新版本 https cloud google com data
googleclouddataproc
从 GCP 连接到 Azure SQL 时出现 NoClassDefFoundError com/microsoft/aad/adal4j/AuthenticationException
我的 Spark 项目位于 GCP 中的 data proc 上 并在 Spark 提交上运行驱动程序 当我尝试连接到 Azure SQL DB 时 它抛出以下异常 20 39 15 DOCKER Exception in thread m
pyspark rdd isCheckPointed() 为 false
当我向 pyspark 数据帧迭代添加 500 多列时 遇到了 stackoverflowerrors 所以 我包括了检查点 检查站没有帮助 因此 我创建了以下玩具应用程序来测试我的检查点是否正常工作 我在此示例中所做的就是通过一遍又一遍地
apachespark
PySpark
googleclouddataproc
Dataproc导入存储在谷歌云存储(gcs)存储桶中的python模块
我在 GCS 存储桶上有以下结构 my bucket notebooks jupyter modules mymodule py init py 笔记本 1 ipynb 如何在notebook 1 ipynb中导入mymodule note
googlecloudstorage
pythonimport
googleclouddataproc
将conf文件添加到Google Dataproc中的类路径
我们正在 Scala 中使用 HOCON 配置构建 Spark 应用程序 该配置称为application conf 如果我添加application conf添加到我的 jar 文件并在 Google Dataproc 上启动作业 它可以
apachespark
googleclouddataproc
hocon
如何从 Dataproc 上的检查点重新启动 Spark Streaming 作业?
这是后续dataproc 上的 Spark 流抛出 FileNotFoundException 在过去的几周里 不确定从什么时候开始 重新启动 Spark 流作业 即使使用 kill dataproc agent 技巧也会抛出此异常 17
googleclouddataproc
«
1
2
3
»