Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
GCP Dataproc Spark.jar.packages 下载依赖项时出现问题
创建 Dataproc Spark 集群时 我们通过 properties spark spark jars packages mysql mysql connector java 6 0 6 to the gcloud dataproc
googleclouddataproc
googlecloudplatform
sparksubmit
Dataproc:使用 PySpark 从 BigQuery 读取和写入数据时出现错误
我正在尝试读取一些 BigQuery 数据 ID my project mydatabase mytable 原始名称受保护 来自用户管理的 Jupyter Notebook 实例 内部Dataproc https cloud google
python
PySpark
googlebigquery
googleclouddataproc
如何获取使用 Dataproc 工作流模板提交的 jobId
我已在 Airflow 操作员的帮助下使用 Dataproc 工作流模板提交了 Hive 作业 DataprocWorkflowTemplateInstantiateInlineOperator https airflow readthed
使用 BigQuery Spark 连接器通过 Datalab 从 Dataproc 连接到 BigQuery 时出错(从元数据服务器获取访问令牌时出错)
我有 BigQuery 表 Dataproc 集群 带有 Datalab 并且遵循本指南 https cloud google com dataproc docs tutorials bigquery connector spark exa
googlecloudplatform
googlebigquery
googleclouddataproc
如何在 Google Dataproc 集群中安装 python 包
创建并运行集群后 是否可以在 Google Dataproc 集群中安装 python 包 我尝试使用 pip install xxxxxxx 在主命令行中 但它似乎不起作用 Google的Dataproc文档没有提及这种情况 创建集群后
python
googlecloudplatform
googlecomputeengine
googleclouddataproc
Google Dataproc 支持 Apache Impala 吗?
我刚开始使用云服务 并且浏览 Google 的云平台相当令人生畏 当谈到 Google Dataproc 时 他们确实宣传 Hadoop Spark 和 Hive 我的问题是 Impala 是否可用 我想使用所有这四种工具来做一些基准测试项
googlecloudplatform
impala
googleclouddataproc
delta Lake - 在 pyspark 中插入 sql 失败,并显示 java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.Alias
Dataproc 集群是使用映像创建的2 0 x带有 Delta io 包io delta delta core 2 12 0 7 0 Spark版本是3 1 1 Spark shell 启动于 pyspark conf spark sql
apachespark
PySpark
Databricks
googleclouddataproc
deltalake
GCP Dataproc 作业未找到存储在存储桶中的 SSL pem 证书
我有一个 GCP Dataproc 集群 我正在尝试部署一个 pyspark 作业 该作业使用 SSL 生成一个主题 pem 文件存储在存储桶 gs dataproc kafka code code 中 我正在使用下面所示的代码访问 pem
SSL
googlecloudplatform
ApacheKafka
googleclouddataproc
使用 Spark (Python) 和 Dataproc 从 Google Storage 下载文件
我有一个应用程序可以并行执行 Python 对象 这些对象处理要从 Google Storage 我的项目存储桶 下载的数据 该集群是使用 Google Dataproc 创建的 问题是数据从未被下载 我编写了一个测试程序来尝试理解这个问题
python
apachespark
googlecloudstorage
googleclouddataproc
Google Dataproc 上的 Spark UI 位于何处?
我应该使用什么端口来访问 Google Dataproc 上的 Spark UI 我尝试了端口 4040 和 7077 以及我发现使用的许多其他端口netstat pln 防火墙配置正确 Dataproc 在 YARN 之上运行 Spark
apachespark
googleclouddataproc
如何使用 JMX 远程连接到 Dataproc 上的 Spark 工作线程
我可以通过添加以下内容来很好地连接到驱动程序 spark driver extraJavaOptions Dcom sun management jmxremote Dcom sun management jmxremote port 91
apachespark
hadoopyarn
googleclouddataproc
如何在 dataproc 提交命令中传递环境变量?
我希望能够在通过 dataproc 提交提交作业时设置以下环境变量 SPARK HOME PYSPARK PYTHON SPARK CONF DIR HADOOP CONF DIR 我怎样才能做到这一点 检查文档在 Dataproc 集群节
apachespark
PySpark
googleclouddataproc
sparksubmit
dataproc
Flink 检查点到 Google Cloud Storage
我正在尝试为 GCS 中的 flink 作业配置检查点 如果我在本地运行测试作业 没有 docker 和任何集群设置 一切正常 但如果我使用 docker compose 或集群设置运行它并在 flink 仪表板中使用作业部署 fat ja
googlecloudstorage
apacheflink
googleclouddataproc
如何在 GCP 中执行数据沿袭? [关闭]
Closed 这个问题需要多问focused help closed questions 目前不接受答案 当我们使用GCP云存储实现数据湖 并使用Dataproc Dataflow等云服务进行数据处理时 我们如何在GCP中生成数据沿袭报告
googlecloudplatform
googleclouddataproc
datalineage
使用 Dataproc 在 Zeppelin 上加载插件 GitHubNotebookRepo 和 GCSNotebookRepo 时出现问题
我尝试将笔记本保存在 GCS 和 GitHub 上 但没有成功 我有以下错误 INFO 2020 07 23 19 54 59 790 qtp684874119 16 PluginManager java loadNotebookRepo
googlecloudplatform
apachezeppelin
googleclouddataproc
Google Dataproc 初始化脚本错误找不到文件
我正在使用 Google Dataproc 来初始化 Jupyter 集群 起初 我使用了 github 中提供的 dataproc initialization actions 它的工作方式非常神奇 这是文档中提供的创建集群调用 gclo
shell
googleclouddataproc
应用 pyspark ALS 的“recommendProductsForUsers”时出现 StackOverflow 错误(尽管可用 >300GB RAM 的集群)
寻找专业知识来指导我解决以下问题 背景 我正在尝试使用受启发的基本 PySpark 脚本这 例子 https github com GoogleCloudPlatform spark recommendation engine blob m
如何在云监控/stackdriver中按状态显示总dataproc作业?
Dataproc 作业中应该有成功 失败 待处理状态 当然我可以在 Cloud Console 上 Dataproc 下的作业部分中看到该状态 但是 如何在云监控 stackdriver 中可视化所有这些状态 已经尝试过记分卡图表并使用指标
Spark 2.x 的 Spark.sql.crossJoin.enabled
我正在使用 预览 Google DataProc Image 1 1 和 Spark 2 0 0 为了完成我的一项操作 我必须完成笛卡尔积 从2 0 0版本开始 创建了一个spark配置参数 spark sql cross Join ena
apachespark
googleclouddataproc
由于 GCS 中无法重命名错误,Spark Dataproc 作业失败
我有一个 Spark 作业 由于以下错误而失败 org apache spark SparkException Job aborted due to stage failure Task 0 in stage 34338 0 failed
apachespark
googlecloudplatform
googlecloudstorage
googleclouddataproc
1
2
3
»