在 Datalab 中查询 Hive 表时出现问题

2024-01-06

我已经创建了一个 dataproc 集群，其中包含更新的 init 操作来安装 datalab。

一切正常，除了当我从 Datalab 笔记本查询 Hive 表时，我遇到了

hc.sql(“””select * from invoices limit 10”””)

"java.lang.ClassNotFoundException: Class com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem not found" exception

创建集群

gcloud beta dataproc clusters create ds-cluster \
--project my-exercise-project \
--region us-west1 \
--zone us-west1-b \
--bucket dataproc-datalab \
--scopes cloud-platform  \
--num-workers 2  \
--enable-component-gateway  \
--initialization-actions gs://dataproc_mybucket/datalab-updated.sh,gs://dataproc-initialization-actions/connectors/connectors.sh  \
--metadata 'CONDA_PACKAGES="python==3.5"'  \
--metadata gcs-connector-version=1.9.11

数据实验室更新.sh

  -v "${DATALAB_DIR}:/content/datalab" ${VOLUME_FLAGS} datalab-pyspark; then
    mkdir -p ${HOME}/datalab
    gcloud source repos clone datalab-notebooks ${HOME}/datalab/notebooks

在数据实验室笔记本中

from pyspark.sql import HiveContext
hc=HiveContext(sc)
hc.sql("""show tables in default""").show()
hc.sql(“””CREATE EXTERNAL TABLE IF NOT EXISTS INVOICES
      (SubmissionDate DATE, TransactionAmount DOUBLE, TransactionType STRING)
      STORED AS PARQUET
      LOCATION 'gs://my-exercise-project-ds-team/datasets/invoices’”””)
hc.sql(“””select * from invoices limit 10”””)

UPDATE

spark._jsc.hadoopConfiguration().set('fs.gs.impl', 'com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem')
spark._jsc.hadoopConfiguration().set('fs.gs.auth.service.account.enable', 'true')
spark._jsc.hadoopConfiguration().set('google.cloud.auth.service.account.json.keyfile', "~/Downloads/my-exercise-project-f47054fc6fd8.json")

更新2（datalab-updated.sh）

function run_datalab(){
  if docker run -d --restart always --net=host  \
      -v "${DATALAB_DIR}:/content/datalab" ${VOLUME_FLAGS} datalab-pyspark; then
    mkdir -p ${HOME}/datalab
    gcloud source repos clone datalab-notebooks ${HOME}/datalab/notebooks
    echo 'Cloud Datalab Jupyter server successfully deployed.'
  else
    err 'Failed to run Cloud Datalab'
  fi
}

你应该使用Datalab初始化操作 https://github.com/GoogleCloudPlatform/dataproc-initialization-actions/tree/master/datalab在 Dataproc 集群上安装 Datalab：

gcloud dataproc clusters create ${CLUSTER} \
    --image-version=1.3 \
    --scopes cloud-platform \
    --initialization-actions=gs://dataproc-initialization-actions/datalab/datalab.sh

此 Hive 在 Datalab 中与 GCS 一起使用后：

from pyspark.sql import HiveContext
hc=HiveContext(sc)
hc.sql("""SHOW TABLES IN default""").show()

Output:

+--------+---------+-----------+
|database|tableName|isTemporary|
+--------+---------+-----------+
+--------+---------+-----------+

在 Datalab 中使用 Hive 在 GCS 上创建外部表：

hc.sql("""CREATE EXTERNAL TABLE IF NOT EXISTS INVOICES
      (SubmissionDate DATE, TransactionAmount DOUBLE, TransactionType STRING)
      STORED AS PARQUET
      LOCATION 'gs://<BUCKET>/datasets/invoices'""")

Output:

DataFrame[]

在Datalab中使用Hive查询GCS表：

hc.sql("""SELECT * FROM invoices LIMIT 10""")

Output:

DataFrame[SubmissionDate: date, TransactionAmount: double, TransactionType: string]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

hive

googleclouddataproc

googleclouddatalab

在 Datalab 中查询 Hive 表时出现问题的相关文章

在 HIVE 中查找函数

我想检查一个字段是否包含字符串我想要一个如下所示的函数 FIND string to find field to search 我的数据如下所示 field to search no match in this string record
Presto/Athena 中嵌套日期分区的比较查询

我将 parquet 数据存储在 S3 上以 Hive 理解的格式进行分区 s3
如果没有可用的指定分区路径，SPARK SQL 会失败

我在 EMR 中使用 Hive Metastore 我可以通过 HiveSQL 手动查询表但是当我在 Spark Job 中使用同一个表时它说输入路径不存在 s3 导致 org apache hadoop mapred InvalidI
如何根据“^P”分隔符分隔的数据构建 Hive 表

我的查询是 CREATE EXTERNAL TABLE gateway staging poll int total int transaction id int create time timestamp update time time
如何获取hive中的数据库用户名和密码

正在编写jdbc程序来连接hive数据库我希望在连接 url 中提供用户名和密码我不知道如何使用 hive QL 获取用户名和密码有人可以帮我吗 Exception in thread main java sql SQLNonTran
Spark SQL 未正确转换时区[重复]

这个问题在这里已经有答案了使用 Scala 2 10 4 和 Spark 1 5 1 和 Spark 1 6 sqlContext sql select id to date from utc timestamp from unixtim
HIVE：GROUP BY 的行为与 MySQL 中不同

我对 MySQL 有一些经验最近我必须在 HIVE 上做一些工作两者之间的查询基本结构非常相似但是 HIVE 中的 GROUP BY 的工作方式似乎有点不同因此我无法实现以前在 MySQL 中使用 GROUP BY 可以实现的目标
我可以将格式和路径选项传递到spark_write_table中吗？或者将 saveAsTable 与 Spark_write_orc 一起使用？

Spark 2 0 与 Hive 假设我正在尝试编写一个 Spark 数据框 irisDf to orc and将其保存到 hive 元存储在 Spark 中我会这样做 irisDf write format orc mode overw
Hive如何存储数据，什么是SerDe？

当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据执行 INSERT 或 CTAS 时请参阅第 441 页上的导入数据表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
Spark JDBC 仅返回带有列名的数据帧

我正在尝试使用 Spark JDBC 连接到 HiveTable 代码如下 val df spark read format jdbc option driver org apache hive jdbc HiveDriver option
hive查询无法通过jdbc生成结果集

我是 Hive 和 Hadoop 的新手在我的教程中我想将表创建为 import java sql SQLException import java sql Connection import java sql ResultSet im
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
通过 hive 访问 maxmind 的 GeoIP-country.mmdb 数据库时出现异常

我有一个自定义 Hive UDF 来访问 MaxmindGeoIP 国家 mmdb通过 add file pqr mmdb 添加到 Hive 资源的数据库编译好的 UDF 添加为 add jar abc jar 当我运行 hive 查询时
当气流 initdb 时，导入错误：无法导入名称 HiveOperator

我最近安装了airflow对于我的工作流程在创建项目时我执行了以下命令 airflow initdb 返回以下错误 2016 08 15 11 17 00 314 init py 36 INFO Using executor Seque
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
在 HIVE 中，使用 COALESCE 将 Null 值替换为相同的列值

我想用同一列中的值替换特定列的空值我想得到结果我在下面尝试过 select d day COALESCE val LAST VALUE val TRUE OVER ORDER BY d day ROWS BETWEEN UNBOUNDED
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS

随机推荐

暂时修复后恢复随机种子的最佳方法是什么？

这是取消种子随机数生成器的唯一方法吗 np random seed int time time 如果您希望在循环中重复某些代码例如测试而其他代码希望每个循环都是随机的那么在设置种子后如何将种子重置为随机数生成器下面的代码说明
TensorFlow 和 Keras 的相同实现之间的不同行为

我的机器上有 TensorFlow 1 9 和 Keras 2 0 8 当使用一些玩具数据训练神经网络时 TensorFlow 和 Keras 之间产生的训练曲线非常不同我不明白为什么对于 Keras 实现网络学习得很好损失持续减少
类型错误 float 不可调用。我试图弄清楚为什么我的 elif 语句不可调用[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions from
如何使用 GORM 创建复合主键？

我有三个领域类 Beer Review 和 Reviewer 我希望 Review 表在 Beer 和 Reviewer 之间创建多对多关系因此我希望 Review 的主键是 Beer 和 Reviewer 的 id 字段的组合我正在关
结合 geojson 和 json 制作传单

我有一张带有 GeoJson 图层的 Leaflet 地图 var objJson https raw githubusercontent com salucci Leaflet Teste master BrasilNovo json g
如何替换已弃用的 android.support.v4.app.ActionBarDrawerToggle

昨天 17 10 2014 我更新了 Android SDK 并support library v4 jar我的应用程序现在我收到与以下内容相关的弃用警告ActionBarDrawerToggle 阅读文档 https developer
什么时候使用vtable？

vtable 仅用于虚拟函数查找还是也用于普通成员函数查找从技术上讲这是一个实现细节 C 标准没有提及 vtable 或 vptr 但通常情况下编译器只会在多态意义上即通过指向基类的指针引用调用成员函数时才会选择使用 vtab
加快 Firebase 存储下载速度

我正在尝试从 Firebase 存储中提取视频并将其放入我的 Android 应用程序上的幻灯片中但视频需要很长时间才能加载有谁有任何替代方案或方法来加快数据下载速度您可以将文件存储在区域存储中例如 us east1 请参阅http
如何仅显示一页以上的报表的第 x 页（共 y 页）

我正在使用 jasper reports 4 5 0 我正在使用这个碧玉生成不同格式的报告我想在我的报告中显示第 X 页共 Y 页所以我使用 iReport 提供的页码文本字段该字段在调色板中可用它显示所有报告中的页码甚至是单页
从更新站点下载 eclipse 插件的工具

我需要在未连接到 Internet 的计算机上安装 eclipse 插件但找不到用于本地安装的 dist 是否有一个工具可以从更新站点下载插件并创建本地安装存档或本地更新站点有传言说你可以用 eclipse 来做到这一点但我找不到任
如何更改 UITextField 上清除按钮的色调颜色

我的 UITextfield 上有一个自动生成的清除按钮具有默认的蓝色色调我无法将色调颜色更改为白色我尝试修改故事板和代码但没有成功并且我不想使用自定义图像如何在不使用自定义图像的情况下更改默认的透明按钮色调颜色干得好 Tint
HTML.fromHTML - Android 中的 TagHandler

我有一个 TextView 我想将 HTML 设置为 HTML fromHTML 但我想过滤掉所有 img 带有标签处理程序的标签我想将所有链接 src 保存在列表数组中那可能吗 Thanks 是的这是可能的您可以使用jsoup h
如何确定电子邮件地址是 Microsoft“工作或学校”帐户还是 Microsoft 帐户

我想在 Azure 多租户环境中对 Microsoft 帐户和工作或学校帐户进行身份验证每种身份验证类型需要不同的请求如果我尝试针对工作或学校请求以 Microsoft 帐户身份登录则登录将在 Microsoft 登录时失败
在 api 27、28、29 中混淆应用程序时，工作管理器不会运行

我有一个每 15 分钟运行一次的定期任务当混淆应用程序时如果应用程序从后台被终止工作管理器将不起作用测试设备一加7T 诺基亚5 Google Pixel 2模拟器仅当应用程序位于前台或后台时工作管理器才会执行禁用 progu
如何在混合（C#/C++）调试中设置数据断点？

我用 C 启动程序然后调用一些非托管 C 当我在非托管 C 中中断一行时新数据断点菜单项呈灰色有没有办法解决所以要做到这一点我必须将非托管dll设置为启动项目将托管程序设置为启动命令将调试模式设置为Native 中断执行或
使用有关 WooCommerce 用户创建的生成密码发送电子邮件通知

在 WooCommerce 中使用下面的代码我创建新的 WP User 其中随机密码并将用户角色设置为客户我想在购买时自动创建帐户然后我用WC Emails将登录详细信息发送给买家在这种情况下我需要纯密码但我真的不知道为什么附
如何锁定 SVN 主干（除了来自分支的合并）？

我想阻止开发人员直接在主干上工作我的目标是强制所有开发人员离开主干并在自己的分支上工作直到 CI 测试通过然后他们必须从主干合并到分支以获取最新更改运行并通过测试然后再合并回主干这种 SVN 使用方式有什么规则吗限制主干提
“grep”命令的退出状态代码

The grep http linux die net man 1 grep手动在退出状态部分报告 EXIT STATUS The exit status is 0 if selected lines are found and 1 if
CTE 的意外结果

我创建了一个使用多个 CTE 的复杂流程主要用于递归分层工作在小样本数据集上一切都按预期进行但是当我将代码应用于大数据集时我收到了意外且错误的结果我想我已经将范围缩小到了 CTE 递归 CTE 是在几个早期 CTE 中处理的
在 Datalab 中查询 Hive 表时出现问题

我已经创建了一个 dataproc 集群其中包含更新的 init 操作来安装 datalab 一切正常除了当我从 Datalab 笔记本查询 Hive 表时我遇到了 hc sql select from invoices limit

在 Datalab 中查询 Hive 表时出现问题

创建集群

数据实验室更新.sh

在数据实验室笔记本中

更新2（datalab-updated.sh）

在 Datalab 中查询 Hive 表时出现问题 的相关文章

随机推荐

热门标签

在 Datalab 中查询 Hive 表时出现问题的相关文章