当我使用“STORED AS AVRO”子句创建 Hive 表时，Avro 架构存储在哪里？

2024-03-09

至少有两种不同的方法来创建由 Avro 数据支持的 Hive 表：

基于 Avro 模式创建表（在本例中，存储在 hdfs 中）：

创建表 users_from_avro_schema 行格式 SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' 存储为输入格式“org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat” 输出格式 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat' TBLPROPERTIES('avro.schema.url'='hdfs:///user/root/avro/schema/user.avsc');
通过显式指定 hive 列来创建表STORED AS AVRO clause:

创建表 users_stored_as_avro( id 整数，名称 STRING ) 存储为 AVRO；

我是否正确，在第一种情况下的元数据users_from_avro_schema表不存储在 Hive Metastore 中，而是从读取 avro 模式文件的 SERDE 类推断出来？或者表元数据可能存储在 Metastore 中，在创建表时添加，但是将 hive 元数据与 Avro 模式同步的策略是什么？我的意思是两种情况：

更新表元数据（添加/删除列）和
通过更改更新 Avro 架构avro.schema.url财产。

在第二种情况下，当我打电话时DESCRIBE FORMATTED users_stored_as_avro没有avro.schema.*属性定义，所以我不知道哪个 Avro 模式用于读取/写入数据。它是根据存储在 Metastore 中的表元数据动态生成的吗？

This 《Programming Hive》一书讨论了从 SerDe 类推断有关列的信息，但另一方面HIVE-4703 https://issues.apache.org/jira/browse/HIVE-4703删除这个from deserializer信息表单列评论。如何检查给定表（Metastore 或 Avro 架构）的列类型的来源是什么？

我决定发布对@DuduMarkovitz 给出的答案的补充。

为了使代码示例更加简洁，让我们澄清一下STORED AS AVRO子句相当于以下三行：

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'

让我们看看当我们创建一个表来引用存储在 hdfs 中的 avro 模式时会发生什么。这是架构：

{
  "namespace": "io.sqooba",
  "name": "user",
  "type": "record",
  "fields": [
    {"name": "id", "type": "int"},
    {"name": "name", "type": "string"}
  ]
}

我们使用以下命令创建表：

CREATE TABLE users_from_avro_schema
STORED AS AVRO
TBLPROPERTIES ('avro.schema.url'='hdfs:///user/tulinski/user.avsc');

Hive 已正确推断模式，我们可以通过调用以下命令来查看：

hive> DESCRIBE users_from_avro_schema;
OK
id                      int
name                    string

Hive Metastore 向我们展示了相同的结果（我使用 @DuduMarkovitz 的查询）：

+------------------------+-------------+-------------+-----------+
| tbl_name               | column_name | integer_idx | type_name |
+------------------------+-------------+-------------+-----------+
| users_from_avro_schema | id          |           0 | int       |
| users_from_avro_schema | name        |           1 | string    |
+------------------------+-------------+-------------+-----------+

到目前为止，一切都很好，一切都按我们的预期进行。但让我们看看更新后会发生什么avro.schema.url属性指向我们架构的下一个版本（users_v2.avsc），如下所示：

{
  "namespace": "io.sqooba",
  "name": "user",
  "type": "record",
  "fields": [
    {"name": "id", "type": "int"},
    {"name": "name", "type": "string"},
    {"name": "email", "type": ["null", "string"], "default":null}
  ]
}

我们只是添加了另一个名为电子邮件的字段。
现在我们更新指向 hdfs 中 avro 模式的表属性：

ALTER TABLE users_from_avro_schema SET TBLPROPERTIES('avro.schema.url'='hdfs:///user/tulinski/user_v2.avsc');

表元数据是否已更改？

hive> DESCRIBE users_from_avro_schema;
OK
id                      int
name                    string
email                   string

是啊，酷！但是您是否期望 Hive Metastore 包含这个附加列？
不幸的是，Metastore 中没有任何变化:

+------------------------+-------------+-------------+-----------+
| tbl_name               | column_name | integer_idx | type_name |
+------------------------+-------------+-------------+-----------+
| users_from_avro_schema | id          |           0 | int       |
| users_from_avro_schema | name        |           1 | string    |
+------------------------+-------------+-------------+-----------+

我怀疑 Hive 有以下推断模式的策略：它尝试从为给定表指定的 SerDe 类获取它。当 SerDe 无法提供架构时，Hive 会查找元存储。
让我们通过删除来检查avro.schema.url财产：

hive> ALTER TABLE users_from_avro_schema UNSET TBLPROPERTIES ('avro.schema.url');
OK
Time taken: 0.33 seconds
hive> DESCRIBE users_from_avro_schema;
OK
id                      int
name                    string
Time taken: 0.363 seconds, Fetched: 2 row(s)

描述向我们展示存储在 Metastore 中的数据。让我们通过添加一列来修改它们：

ALTER TABLE users_from_avro_schema ADD COLUMNS (phone string);

它当然会改变 Hive Metastore：

+------------------------+-------------+-------------+-----------+
| tbl_name               | column_name | integer_idx | type_name |
+------------------------+-------------+-------------+-----------+
| users_from_avro_schema | id          |           0 | int       |
| users_from_avro_schema | name        |           1 | string    |
| users_from_avro_schema | phone       |           2 | string    |
+------------------------+-------------+-------------+-----------+

但是当我们设置avro.schema.url再次回到user_v2.avscHive Metastore 中的内容不再重要：

hive> ALTER TABLE users_from_avro_schema SET TBLPROPERTIES('avro.schema.url'='hdfs:///user/tulinski/user_v2.avsc');
OK
Time taken: 0.268 seconds
hive> DESCRIBE users_from_avro_schema;
OK
id                      int
name                    string
email                   string

Avro 架构优先于 Metastore。

上面的示例表明，我们应该避免将 Hive 模式更改与 avro 模式演变混合在一起，因为否则我们很容易陷入 Hive Metastore 与读写数据时使用的实际模式之间的混乱和不一致。当我们通过更新来更改 avro 架构定义时，就会出现第一个不一致的情况avro.schema.url属性，但如果我们了解 Hive 推断模式的策略，我们就可以接受这一点。我还没有检查 Hive 的源代码，我对模式逻辑的怀疑是否正确，但上面的示例让我确信下面发生的事情。

我扩展了我的答案，以表明即使 Avro 模式和符合 Avro 模式的 Hive Metastore 数据之间存在冲突，也可以读取。请再看一下我上面的例子。我们的表定义指向具有三个字段的 avro 模式：

id    int
name  string
email string

而在 Hive Metastore 中有以下列：

id    int
name  string
phone string

电子邮件与电话
让我们创建一个包含符合以下条件的单个用户记录的 avro 文件user_v2.avsc架构。这是它的 json 表示形式：

{
  "id": 123,
  "name": "Tomek",
  "email": {"string": "tomek@tomek"}
}

要创建 avro 文件，我们调用：

java -jar avro-tools-1.8.2.jar fromjson --schema-file user_v2.avsc user_tomek_v2.json > user_tomek_v2.avro

尽管 Hive Metastore 不包含，我们仍然能够查询我们的表email列，它包含phone列代替：

hive> set hive.cli.print.header=true;
hive> select * from users_from_avro_schema;
OK
users_from_avro_schema.id   users_from_avro_schema.name users_from_avro_schema.email
123 Tomek   tomek@tomek

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

当我使用“STORED AS AVRO”子句创建 Hive 表时，Avro 架构存储在哪里？的相关文章

DB 中的 Twitter 名称长度

我正在向成员表添加一个字段用于存储网站上成员的 Twitter 名称据我所知 twitter 名称的最大长度为 20 因此显然我应该将字段大小设置为 varchar 20 SQL Server 这是一个好主意吗如果 Twitter 开
如何在 ORC 分区 Hive 表的中间添加一列，并且仍然能够使用新结构查询旧分区文件

目前我在 Prod 中有一个分区 ORC 托管错误地创建为内部优先 Hive 表其中至少有 100 天的数据按年月日约 16GB 数据分区这个表大约有160列现在我的要求是在这个表的中间添加一列并且仍然能够查询旧数据
Hive 分区表上的 Spark 行为

我用的是 Spark 2 实际上我不是执行查询的人所以我不能包含查询计划数据科学团队问过我这个问题我们将 Hive 表划分为 2000 个分区并以 parquet 格式存储当在 Spark 中使用相应的表时执行器之间恰好执行了 2
hive中每行的百分比计算

我在配置单元中有一个具有以下架构的表差值 int 计数值 int 值为 5 2 30 1 90 1 100 1 现在我想找到每个 count value 与 count value 总和的百分比每行的值类似于 count value s
用于存储用户位置历史记录的 MongoDB 架构

我想使用 MongoDB 来存储我的用户位置历史记录当然要征得他们的同意我看到以下三个选项为所有用户创建一个位置集合每个文档都有一个 userId 字段和一个时间字段这两个字段都将被索引该集合中的行数可能会增长到超过 1 亿行
在 Hive 中获取空值使用 REGEX 创建和加载查询

我有一个日志文件我需要在其中使用 REGEX 存储数据我尝试了下面的查询但加载了所有 NULL 值我已经检查了 REGEXhttp www regexr com http www regexr com 它对我的数据工作正常 CRE
http://axschema.org 和 http://schemas.openid.net 的可用属性列表

我已经进行了高低远广的搜索但在互联网上找不到任何列出这些模式的可用属性的内容有谁知道这些的文档在哪里到目前为止我所知道的 http axschema org namePerson first http axschema org
Hive - 通过聚合跨组的值来创建映射列类型

我有一个看起来像这样的表 customer category room date 1 A aa d1 1 A bb d2 1 B cc d3 1 C aa d1 1 C bb d2 2 A aa d3 2 A bb d4 2 C bb d4
连接到 Hive 时使用 Spark 进行 Kinit

我正在尝试从独立的 Spark 连接到 Hive hadoop 集群具有 kerberos 身份验证有人可以让我知道如何在 Spark 程序中执行 kinit 我可以连接到配置单元吗更新我的 Spark 与 Hadoop 位于不同的集
Hive中group by后是否可以连接字符串字段

我正在评估 Hive 需要在 group by 之后进行一些字符串字段连接我找到了一个名为 concat ws 的函数但看起来我必须显式列出所有要连接的值我想知道是否可以在 Hive 中使用 concat ws 做这样的事情这是一个
用户模式中默认创建的表

在 Sql Server 2008 中当我创建没有架构前缀的表时 create table mytable id int identify 它通常最终出现在模式 dbo 中名称为 dbo mytable 然而在我们的一台服务器上该表
hive查询无法通过jdbc生成结果集

我是 Hive 和 Hadoop 的新手在我的教程中我想将表创建为 import java sql SQLException import java sql Connection import java sql ResultSet im
将图像文件存储在猫鼬模式的二进制数据中并以html形式显示图像

我正在使用 Express Node js 和 Mongodb 创建上传和显示图像文件的网页我使用 schema 将图像的二进制文件保存在 mongodb 中这是我在index js和db js中的一点代码 var Post mongo
通过 hive 访问 maxmind 的 GeoIP-country.mmdb 数据库时出现异常

我有一个自定义 Hive UDF 来访问 MaxmindGeoIP 国家 mmdb通过 add file pqr mmdb 添加到 Hive 资源的数据库编译好的 UDF 添加为 add jar abc jar 当我运行 hive 查询时
kafka Avro 多个主题的消息反序列化器

我正在尝试以 avro 格式反序列化 kafka 消息我使用以下代码 https github com ivangfr springboot kafka debezium ksql blob master kafka research c
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
如何在Oracle数据库11g中创建新模式/新用户？

我已经申请了一家公司的实习机会作为一个问题他们要求我为他们的公司创建一个具有一定要求的架构并将DDL文件我已经安装了 Oracle 数据库 11g Express 版本但如何在 Oracle 数据库 11g 中创建新架构我在网上
在 HIVE 中，使用 COALESCE 将 Null 值替换为相同的列值

我想用同一列中的值替换特定列的空值我想得到结果我在下面尝试过 select d day COALESCE val LAST VALUE val TRUE OVER ORDER BY d day ROWS BETWEEN UNBOUNDED
为 Presto 和 AWS S3 设置独立 Hive Metastore 服务

我工作的环境中使用 S3 服务作为数据湖但没有 AWS Athena 我正在尝试设置 Presto 以便能够查询 S3 中的数据并且我知道我需要通过 Hive Metastore 服务将数据结构定义为 Hive 表我正在 Docker

随机推荐

如何在c#中的gecko webbrowser控件中隐藏滚动条

我正在尝试隐藏 GeckoFx WebBrowser 控件的滚动条在 Windows 窗体中有隐藏滚动条的方法 webBrowser1 ScrollBarsEnabled false 但在 GeckoFx Webbrowser 中没有这样
在 C# 中使用目标配置时不允许 SAP 硬编码登录参数

当我尝试动态连接到 SAP 服务器时我收到如下错误使用目标配置时不允许使用硬编码登录参数任何人请帮助我我需要从代码隐藏动态发送所有参数而不是从 Web config 从 web config 工作正常但不在这里我的代码是这样的
可以阻止 Uncrustify 修改代码的某些部分吗？

Uncrustify 很棒并且在整理代码方面做得非常出色但是我不想让 Uncrustify 更改文件中的一些 C 代码有什么方法可以阻止 Uncrustify 触及这个问题也许可以通过在代码周围的注释中添加特定标签或其他方式 IN
Postgres 中未终止的 CSV 引用字段

我正在尝试使用复制命令将一些数据插入到我的表中 copy otype cstore from tmp otype fdw csv delimiter quote csv 我有这个答案 ERROR unterminated CSV quote
如何从框架中获取页面实例？

我有一个在 xaml 中初始化的框架如下所示
Foundation Objective-c：带数组的字典；字典与字典

假设我有一个 NSDictionary 其中包含 NSArray 和 NSDictionary 的两个子集合 NSMutableDictionary mkDict void NSMutableDictionary dict NSMutabl
在文本区域中的光标位置显示 DIV [重复]

这个问题在这里已经有答案了对于我的一个项目我很乐意为特定文本区域提供自动完成功能类似于智能感知全能的工作原理然而为此我必须找出绝对光标位置以便我知道 DIV 应该出现在哪里事实证明我几乎希望这是不可能实现的有人有一些解
使用 startAfter 进行 Flutter Firestore 查询

我正在使用 Flutter cloud firestore 并尝试在带有标题的文档之后从 Firestore 获取数据 xxx 但它返回 0 个结果 return Firestore instance collection products
加载过程为 TFrame 的后代执行两次

我已经注册为组件aTFrame的后代类我注意到Loaded过程执行两次 Runtime TMyFrame class TFrame private protected procedure Loaded override public co
如何使用 Python 3.x 获取网站的 IP 地址？

我有一个代表域名的字符串如何使用Python 3 x获取对应的IP地址像这样的东西 gt gt gt get ip http www stackoverflow com 64 34 119 12 gt gt gt import sock
Rails 3 新功能，带有 json 响应的 ajax 请求

我有一个名为 CourseRequests 的控制器它将接受新方法的 ajax 请求由于它将使用 json 进行响应我应该使用 course requests new json 吗我不想为如此愚蠢的 json 响应制作模板我该
解析其他命名集的多个命名集

所以我想用 boost spirit qi 编写一个好吧不那么简单的解析器我知道Boost Spirit的基本知识在过去的几个小时里我第一次熟悉了它基本上我需要解析这个 comment other comment set Myse
如何在提交之间移动部分更改（块）？

如果我有两个提交它们之间的距离有很多提交并且两个提交中都提交了许多文件那么最好如何将一个块从一个提交移动到另一个提交例如在提交 100 中我有很多文件更改文件 as txt 中有很多更改还有这个 aaaa bbbb cccc
Maven：包 io.swagger.annotations 不存在

我想大肆地记录我的项目我向我的项目添加了 swagger 注释和 io springfox 依赖项但是当我运行时mvn clean package我有很多错误 PS D parent project gt mvn clean packa
在 Angular 中对组件进行单元测试时检查局部变量会出现错误

假设有 2 个组件 AppComponent 和 TestComponent 我正在 AppComponent 的 HTML 模板中使用它的指令来调用 TestComponent 现在 TestComponent 有一个 Input 属性
使用 Javascript/KendoUI 自动完成渲染数据时出错 - 对象 #
没有方法“切片” - 如何解决？
我正在关注将 Kendo UI 与 MVC4 WebAPI OData 和 EF 结合使用 http www kendoui com blogs teamblog posts 12 10 25 using kendo ui with mvc

mysqldb python 转义？还是%s？

我目前正在使用mysqldb 在 mysqldb 参数中转义字符串的正确方法是什么注意E lambda x x encode utf 8 1 所以我的连接设置为 charset utf8 这些是我在这些参数中遇到的错误 w1 w2 u 你

Prometheus 按标签子字符串分组

我正在尝试解决在 Prometheus 中按指标进行查询求和和分组的问题其中分配给指标值的标签对于我的求和和分组要求是唯一的我有 ElasticSearch 索引的度量采样大小其中索引名称标记在度量上索引的命名如下并放置在标签 i

模板类的重载运算符<< [重复]

这个问题在这里已经有答案了我正在尝试实现一种返回流的二叉树方法我想使用方法返回的流在屏幕中显示树或将树保存在文件中这两个方法都属于二叉树类声明 void streamIND ostream const BinaryTree

当我使用“STORED AS AVRO”子句创建 Hive 表时，Avro 架构存储在哪里？

至少有两种不同的方法来创建由 Avro 数据支持的 Hive 表基于 Avro 模式创建表在本例中存储在 hdfs 中创建表 users from avro schema 行格式 SERDE org apache hadoop hi
热门标签

课程试题

操作系统大全

服务器怎么安装软件

推流测试

下推流软件

飞控小车倒车

boringssl

没声音问题

WMV

访问网站文件夹的细节

访问服务器文件夹

防火墙在哪

ndows10

需要什么

仿真时遇到的问题

week33

fadora

怎么跳出或终止

arucoTag

鉴权和权限控制

从零开始理解

蓝牙强度

语言编辑
Powered by Hwhale

当我使用“STORED AS AVRO”子句创建 Hive 表时，Avro 架构存储在哪里？

当我使用“STORED AS AVRO”子句创建 Hive 表时，Avro 架构存储在哪里？ 的相关文章

随机推荐

热门标签

当我使用“STORED AS AVRO”子句创建 Hive 表时，Avro 架构存储在哪里？的相关文章