当查询表时,SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据。执行 INSERT 或 CTAS 时(请参阅第 441 页上的“导入数据”),表的 SerDe 将将 Hive 的一行数据的内部表示序列化为写入输出文件的字节.
- 是serDe库吗?
- Hive 如何存储数据,即存储在文件或表中?
- 请问谁能清楚地解释一下粗体句子吗?
我是蜂巢新手!!
Answers
- 是的,SerDe 是一个内置于 Hadoop API 的库
- Hive 使用 HDFS 等文件系统或任何其他存储 (FTP) 来存储数据,这里的数据采用表的形式(有行和列)。
- SerDe - 序列化器、反序列化器指示 hive 如何处理记录(行)。 Hive 还可以处理半结构化(XML、电子邮件等)或非结构化记录(音频、视频等)。例如,如果您有 1000 GB 的 RSS 源 (RSS XML)。您可以将它们提取到 HDFS 中的某个位置。您需要根据 XML 结构编写自定义 SerDe,以便 Hive 知道如何将 XML 文件加载到 Hive 表或其他方式。
有关如何编写 SerDe 的更多信息,请阅读此内容post http://blog.cloudera.com/blog/2012/12/how-to-use-a-serde-in-apache-hive/
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)