Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Hive 窗口函数如何设置窗口大小
select city year taxes sum money over as sample1 所有行相加 sum money over partition by city as sample2 按city分组 组内数据相加 sum mo
面试题
hive
数据仓库灵魂30问之数仓基础理念理解
主题 主题是一个抽象概念 是在较高层次上将数据综合 归类并进行分析利用的抽象 每一个主题都对应一个宏观的分析领域 在实际上 每一个主题对应这个分析领域的所有的分析对象 比如销售主题对应所有和销售这个领域有关的数据 主题域 主题域通常是联系较
面试题
数据仓库
Hive order by,sort by,distribute by,cluster by 区别
假设有一个表a 结构如下 par id c 3 c 7 b 8 b 6 a 1 a 4 a 5 c 9 a 10 b 2 order by 全排序 只会启动一个reduce执行任务 select from a order by id 在hd
面试题
hive
数据仓库工程师面经(未完)
HIVE Hive row number dense rank rank三个函数的区别 Hive 窗口函数如何设置窗口大小 Hive order by sort by distribute by cluster by 区别 Hive map
面试题
数据仓库
数据仓库灵魂30问之如何建设数据中台?一幅图说清中台。
什么是中台 什么是数据中台 数据仓库实现了企业数据模型的构建 大数据平台解决了海量 实时数据的计算和存储问题 数据中台要解决什么呢 数据如何安全的 快速的 最小权限的 且能够溯源的被探测和快速应用的问题 数据中台不应该被过度的承载平台的计算
面试题
数据仓库
大数据
数据中台
数据仓库灵魂30问之传统数仓和大数据数仓的异同?有哪些大的变化?
不同点 特性 传统数仓 大数据数仓 数据存储位置 关系型数据库 HDFS 数据集市位置 MPP平台 HDFS 数据多样性 结构化数据 结构化数据 非结构化数据 半结构化数据 节点数量 几千 几千 几万 数据量 TB级别 PB级别 商业价值
面试题
数据库
数据仓库
大数据
Hive parquet数据格式内部结构
parquet是一个列式存储格式 对于大型查询 指定列查询都是高效的 内部由一个header 四个block 一个footer组成 header中只包含一个4个字节的数字PAR1用来识别整个Parquet文件格式 文件中所有的metadat
面试题
hive
数据仓库灵魂30问之数据仓库、数据中台、数据湖有什么区别
先说结论 数据仓库实行分而治之 面向BI 商业智能 数据中台实行一统天下 面向DateAPI 数据服务API 数据湖实行无为而治 面向AI 人工智能 他们三个实行的策略不同 用途不同 但是数据中台可以包容数据仓库与数据湖 数据湖与数据仓库是
面试题
数据仓库
大数据