Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
《数据仓库与数据挖掘》期末复习总结
数据仓库与数据挖掘 期末复习总结 适用教材 数据挖掘概念与技术 第3版 Jiawei Han Mieheline Kamber Jian Pei著 机械工业出版社 提示 与教材内容不完全匹配 有所取舍 写在前面 这份复习总结是笔者根据老师授
复习笔记
数据仓库
数据挖掘
笔记
学习
企业治理实战-经验分享
该文章已同步到语雀公开知识库 大数据技术架构手册 1 中 公众号后台回复 小程序注册码 可免费查看面试题小程序 前言 作为一名数据人 常常自嘲为SQL Boy 某天突然发现原来SQL boy还有一些更高级的工作内容 数据治理 这两年也有很多
大数据
数据仓库
经验分享
big data
Java
数仓分层、设计、建模、架构
一 数仓分层误区 数仓层内部的划分不是为了分层而分层 分层是为了解决 ETL 任务及工作流的组织 数据的流向 读写权限的控制 不同需求的满足等各类问题 业界较为通行的做法将整个数仓层又划分成了 DWD DWT DWS DIM DM等很多层
实时数仓
数据仓库
数据挖掘
数据库
ETL学习心得:探求数据仓库关键环节ETL的本质
原文链接 http hi baidu com horsewhite blog item b167f81f6924ef0a304e15a0 html 做数据仓库系统 ETL是关键的一环 说大了 ETL是数据整合解决方案 说小了 就是倒数据的工
数据仓库
工具
语言
工作
框架
通过hive元数据查询hive指定库和表的总条数
一 整库下 总条数 1 指定库的表总数 查看ods层的总表数 select count TBL NAME from TBLS t left join DBS d on t DB ID d DB ID where d NAME like od
hive
Hadoop
数据仓库
Hive基础调优详解
本文基本涵盖以下内容 一 基于Hadoop的数据仓库Hive基础知识 二 HiveSQL语法 三 Hive性能优化 四 Hive性能优化之数据倾斜专题 五 HiveSQL优化十二板斧 六 Hive面试题 一 七 Hive Hadoop高频面
数据仓库
大数据
hive
Hive基础调优详解
告别宽表,用 DQL 成就新一代 BI
BI商业智能这个概念已经提出好几十年了 这个概念本身比较宽泛 不同人也有不同的理解和定义 但落实到技术环节 特别是面向业务用户的环节 所称的BI 基本就是指的多维分析或者自助报表 不管是叫自助报表还是多维分析 也都是一回事 都是让用户自己去
软件资讯amp干货资源
数据仓库
数据分析
数据挖掘
Java
Hive 基于Tez引擎 map和reduce数的参数控制原理与调优经验
1 概述 主要对基于Tez的map数和reduce数测试与调优 如果需要查看基于MapReduce的调优可以看这篇 Hive 基于MapReduce引擎 map和reduce数的参数控制原理与调优经验https blog csdn net
hive
大数据
数据仓库
Tez
Hive调优
数据仓库——分层原理
目录 一 什么是数据仓库 二 数仓建模的意义 为什么要对数据仓库分层 三 ETL 四 技术架构 五 数仓分层架构 数仓逻辑分层 1 数据引入层 ODS Operational Data Store 又称数据基础层 1 1 数据主要来源 1
数据仓库
数据库
大数据
GBase 8a视频配套联系
1 以下关于粗粒度智能牵引描述正确的是 A 免维护 自动建立 B 每一列数据都会生成一个粗粒度智能牵引 C 牵引的建立和维护对资源的消耗可以忽略不计 D 记录DC内的最大值 最小值 空值 求和值等 答案ACD 2 GBase 8a集群数据库
数据库
算法
数据仓库
【大数据】美团 DB 数据同步到数据仓库的架构与实践
美团 DB 数据同步到数据仓库的架构与实践 1 背景 2 整体架构 3 Binlog 实时采集 4 离线还原 MySQL 数据 5 Kafka2Hive 6 对 Camus 的二次开发 7 Checkdone 的检测逻辑 8 Merge 9
大数据
数据库
数据仓库
数据同步
数据仓库工程师的职业规划
从2011年3月开始从事数据仓库工作 算起来马上三年了 这三年做过etl工程师 做过模型架构师 做过团队管理 也做过需求分析 数据挖掘 如今又做回etl工程师 只是为了蹲得低点跳的更高 下面谈谈做各个职位的心得 etl工程师 比较简单 技术
数据仓库
储存过程之拉链表
很多做数仓的朋友在面试的时候都会被问到 你写过的最难的存储过程是什么 这时候我们都会想到拉链表 拉链表真的那么难吗 下面我简单介绍一下拉链表作用 以及制作思路 希望可以帮到你 拉链表的作用 数据进行增量或者全量同步时 我们希望保留少数字段历
ETL
数据仓库
链表
大数据电商数据仓库系统搭建 附离线安装包
一 数仓理论 1 数据仓库概念 数据仓库 Data Warehouse 是为企业所有决策制定过程 提供所有系统数据支持的战略集合 通过对数据仓库中数据的分析 可以帮助企业 改进业务流程 控制成本 提高产品质量等 数据仓库 并不是数据的最终目
Hadoop Hive Spark 大数据安全
大数据
数据仓库
Hadoop
Hive 性能调优大全
前言 Hive 作为大数据领域常用的数据仓库组件 在平时设计和查询的时候要特别注意效率 影响 Hive 效率的几乎从不是数据量过大 而是数据倾斜 数据冗余 Job或I O过多 MapReduce 分配不合理等等 对Hive 的调优既包含 H
数据仓库
hive
大数据
Hadoop
数据仓库灵魂30问之传统数仓和大数据数仓的异同?有哪些大的变化?
不同点 特性 传统数仓 大数据数仓 数据存储位置 关系型数据库 HDFS 数据集市位置 MPP平台 HDFS 数据多样性 结构化数据 结构化数据 非结构化数据 半结构化数据 节点数量 几千 几千 几万 数据量 TB级别 PB级别 商业价值
面试题
数据库
数据仓库
大数据
创建SSAS项目
2 3 创建Analysis Services 设计好了结构良好的数据仓库 并且将需要分析的业务数据装载到了数据仓库中之后 就为满足商务决策的全方位需求打下了根基 以后的操作都是基于这些拥有数据的数据仓库进行的 但是 对数据的多维分析却并不
SSAS
数据仓库
数据库
SQL SErver
doris前缀索引、doris bloom filter索引、doris bitmap索引原理及适应场景
索引用于帮助快速过滤或查找数据 目前 Doris 主要支持两类索引 内建的智能索引 包括前缀索引和ZoneMap索引 用户创建的二级索引 包括Bloom Filter索引和Bitmap倒排索引 其中ZoneMap索引是在列存格式上 对每一列
数据仓库
Doris
数据仓库分层设计
文章参考http ierda blog 163 com blog static 77469587201326105956470 https blog csdn net kwu ganymede article details 5136742
数据库
数据仓库
数据仓库分层
Alluxio介绍
Alluxio介绍 Alluxio是什么 Alluxio是世界上第一个用于云分析和人工智能的开源数据编排技术 它弥合了数据驱动应用程序和存储系统之间的鸿沟 使存储层的数据更接近数据驱动应用程序 并使其易于访问 使应用程序能够通过一个通用接口
数据仓库
分布式
大数据
«
1 ...
8
9
10
11
12
13
14
...17
»