数据仓库

率先拿下512节点测试，华为GaussDB表示“很轻松”

近日在中国信息通信研究院和数据中心联盟发起的分布式分析型数据库测试中华为GaussDB分析型数据库率先通过512节点集群规模能力评测与此同时中国某世界级银行也完成了采用华为GaussDB分布式分析型数据库对国外顶级数据仓库产品的完全

云静思园 华为 GaussDB 数据库 数据仓库

10道海量数据处理

1 海量日志数据提取出某日访问百度次数最多的那个IP 此题在我之前的一篇文章算法里头有所提到当时给出的方案是 IP的数目还是有限的最多2 32个所以可以考虑使用hash将ip直接存入内存然后进行统计再详细介绍下此方案首先是这

数据仓库 数据建模 哈希算法 10道海量数据处理 海量数据处理问题

Datart使用说明

Datart使用说明 Datart安装记录 Refer 安装问题前端源码编译 java 程序包datart data provider calcite parser impl不存在启动基础步骤 Datart安装记录 Refer 最近在学

数据仓库 大数据 bi

扫盲系列（4）：数据仓库ETL流程和ETL工具推荐

目录 1 数据抽取 2 数据转换 3 数据加载 4 数据仓库ETL工具推荐结构化数据ETL工具非结构化半结构化数据ETL工具 1 数据抽取数据源是指存储数据的源头包括结构化数据半结构化数据非结构化数据等 1 结构化数据可以采

数据仓库扫盲系列 数据仓库 ETL 数据库 数据分析

【大数据采集技术与应用】【第一章】【大数据采集技术与应用概述】

文章目录 1 1 大数据概述 1 1 1 大数据时代 1 1 2 大数据的概念 1 1 3 大数据的特征 1 1 4 大数据的应用 1 1 5 大数据关键技术 1 1 6 大数据处理流程 1 2 大数据采集技术概述 1 2 1 数据采集与大

过渡专栏 大数据 数据挖掘 数据仓库

Windows中Splinter的安装和使用

核心内容 1 Splinter的简介 2 Splinter的安装 3 检验Splinter是否安装成功 4 Geckodriver驱动的安装 5 Splinter的操作示例一 Splinter的简介 Splinter是一个使用Python

数据仓库 Windows splinter

数据仓库灵魂30问之如何建设数据中台？一幅图说清中台。

什么是中台什么是数据中台数据仓库实现了企业数据模型的构建大数据平台解决了海量实时数据的计算和存储问题数据中台要解决什么呢数据如何安全的快速的最小权限的且能够溯源的被探测和快速应用的问题数据中台不应该被过度的承载平台的计算

面试题 数据仓库 大数据 数据中台

dbeaver 配置mysql数据库驱动

右键点击要数据库连接选择编辑连接然后点击编辑驱动设置从mysql8版本后 mysql的驱动类名发生改变变成了com mysql cj jdbc Driver 所以如果要连接的数据库版本在8之前需将设置界面的类名处改为 c

数据库 数据仓库

维度建模之缓慢渐变维

维度建模之缓慢渐变维在从 OLTP 业务数据库向 DW 数据仓库抽取数据的过程中特别是第一次导入之后的每一次增量抽取往往会遇到这样的问题业务数据库中的一些数据发生了更改到底要不要将这些变化也反映到数据仓库中在数据仓库中哪些数据应

数据仓库

Hive SQL 2023必考常用窗口函数及面试题

一窗口函数概述窗口函数也称为OLAP函数 OLAP 是OnLine Analytical Processing 的简称意思是对数据库数据进行实时分析处理例如市场分析创建财务报表创建计划等日常性商务工作窗口函数就是为了实现OL

数据仓库 hive 大数据 sql

hive - 面试题 - 最近一次购物在一年前（近一年内无购物）

要求有表用户id 订单id 下单日期该用户符合365天内无交易且当日有交易的数据打标签如果当天有多条记录同样打标签思路当前订单时间最近一次的下单时间 gt 365 即最近365天内无订单记录中间有个问题一天内多次下单只

hive Hadoop 数据仓库

阿里云DataWorks开发UDF函数，自定义一周开始时间

今天使用阿里云套件quick bi开发一个报表需求是自定义上周六到本周五为自然周来统计周指标常规日期函数已经不能满足此需求需自定义UDF函数来实现具体解决过程如下知识储备我们知道hive有一个日期转周函数 weekofyear

阿里云 hive Java 数据仓库 大数据

数据仓库主题十-（周期快照事实表）

综述当我们在实际工作过程中涉及到一些指标的计算比如账户余额买卖家星级商品库存卖家累积交易额等计算中则需要聚集与之相关的事务才能进行识别计或者聚集事务无法识别比如温度等对于这些状态度量事务事实表是无效率的而这些度量也和度

数据建模 数据仓库 hive Hadoop

hive数据仓库课后答案

第一章数据仓库的简介一填空题 1 数据仓库的目的是构建面向分析的集成化数据环境 2 Hive是基于 Hadoop 的一个数据仓库工具 3 数据仓库分为3层即源数据层数据应用层和数据仓库层 4 数据仓库层可以细分为明细层

数据仓库 hive 数据库

大数据数据倾斜问题

数据倾斜数据倾斜是我们在处理大数据量问题时绕不过去的问题也是在面试中几乎必问的考点正常的数据分布理论上都是倾斜的就是我们所说的二八原理 80 的财富集中在20 的人手中 80 的用户只使用20 的功能 20 的用户贡献了80 的访

数据仓库 实战 大数据 大数据数据倾斜问题 数据倾斜

【数仓建设系列之四】数据建设通用规范设计

上篇文章我们讲到了数仓建模中几种常见模型优劣势对比以及数仓完整性建设方案相信大家对此已经有了初步的了解本篇文章我们将继续对维度建模中一些通用规范展开讨论一维度模型基本设计规则 1 高内聚低耦合所谓的高内聚低耦合是指同一个主题

数据仓库 数仓建设 大数据 big data

什么是MES生产制造执行系统？实施MES生产管理系统有哪些目标？

一什么是MES生产制造执行管理系统 MES系统通过控制包括物料设备人员流程指令和设施在内的所有工厂资源优化从定单到产品完成的整个生产活动以最少的投入生产出最优的产品实现连续均衡生产 MES系统通过与ERP DCS系统的全面集成

MES生产制造执行系统 制造 数据仓库

数仓知识点

传统数仓知识 1 数据仓库分层 ODS 数据准备层该区为数据仓的准备区直接输入源数据如业务库埋点日志和消息队列等 DWD 数据细节层该层为业务层和数据层的隔离层保持和ODS层相同的颗粒度该层还进行了数据清洗和规范化操作例如去

数据仓库 大数据

专业三复习

mysql复习 C Users 86131 gt mysql uroot proot C Users 86131 gt mysql uroot proot mysql gt show databases Database informati

数据仓库

牛客SQL34：牛客直播各科目同时在线人数（最大值问题）

牛客SQL34 牛客直播各科目同时在线人数最大值问题内容目录牛客SQL34 牛客直播各科目同时在线人数最大值问题一描述二思路解析三代码四问题思考一描述牛客某页面推出了数据分析系列直播课程介绍用户可以选择报名任

数据仓库 mysql hive big data 数据库