数据仓库

HDFS 分布式文件系统详解

1 HDFS概述 Hadoop 分布式系统框架中首要的基础功能就是文件系统在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统这个抽象类下面有很多子实现类究竟使用哪一种需要看我们具体的实现类在我们实际工

实战 数据仓库 Hadoop HDFS 分布式文件系统详解 HDFS

数据质量评价体系参考

数据质量人人有责这不仅仅只是一句口号更是数据工作者的生命线数据质量的好坏直接决定着数据价值高低数据质量管理是指在数据创建加工使用和迁移等过程中通过开展数据质量定义过程控制监测问题分析和整改评估与考核等一系列管理活动提

数据分析 数据仓库 大数据 数据质量评价体系参考 数据质量

clickhouse导入数据 DBeaver大坑

测试数据有一亿条需要导入数据库使用DBeaver自带导入数据功能结果放置一晚才导入一千万条估计导入设置有问题于是寻找合适方式记录如下首先将待导入的csv数据表45G 传输到clickhouse所在的服务器在数据库中提前建好表

大数据 database 数据库 数据仓库

数仓分层理论

数据仓库在实际工作中数仓分层元数据管理数据质量管理一直是一个持续优化的过程我们公司业务也是在持续的做数仓的优化工作在数据治理这方面还是欠缺很多的经验的下面先简单整理了一下第一个理论部分的相关笔记数据仓库理论数据仓库四大特征

数据仓库 数据库

互联网“香饽饽”？数据挖掘或成热门行业

何为数据挖掘信息化社会的高速发展下大数据云计算物联网等技术应运而生海量的数据资源逐渐在人们的生产生活中高速地产生积累带动全社会迈入了大数据时代这些代表信息的数据就好像大海而要在广阔的大海里面找到想要的某一条信息或知识也

python 学习路线 机器学习 数据挖掘 数据仓库

列存数据仓库怎样更高效

很多数据仓库产品都采用了列式存储如果数据表的总列数很多而计算涉及的列很少采用列存就只读取需要的列即可能够减少硬盘访问量提高性能特别是数据量非常大时硬盘扫描和读取的时间占比很大这时候列存的优势会很明显那么是不是只要用了列存就

数据仓库 数据挖掘 大数据 spl

ETL为什么经常变成ELT甚至LET？

ETL是将数据从来源端经过清洗 extract 转换 transform 加载 load 至目的端的过程正常的 ETL 过程应当是 E T L 这三个步骤逐步进行也就是先清洗转换之后再加载进目标端通常是数据库最后在数据库中的只是合理

软件资讯amp干货资源 ETL 数据库 数据仓库 Java

数仓知识07：数据增量更新的几种方式

1 增量更新的几种方式增量更新的本质其实是获取源表中数据变化的情况增删改然后将源表中发生的变化同步至目标表中不同的方式获取源表中数据变化的情况不一样受技术的限制表结构的限制某些方式可能无法获取到完整的数据变化情况因此

数据仓库 数据库 database

数据仓库是什么？和数据库有何区别？

在具体学习数据仓库之前先看一下数据中心的整体构架以及数据流向 DB 是现有的数据来源可以为mysql SQLserver 文件日志等为数据仓库提供数据来源的一般存在于现有的业务系统之中 ETL 是 Extract Transform L

数据仓库 数据库

数据挖掘基础一

一数据挖掘又称为数据库中知识发现 Knowledge Discovery from Database 简称KDD 它是一个从大量数据中抽取挖掘出未知的有价值的模式或规律等知识的复杂过程数据挖掘的定义过程描述如下图所示从图中可以看出

数据仓库与挖掘 数据挖掘 Classification 数据库 数据仓库

数据挖掘学习

文章目录绪论定义挖掘过程数据准备数据探索EDA 数据仓库空间数据库时间数据库和时序数据库流数据异构数据和遗产数据数据挖掘的模式数据准备数据组成什么是数据对象什么是数据属性数据搜集数据质量分析数据类型考点

机器学习 数据挖掘 学习 数据仓库

Hive千亿级数据倾斜解决方案

数据倾斜问题剖析数据倾斜是分布式系统不可避免的问题任何分布式系统都有几率发生数据倾斜但有些小伙伴在平时工作中感知不是很明显这里要注意本篇文章的标题千亿级数据为什么说千亿级因为如果一个任务的数据量只有几百万它即使发生了数据倾斜

实战 数据仓库 hive 数据倾斜

ETL数据库数据采集&订单数据采集

问题解决增加目标数据库配置信息结果写出MySQL的数据库相关配置 target host localhost target port 3306 target user root target password mysql target

ETL 数据库 数据仓库

数仓体系效率全面提升！同程数科基于 Apache Doris 的数据仓库建设

应用实践数仓体系效率全面提升同程数科基于 Apache Doris 的数据仓库建设导读同程数科成立于 2015 年是同程集团旗下的旅游产业金融服务平台 2020 年同程数科基于 Apache Doris 丰富的数据接入方式优异

大数据 apache 数据库 数据仓库 后端

hive 高级分组聚合(grouping sets cube和rollup)

1 grouping sets 1 1 select a b sum c from tbl group by a b grouping sets a b 相当于 select a b sum c from tbl group by a b

hive sql 优化方案 数据库 sql 大数据 数据仓库

数据仓库-日期维度表的设计与实现

时间维度表的制作 1 需求背景在大数据分析模块中我们需要从不同的维度分析主题表包括常用的公用维度时间维地区维度教育信息维以及各种各样的业务维度员工维度部门维度业务维度就是我们从哪些角度去分析业务过程本文就是做一张常用时

hive 数据仓库 维度建模 大数据 日期维度

Hive中如何定位数据倾斜

1 概述在hive中执行sql任务时当任务在reduce阶段一直卡在99 时很有可能出现了数据倾斜这个时候如果我们的sql很长需要判断出是哪段sql导致的数据倾斜才便于我们解决问题 2 定位数据倾斜下面以一条sql为例子记

hive 大数据 数据仓库

大数据--pyspark远程连接hive

上一篇文章介绍了python连接hive的过程通过地址端口号访问到hive并对hive中的数据进行操作这一篇文章介绍一下怎么通过windows本地pyspark 本地部署好的spark 远程虚拟机的hive 完成本地pyspark对h

大数据 hive Hadoop spark 数据仓库

数据分析报告概述

一结构规范及写作报告常用结构 1 架构清晰主次分明数据分析报告要有一个清晰的架构层次分明能降低阅读成本有助于信息的传达虽然不同类型的分析报告有其适用的呈现方式但总的来说作为议论文的一种大部分的分析报告还是适用总分总的

数据仓库 大数据 Bigdata 数据分析报告概述 数据分析报告

【Hadoop技术篇】hadoop的使用

博主介绍博主介绍大家好我是淼淼喵很高兴认识大家主攻领域大数据开发数据仓库 ETL 数据分析面试分析点赞评论收藏养成习惯一键三连欢迎关注一起学习一起讨论一起进步欢迎评论作者水平有限欢迎各位大佬指点相

Hadoop 大数据 数据仓库