Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
数仓建模—宽表的设计
宽表的设计 高内聚低耦合 宽表是数仓里面非常重要的一块 数仓是分层的 这是技术进步和时代变化相结合的产物 数仓的分层式为了更好地管理数仓以及更加高效地进行数据开发 宽表主要出现在dwd 层和报表层 当然有的人说dws 层也有 宽表 从字面意
Hive
大数据
数据仓库
数据挖掘
hive
数据清洗分析导出遇到的一些问题
本文简单记录一个学习过程 无技术含量 勿喷 环境 ambari 2 6 1 spark 2 1 python 3 6 oracle 11 2 sqoop 1 4 最近一直在测试数据采集 清洗 分析 导出 展示的一系列的工作 主要数据流程如下
spark
hive
python
Oracle
关于Hive中case when不准使用子查询的解决方法
关于Hive中case when不准使用子查询的解决方法 参考文章 1 关于Hive中case when不准使用子查询的解决方法 2 https www cnblogs com harrylyx p 12236441 html 3 http
hive
Hadoop
大数据平台
从‘discover.partitions‘=‘true‘分析Hive的TBLPROPERTIES
从 discover partitions true 分析Hive的TBLPROPERTIES 前言 Hive3 1 2先建表 show databases use db lzy show tables create external ta
hive
Hadoop
大数据
数据仓库
mysql
HIVE sql经典50题
表及数据 1表 学生表 create table student s id int s name string dt string sex string row format delimited fields terminated by t
hive
sql
采集校园卡消费信息可视化(安徽工商职业学院)
闲的没事干 分析下我自己的一卡通消费信息 使用了以下技术进行数据分析并且环境已经搭建好 Hadoop hive mysql sqoop centos7 python zeppelin 思路 python爬自己的消费记录 存入到mysql s
信息可视化
python
Hadoop
hive
爬虫
sql计算占比
计算占比是日常分析中常见的需求 下面我们来小结一下怎么用sql来实现计算占比 1 数据准备 现在有一张表 表里有两个字段 op name与state 都为离散型可枚举数据 除此以外表里还有其他字段 数据形式如下 op name state
hive
sql
计算占比
over窗口函数
分组
Hive常用操作以及java.io.IOException: java.lang.RuntimeException: ORC split generation failed问题处理
使用datagrip连接hive 切换数据库 use testdb create database testdb 创建表 create table t user id int name varchar 100 age int create
大数据
数据库
hive
Hadoop
数据仓库
Spark on Hive 和 Hive on Spark的区别
Spark on Hive Hive只作为存储角色 Spark负责sql解析优化 执行 这里可以理解为Spark 通过Spark SQL 使用Hive 语句操作Hive表 底层运行的还是 Spark RDD 具体步骤如下 通过SparkSQ
spark
hive
大数据
Apache Hudi简介、与Kudu、Hive、 HBase对比
一 Apache Hudi 数据实时处理和实时的数据 实时分为处理的实时和数据的实时 即席分析是要求对数据实时的处理 马上要得到对应的结果 Flink Spark Streaming是用来对实时数据的实时处理 数据要求实时 处理也要迅速 数
湖仓一体(DeltaHudiIceberg)
hive
Hadoop
big data
Servlet+JDBC实战开发书店项目讲解第11讲:管理员用户权限功能
Servlet JDBC实战开发书店项目讲解第11讲 管理员用户权限功能 在这一讲中 我们将详细讲解如何实现书店项目中的管理员用户权限功能 下面是每个步骤的详细说明 步骤一 创建管理员用户表 首先 我们需要在数据库中创建一个管理员用户表 用
java webservletjdbc书店实战开发
Servlet
hive
数据库
Hive的介绍及部署搭建
文章目录 Hive的介绍 Hive与Hadoop之间的关系 Hive功能实现图 Hive架构图 Hive组件 Hive中的元数据 Hive的安装部署 安装部署的前提 Mysql的安装 Hive安装 启动Hive 客户端连接Hive Hive
Hadoop
hive
大数据
使用sqoop命令报错ERROR mapreduce.ExportJobBase: Export job failed ERROR tool.ExportTool: Error during exp
如图所示 仔细查看错误信息会发现有下面一条 2022 07 10 20 17 39 786 INFO mapreduce Job Job job 1657447073157 0042 running in uber mode false 2
笔记
大数据
hive
SQOOP
mysql
Kerberos安全认证-连载10-Hive Kerberos 安全配置及访问
目录 1 Hive 配置 Kerberos 2 Hive Cli使用Kerberos 3 Hive beeline使用Kerberos 4 JDBC访问Kerberos认证Hive 5 Spark访问Kerberos认证Hive 6 Fli
Kerberos安全认证
hive
Hadoop
安全
Hive 使用SQL统计出每个用户的累积访问次数
我们有如下的用户访问数据 userId visitDate visitCount u01 2017 1 21 5 u02 2017 1 23 6 u03 2017 1 22 8 u04 2017 1 20 3 u01 2017 1 23 6
hive
sql
HQL
【Hive】Hive元数据库介绍及信息查看
转载 dabokele 在安装Hive时 需要在hive site xml文件中配置元数据相关信息 与传统关系型数据库不同的是 hive表中的数据都是保存的HDFS上 也就是说hive中的数据库 表 分区等都可以在HDFS找到对应的文件 这
大数据
hive
元数据
Hive 计算用户留存率(次日,3日,N日)
文章目录 什么是用户留存率 创建数据源 计算留存率 计算 N 日的留存率 什么是用户留存率 用户留存率是指在特定时间段内 用户在使用某个产品或应用程序后 再次使用该产品或应用程序的比例 它可以帮助公司了解用户是否喜欢他们的产品 并提供有价值
hive
Hadoop
数据仓库
sql
Hive 单表列行转换和多表列行转换
一 单表列行转换 描述 表中记录了各年份各部门的平均绩效考核成绩 表名 t1 表结构 a 年份 b 部门 c 绩效得分 表内容 a b c 2014 B 9 2015 A 8 2014 A 10 2015 B 7 多行转多列 问题1 将上述
sql
hive
大数据
数据库
hive小文件过多问题解决方法
小文件产生原因 hive 中的小文件肯定是向 hive 表中导入数据时产生 所以先看下向 hive 中导入数据的几种方式 直接向表中插入数据 insert into table A values 1 zhangsan 88 2 lisi 6
数据仓库
hive
hive小文件
hive小文件过多
hive小文件过多问题解决
Hive 安装、配置、数据导入和使用
Hive 安装 配置 数据导入和使用 Hive 下载 Hive 的环境 Hive 配置 Hive 数据导入 总结 Hive 下载 首先到Apache Hive TM下载软件 随便写一个 都比较慢 下载二进制文件 Hive 的环境 首先将下载
Hadoop
大数据
云计算
hive
big data
«
1 ...
45
46
47
48
49
50
51
...54
»