Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
rank、dense_rank、row_number函数的区别
这四个 RANK DENSE RANK NTILE ROW NUMBER 函数 都是用来对数据库中的数据进行排名的 在他们的功能各有千秋 下面介绍一下这四个函数的功能和用法 首先创建一个Student表 CREATETABLEStudent
hive
rank()
005 python连接hive
环境安装 hive hive 安装包配置 python配置hive环境pip install sasl pip install thrift pip install thrift sasl pip install PyHive 注 安装sa
hive
大数据
python
Python3链接HIVE
几个必要的pip 如果用anaconda 安装pyhive的时候会附带都给安装上 pip install pyhive pip install thrift pip install sasl pip install thrift compi
hive
Hadoop
数据仓库
python
DATAX 数据同步 My SQL->Hive
DATAX 数据同步 My SQL gt Hive 安装 DATAX官方地址 https github com alibaba DataX DATAX WEB官方地址 https github com WeiYe Jing datax we
sql
hive
数据库
DataX
Clickhouse、Hawq、Hive、Spark SQL、Presto、Kylin、Impala、Druid、Greeplum对比
在上一章节中 我们讲到实时数仓的建设 互联网大数据技术发展到今天 各个领域基本已经成熟 有各式各样的解决方案可以供我们选择 在实时数仓建设中 解决方案成熟 消息队列Kafka Redis Hbase鲜有敌手 几乎已成垄断之势 而OLAP的选
大数据之Clickhouse
大数据之Hive
大数据之Spark
hive
spark
L3 Hive操作
示例 1 建表 create table t dml detail id bigint sale date date province string city string product id bigint cnt double amt
hive
Hadoop
数据仓库
hive中distribute by、sort by、cluster by
1 背景 hive中有一个store表 字段分别是 商店所属人标识 merid 商户余额 money 商店名称 name 求每个法人下属的商店的余额按照降序排序 merid money name B 10 store B 4 A 12 st
hive
cluster by
hive-使用开窗函数实现百分比、topN、前百分比
有一个订单表A 分别有order id 订单id user id 用户id amt 金额 三个字段 用sql实现以下功能 i 求订单总量为top3的用户及交易笔数 同时求出其交易笔数占全量订单笔数的占比 ii 求每个用户top3交易金额的订
SQL练习
sql
hive
面试常问:Hive分区与分桶的区别
分区表与分桶表的区别 创建表时可以同时为表创建一个或者多个分区 我们在加载数据时为期指定具体的 分区 查询数据时可以指定具体的分区从而提高效率 分区表是把分区当成目录的 分区实际上是将表文件分成多个有标记的小文件以方便查询 分区表 在Hiv
Hive 知识体系
hive
sqoop query时单双引号选用以及$CONDITION使用的探究
这段时间碰见了一个奇怪的sqoop导入问题 我的业务目标是想将postgresql库里的某张表内的数据导入到hive里 而且在导入的时候需要做一步查询 但在导入的时候 围绕着 CONDITION 这个参数 会有不同的运行结果 有的报错 有的
hive
SQOOP
大数据技术之Spark——Spark SQL
一 SparkSQL 概述 1 1 SparkSQL是什么 Spark SQL是Spark用于结构化数据处理的Spark模块 1 2 Hive and SparkSQL 我们之前学习过hive hive是一个基于hadoop的SQL引擎工具
Spark
大数据
spark
hive
Hive和hadoop的区别
Hive和hadoop的区别就是 Hive是通过SQL语句实现的MapReduce功能 SQL语句的优点是语句简单 不需要过多的程序语句就能实现 可以理解成Hive是通过语句封装之后的hadoop
hive
Hadoop
sql
【Docker】安装Presto连接Hive、mysql、oracle、postgresql、SQL server等7种类型数据库
目录 1 简介 2 下载安装 1 下载镜像 2 下载presto客户端jar文件 3 将hadoop配置拷贝到容器 4 新增hive properties配置文件 5 重启容器 在linux命令行下 3 测试连接 4 其他类型数据库配置连接
Docker
hive
big data
Hadoop
Hive(二)——数据类型与文件格式
Hive 二 数据类型与文件格式 数据 基本数据类型 集合数据类型 分隔符 数据 John Doe A100000 0 AMary Smith BTodd Jones AFederal Taxes C 2 BStateTaxes C 05
hive
Hive 表操作(HIVE的数据存储、数据库、表、分区、分桶)
1 Hive的数据存储 Hive的数据存储基于Hadoop HDFS Hive没有专门的数据存储格式 存储结构主要包括 数据库 文件 表 试图 Hive默认可以直接加载文本文件 TextFile 还支持sequence file 创建表时
hive
数据库
Hadoop
数据的存储方式(Parquet、ORC)
文章目录 数据的存储方式 按行存储 按列存储 Parquest 文件布局 概念 并行处理的单元 配置 Row Group Size 行组的大小 Data Page Size 数据页的大小 元数据 数据页 Hive下的Parquet实验 Pa
hive
Hadoop
数据仓库
数据库
大数据
hive--分组排序函数
分组排序 最主要的区别就是如果两个分数相同 排名是否同列以及排名是否相同 这个方法仅在mysql8 0以后 hive或其他数据库支持 直接看图 原始表 原表如上 想要的结果如下 从图中可以发现 row number函数 如果并列但名次反而不
大数据
hive
Win7平台Python3使用impyla连接Hive遇到的坑
环境硬件配置及Hadoop Hive版本 此博客置顶文章中有 安装步骤 pip install pure sasl Looking in indexes https pypi tuna tsinghua edu cn simple Coll
Hadoop
hive
python3
flink/hive sql 实现递归 查询人员组织架构
递归人员归属查询 解决的问题 flink sql无法使用递归查询的问题 场景 syc loan dpt did dname dlevel pdid syc agent usr uid uname did 组织架构 元事业部 城市中心 分中心
大数据
flink
hive
sql
[hive sql] 实现pivot 行转列的两个例子
问题1 将表1改成表2的形式 表1 uid item cnt 1234 A 2 1234 B 1 1236 A 4 表2 uid A B 1234 2 1 1236 4 代码如下 select uid sum item cnt A as A
数据分析
hive
sql
«
1 ...
43
44
45
46
47
48
49
...54
»