hive中distribute by、sort by、cluster by

2023-10-31

1.背景

    hive中有一个store表,字段分别是"商店所属人标识"(merid),“商户余额(money)”,“商店名称(name)”。求每个法人下属的商店的余额按照降序排序。

 
  1. //merid,money,name

  2. B 10 store_B_4

  3. A 12 store_A_1

  4. A 14 store_A_2

  5. B 15 store_B_1

  6. B 19 store_B_2

  7. B 30 store_B_3

2.distribute by、sort by

    hive中(distribute by + “表中字段”)关键字控制map输出结果的分发,相同字段的map输出会发到一个reduce节点去处理。sort by为每一个reducer产生一个排序文件,他俩一般情况下会结合使用。

hive> select * from store distribute by merid sort by money desc;

3.cluster by

    cluster by 相当于 distribute by 和sort by 的结合,默认只能是升序,以下两种写法查询结果相同

 
  1. //cluster by

  2. hive>select * from store cluster by merid;

  3. //distribute by,sort by

  4. hive>select * from store distribute by merid sort by merid asc;

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

hive中distribute by、sort by、cluster by 的相关文章

随机推荐

  • neo4j 4.x新建数据库,并解决报错Unsupported administration command: CREATE DATABASE

    重要 社区版本不支持命令create database xxx 只有企业版可以 社区版本只允许同时打开一个数据库 当然你可以多开几个neo4j服务 当你打开成新的数据库后 除了新数据库和system 其他的数据库就无法访问啦 但是它们依旧存
  • SAP T CODE : Description (Program)

    SAP T CODE Description Program V Quickstart RKCOWUSL RKCOWUSL V 01 Create Sales Call SAPMV43A V 02 Create Telephone Call
  • 修改shell命令提示符和命令的输入颜色

    修改命令提示符颜色 修改命令提示符的话 只需修改PS1环境变量即可 PS1 033 01 31m u h W 033 00m 效果如图 修改命令输入的颜色 修改命令输入的颜色 思路是不关闭PS1的颜色 然后在每次敲下回车键执行命令的时候自动
  • 自己动手实现一个神经网络多分类器

    本文由 罗周杨stupidme me lzy gmail com 原创 转载请注明作者和出处 未经授权 不得用于商业用途 不使用任何深度学习框架 实现一个简单的神经网络用来分类 手把手带你搭建神经网络 包括损失函数的选择 已经手写反向传播代
  • 最优清零方案 蓝桥杯 2138 python实现

    问题描述 给定一个长度为 N 的数列 A1 A2 AN 现在小蓝想通过若干次操作将 这个数列中每个数字清零 每次操作小蓝可以选择以下两种之一 选择一个大于 0 的整数 将它减去 1 选择连续 K 个大于 0 的整数 将它们各减去 1 小蓝最
  • 数组模拟栈和队列

    全文目录 数组实现栈 数组实现队列 数组实现的循环队列 数组实现栈 元素的出入只在栈顶进行 所以在实现的时候只需要标记栈顶就行了 因为每次插入元素都需要先 tt 所以 tt 可以从 1 开始 tt表示栈顶 int stk N tt 1 向栈
  • (16) 基于图卷积神经网络的轨道交通流量预测

    交通预见未来 16 基于图卷积神经网络的轨道交通流量预测 1 文章信息 Predicting Station Level Short Term Passenger Flow in a Citywide Metro Network Using
  • 计算机c盘突然少了几个G,做系统时c盘显示0容量-关于Windows系统c盘突然没了十几个g...

    既然系统默认装软件是c盘 那为什么不把c盘空间做大点呢 C盘是系统盘 多大容量完全是自己分出来的 你的c盘容量应该是别人给分的 一般为了电脑速度快一些 会用SSD做系统盘 你说你就一个1T的硬盘 那其实可以完全分成一个区 也就是就一个C盘
  • 如何提取OneDrive文件直链?

    原理 原链接 https xxxx my sharepoint com x g personal xx xx xx xxxxxxxxxx 直链 https xxxx my sharepoint com personal xx xx xx l
  • CNN之手写数字识别(Handwriting Recognition)

    CNN之手写数字识别 Handwriting Recognition 目录 CNN之手写数字识别 Handwriting Recognition 1 常用的包 2 常见概念 3 手写数字识别器实现 3 1 数据准备 3 2 构建网络 3 3
  • VB基础语法

    一 基础概念 1 1变量 变量的定义格式 Dim Private Static Public 变量名 As 数据类型 Dim Private Static Public 就是我之前所说的权限的意思 As 数据类型 这个是可选项 你可以为这个
  • 准备数据集

    目录 介绍 足够的数据集 收集图像 调整图像大小 下一步 在这里 我们简要说明了数据集的要求 然后 我们提出了收集数据的方法 在Internet上搜索图像 搜索视频并从中上传帧 然后 我们提供一些找到的视频的参考 然后 我们说明使用可用工具
  • defer和async的区别

    没有 defer 或 async 浏览器会立即加载并执行指定的脚本 立即 指的是在渲染该 script 标签之下的文档元素之前 也就是说不等待后续载入的文档元素 读到就加载并执行 有 async 加载和渲染后续文档元素的过程将和 scrip
  • python读取docx文件,并进行一些操作

    python读取docx文件 1 安装包 先前试用过很多包 都不管用 读取文件时候会出现如下错误 pywintypes com error 2147352567 发生意外 0 Kingsoft WPS 文档保存失败 3011 2147467
  • 从零开始学python 07——字典

    一 字典 1 字典的定义 通过 里面的数据都是以键值对保存 key value 字典中可以存在多个键值对 用逗号隔开 注意点 字典中的key一般都是字符串类型 也可以是数值类型 字典中的key一般不要相同 如果出现多个相同的key 以最后一
  • python 点名随机+人脸识别

    基于tkinter写的随机点名窗口程序 运行截图 主窗口 点名操作 人脸识别操作 具体代码如下 主窗口 import random import tkinter import tkinter as tk import threading i
  • win7安装visual studio 2015出现安装包丢失或损坏

    win r 输入 certmgr msc 查看有没有选中的两个证书 如果没有需要从其他电脑导入 然后直接点击安装界面重试 即可继续安装
  • 海关爬虫7代(圣佛版)

    声明 代码仅作学习交流用途 代码分享者与创作者不承担任何由他人恶意运行而导致的责任 勿擅自修改限制频率的参数 勿恶意攻击网页 请学习浏览者遵守社会公德与法律秩序 爬虫导致的网页崩溃等损失由计算机操作者负全部责任 造成严重后果的需要承担刑事责
  • vue顶部菜单加左侧菜单_物流项目之用户登录、主页面、顶部菜单授权

    工程搭建分析 freight parent 父工程 打包方式pom 管理jar包的版本号 所有module都应该继承父工程 为什么不在freight parent定义所有jar包 而是定义版本号呢 项目部署到tomcat需要打war包 如果
  • hive中distribute by、sort by、cluster by

    1 背景 hive中有一个store表 字段分别是 商店所属人标识 merid 商户余额 money 商店名称 name 求每个法人下属的商店的余额按照降序排序 merid money name B 10 store B 4 A 12 st