＜数据结构＞堆的应用 --- 堆排序和Topk问题

2023-11-10

1、堆排序

法一：自己写堆进行排序

时间复杂度分析

1、堆排序

假如我们有一串乱序数组，如下：

现在想要对它进行排序，按照我们之前学过的知识，想要单纯的实现排序其实并不难，可以直接暴力排序，也可以冒泡排序，甚至使用库函数qsort进行排序……

但是，既然近期学习了堆，那么堆的一个重要应用就是进行堆排序，这里先简要提下：堆排序即快排的一种。在后面的学习中，我将为大家继续展开其它更多样的快排。今儿个就向各位浅谈下快排之一：堆排序

法一：自己写堆进行排序

思路：

在上篇博文中，我们模拟实现了堆，实现后即可对一串乱序数组进行堆排序。假设我们排升序，且堆为小根堆。实现过程非常简单。

首先，把数组的每个元素（HeapPush）插入到堆中。

其次，我们深知小根堆的堆顶是最小的数字，依次遍历堆顶（HeapTop）的元素，将堆顶元素赋值到数组里，从下标0开始，赋值后删除（HeapPop）堆顶元素，++数组下标。此时堆就会重新调整，最终堆顶依旧是最小的，再重复上述赋值堆顶到数组的操作，直到堆为空（HeapEmpty）

代码如下：
//堆排序 --- 升序
void HeapSort(int* a, int size)
{
//创建堆结构并初始化
	HP hp; 
	HeapInit(&hp);
//将数组元素插入堆中
	for (int i = 0; i < size; i++)
	{
		HeapPush(&hp, a[i]);
	}
	size_t j = 0;
//依次遍历，取堆顶赋值数组，++下标，pop堆顶，依次循环，直至堆为空
	while (!HeapEmpty(&hp))
	{
		a[j] = HeapTop(&hp);
		j++;
		HeapPop(&hp);
	}
//记得销毁动态开辟空间
	HeapDestroy(&hp);
}
int main()
{
	int a[] = { 4,2,7,8,5,1,0,6 };
	HeapSort(a, sizeof(a) / sizeof(int)); //实现堆排序
	for (int i = 0; i < sizeof(a) / sizeof(int); i++)
	{
		printf("%d ", a[i]); //打印
	}
	printf("\n");
	return 0;
}
效果如下：

时间复杂度分析

段一：
	for (int i = 0; i < size; i++)
	{
		HeapPush(&hp, a[i]);
	}
此段代码的时间复杂度为O(N*logN)，因为HeapPush函数的内部执行过程就是把数组的每个元素插入堆中，有N次。接着，每插入一个数据都要重新向上调整（AdjustUp）高度次以确保为堆，每个都要调整高度次，高度为logN，综上此段为O(N*logN)

段二：
	while (!HeapEmpty(&hp))
	{
		a[j] = HeapTop(&hp);
		j++;
		HeapPop(&hp);
	}
此段的时间复杂度同样为O(N*logN)，原理跟上一段类似，不过多赘述。

分析：

综上，时间复杂度为O(N*logN)，确实比我们先前的冒泡排序O(N^2)要快不少。但是，这个方法排序是及其不好的，因为难道说为了实现堆排序还要自己手写一个完整的堆吗？这么复杂的实现堆的过程还不如不用堆排序了，这种伤敌一千，自损八百的感脚实在是难受。更何况此法的空间复杂度也是很大的，达到了惊人的O(N)。原因是实现堆的过程是动态开辟的，所以空间复杂度自然是O(N)。可不可以换一更优的方法，但同样是利用堆的思想实现快排呢？

现在我们要求如下：

依旧是堆的思想

时间复杂度O(N*logN)

空间复杂度O(1)

前面我们已经知晓，数组即为完全二叉树，为什么还要实现一个堆呢？直接把数组看作堆难道不香嘛？由此我们引出：直接对数组建堆。详解见下文：

法二：直接对数组建堆

再来看下这串乱序数组：

既然上文说到可以直接把它看作二叉树，那不妨把逻辑结构画出来看看：

接下来，我们就要进行建堆了，有两种方法：

使用向上建堆，插入数据的思想建堆

使用向下调整建堆

①、向上调整建堆

思想：

首先，我们把第一个数字看成堆，也就是4，当第二个数字插入进去的时候，进行向上调整算法，使其确保为小堆，向上调整的算法在上篇博文已详细讲解过，不过多赘述。具体插入数据过程就是遍历数组，确保数组里每一个数进行向上调整算法

画图演示：

代码如下：
//交换
void Swap(int* pa, int* pb)
{
	int tmp = *pa;
	*pa = *pb;
	*pb = tmp;
}
//向上调整算法
void AdjustUp(int* a, size_t child)
{
	size_t parent = (child - 1) / 2;
	while (child > 0)
	{
		//if (a[child] > a[parent]) //大根堆
		if (a[child] < a[parent]) //小根堆
		{
			Swap(&a[child], &a[parent]);
			child = parent;
			parent = (child - 1) / 2;
		}
		else
		{
			break;
		}
	}
}
//升序
void HeapSort(int* a, int n)
{
	//建堆
	int i = 0;
	for (i = 1; i < n; i++) //应该从i=1时遍历，因为第一个数据在堆里不需要调整，后续再插入时调整
	{
		AdjustUp(a, i);
	}
}
int main()
{
	int a[] = { 4,2,7,8,5,1,0,6 };
	HeapSort(a, sizeof(a) / sizeof(int));
	for (int i = 0; i < sizeof(a) / sizeof(int); i++)
	{
		printf("%d ", a[i]);
	}
	return 0;
}
效果如下：

符合小堆的性质

②、向下调整建堆

问题：能直接进行向下建堆吗？

答案：不能

解析：首先回顾下使用向下调整的前提是什么？必须得确保根结点的左右子树均为小堆才可，而这里，数组为乱序的，无法直接使用。

解决办法：从倒数第一个非叶结点开始向下调整，从下往上调

分析：从该解决方案中，我们首先要找到这个倒数第一个非叶结点的数在哪？其实最后一个结点的父亲即为倒数第一个非叶结点。当我们找到这个非叶结点时，把它和它的孩子看成一个整体，进行向下调整。调整后，再将次父节点向前挪动，再次向下调整，依次循环下去。

再回顾下父亲和孩子间的关系：

leftchild = parent*2 + 1

rightchild = parent*2 + 2

parent = (child - 1) / 2

画图解析过程：

代码如下：
//升序
void HeapSort(int* a, int n)
{
	//建堆
	//1、向上调整
	int i = 0;
	for (i = 1; i < n; i++) //应该从i=1时遍历，因为第一个数据在堆里不需要调整，后续再插入时调整
	{
		AdjustUp(a, i);
	}
	//2、向下调整
	for (int i = (n - 1 - 1)/2; i >= 0; i--)
	{
		AdjustDown(a, n, i);
	}
}
效果如下：

符合小堆的性质

向上建堆和向下建堆熟优？

首先，我们画张图看下向上和向下建堆后的样子。

从上图中，我们可以看出，使用不同的方式建堆最后的样子是不同的，那哪种方式好呢？

接下来，我将通过时间复杂度的方式为大家解惑：以一颗满二叉树为例：

向上建堆：

时间复杂度计算的是其调整的次数，根据上文的知识我们已经知晓其是从数组的第二个元素开始的，也就是可以理解为第二层的第一个节点。计算的思想非常简单：计算每层有多少个节点乘以该层的高度次，然后累计相加即可。如下：

通过计算得知：向上建堆的时间复杂度为O(N*logN)

向下建堆：

向下调整我们前面已经知道它是从倒数第1个非叶节点开始调整的，每层的调整次数为，该层的节点个数*该层高度减1，一直从第1层开始调直至倒数第2层，并将其依次累加，此计算过程和向上调整差不多，都是等比*等差的求和，过程如下：

通过计算得知：向下建堆的时间复杂度为O(N)

对比：

通过上述计算，我们得到如下：

向上建堆：O(N*logN)

向下建堆：O(N)

由此可见，使用向下建堆的方式更优，其时间复杂度较小。当然，使用向上建堆也是可以的，只不过向下建堆更好一点。

升序能否建小堆？

答案：不能

解析：

从上文我们已经知道建堆用向下建堆是比较优的，为O(N)，并且建好堆后第一个位置的数字即为最小的，此时第一个数字已经确定了并且是最小的，但如若使用小堆的话，也就是需要从第二个数字开始往后看成一个堆，此时关系就全乱了，不再符合小堆的性质，此时也就意味着我们需要从第二个数字往后重新向下建堆，以确保此时的堆顶也就是数组第二个元素为次小的，并以此类推重新建堆确保第三个次小的，依次循环下去……如果这样做，还不如直接遍历选数！搞这么复杂。

解决方案：升序建大堆

排序（建大堆）

先看下建好大堆的样子：

思路：

首先，得明确我们建堆后，此时堆顶就是最大的数据，现在我们把第一个数字和最后一个数字交换，把最后一个数字不看做堆里的，只需要数组个数N--即可。此时的左子树和右子树依旧是大堆，再进行向下调整即可。

画图解析过程：

代码如下：

//交换
void Swap(int* pa, int* pb)
{
	int tmp = *pa;
	*pa = *pb;
	*pb = tmp;
}
//向下调整算法
void AdjustDown(int* a, size_t size, size_t root)
{
	int parent = (int)root;
	int child = 2 * parent + 1;
	while (child < size)
	{
		//1、确保child的下标对应的值最大，即取左右孩子较大那个
		if (child + 1 < size && a[child + 1] > a[child]) //得确保右孩子存在
		{
			child++; //此时右孩子大
		}
		//2、如果孩子大于父亲则交换，并继续往下调整
		if (a[child] > a[parent])
		{
			Swap(&a[child], &a[parent]);
			parent = child;
			child = 2 * parent + 1;
		}
		else
		{
			break;
		}
	}
}
//升序
void HeapSort(int* a, int n)
{
	//向下调整建堆
	for (int i = (n - 1 - 1) / 2; i >= 0; i--)
	{
		AdjustDown(a, n, i);
	}
	//大堆升序
	size_t end = n - 1;
	while (end > 0)
	{
		Swap(&a[0], &a[end]);
		AdjustDown(a, end, 0);
		end--;
	}
}
int main()
{
	int a[] = { 4,2,7,8,5,1,0,6 };
	HeapSort(a, sizeof(a) / sizeof(int));
	for (int i = 0; i < sizeof(a) / sizeof(int); i++)
	{
		printf("%d ", a[i]);
	}
	return 0;
}

效果如下：

2、TopK问题

何为Topk？

TOP-K问题：N个数里面找出最大/最小的前k个。一般情况下数据量都比较大。

比如：专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。

对于Top-K问题，我们能想到的方法有很多，如下：

排序 -- 时间复杂度：O(N*logN)。空间复杂度：O(1) -- 要求进一步优化。

建立N个数的大堆，Pop K次，就可以找出最大的前K个 -- 时间复杂度：O(N+logN*k)。空间复杂度：O(1)

问题：

有可能N非常大，以至于远大于K。比如100亿个数里面找出最大的前10个。此时上面的方法就不能用了，因为此时会导致内存不够。就好比我现在想知道100亿个整数需要多少空间？

1G = 1024MB

1024MB = 1024*1024KB

1024*1024KB = 1024*1024*1024Byte ≈ 10亿字节

一个整数4个字节，100亿个整数400亿个字节，≈40G

40个G内存根本放不下，说明100亿个整数是放在磁盘中的，也就是文件中。由此得知上述方法不得行，得寻找一个更优解。

解决方案：

用前K个数建立一个K个数的小堆，然后剩下的N-K个依次遍历，如果比堆顶的数据大，就替换它进堆（向下调整），最后堆里面的K个数就是最大的K个。

复杂度：

时间复杂度：O(K + logK * (N-K))

空间复杂度：O(K)

实现过程

以从1w个数里找出最大的前10个数为例：

//向下调整算法
void AdjustDown(int* a, size_t size, size_t root)
{
	int parent = (int)root;
	int child = 2 * parent + 1;
	while (child < size)
	{
		//1、确保child的下标对应的值最小，即取左右孩子较小那个
		if (child + 1 < size && a[child + 1] < a[child]) //得确保右孩子存在
		{
			child++; //此时右孩子大
		}
		//2、如果孩子小于父亲则交换，并继续往下调整
		if (a[child] < a[parent])
		{
			Swap(&a[child], &a[parent]);
			parent = child;
			child = 2 * parent + 1;
		}
		else
		{
			break;
		}
	}
}
void PrintTopK(int* a, int n, int k)
{
	// 1. 建堆--用a中前k个元素建堆
	int* kminHeap = (int*)malloc(sizeof(int) * k);
	assert(kminHeap);
	for (int i = 0; i < k; i++)
	{
		kminHeap[i] = a[i];
	}
	//建小堆
	for (int j = (k - 1 - 1) / 2; j >= 0; j--)
	{
		//从倒数第一个非叶节点开始
		AdjustDown(a, k, j);
	}
	// 2. 将剩余n-k个元素依次与堆顶元素交换，不满则则替换
	for (int i = k; i < n; i++)
	{
		if (a[i] > kminHeap[0])
		{
			kminHeap[0] = a[i]; //如果比堆顶大，就替换
			AdjustDown(kminHeap, k, 0); //向下调整确保为堆
		}
	}
	for (int j = 0; j < k; j++)
	{
		printf("%d ", kminHeap[j]);
	}
	printf("\n");
	free(kminHeap);
}
void TestTopk()
{
	int n = 10000;
	int* a = (int*)malloc(sizeof(int) * n);
	srand(time(0));
	for (size_t i = 0; i < n; ++i)
	{
		a[i] = rand() % 1000000; //产生一个随机数，数值均小于100万
	}
	a[5] = 1000000 + 1;
	a[1231] = 1000000 + 2;
	a[531] = 1000000 + 3;
	a[5121] = 1000000 + 4;
	a[115] = 1000000 + 5;
	a[2335] = 1000000 + 6;
	a[9999] = 1000000 + 7;
	a[76] = 1000000 + 8;
	a[423] = 1000000 + 9;
	a[3144] = 1000000 + 10;
	PrintTopK(a, n, 10);
}

int main()
{
	TestTopk();
	return 0;
}

效果如下：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据结构

c语言

堆

＜数据结构＞堆的应用 --- 堆排序和Topk问题的相关文章

用C++实现softmax函数(面试经验)

背景今天面试字节算法岗时被问到的问题让我用C 实现一个softmax函数 softmax是逻辑回归在多分类问题上的推广大概的公式如下 i n p u t
Unity的C#编程教程_56_Namespace 详解

文章目录 Namespaces Tour of Namespaces Namespaces 命名空间使得我们可以组织和管理我们的代码库假设我们设置一个脚本名叫 Weapon using System Collections using S
python整段代码注释-Python中注释（多行注释和单行注释）的用法实例

Python中注释多行注释和单行注释的用法实例发布时间 2020 09 30 23 18 32 来源脚本之家阅读 97 前言学会向程序中添加必要的注释也是很重要的注释不仅可以用来解释程序某些部分的作用和功能用自然语言描述代
main.c:9:21: fatal error: sqlite3.h: 没有那个文件或目录

今天在 Ubuntu 里看别人代码时头文件里面有个

随机推荐

2023普华永道中国首席数据官调研

导读在中国2 500家最大的上市企业中首席数据官或类似管理岗的渗透率仅为1 3 远低于全球27 的水平首席数据官的推广任重道远其中金融行业和通讯媒体与科技行业的首席数据官或类似管理岗的数量位居前两位也与这几个行业的数字化转型发
【100天精通Python】Day48：Python Web开发_WSGI网络服务器网关接口与使用

目录 1 WSGI接口 1 1 CGI 简介 1 2 WSGI 简介 1 3 定义 WSGI 接口 1 3 1 应用程序 Application 1 3 2 服务器 Server 1 4 WSGI 接口的使用示例 1 5 WSGI接口的优势
bp网络拟合函数 matlab_基于RBF神经网络的曲线拟合

目前在人工神经网络的实际应用中绝大部分的神经网络模型是采用误差逆传播 error BackPropagation BP 网络和它的变化形式径向基函数 Radial Basis Function RBF 神经网络 RBF网络是一种高效的前
微信小程序使用image组件显示图片的方法

本文实例讲述了微信小程序使用image组件显示图片的方法分享给大家供大家参考具体如下 1 效果展示 2 关键代码 index wxml 代码如下
Lightgbm 直方图优化算法深入理解

一概述在之前的介绍Xgboost的众多博文中已经介绍过在树分裂计算分裂特征的增益时 xgboost 采用了预排序的方法来处理节点分裂这样计算的分裂点比较精确但是也造成了很大的时间开销为了解决这个问题 Lightgbm 选择了
ubuntu16.04 使用astra s摄像头

Astra相机使用方法官网链接 https orbbec3d com develop Astra相机 GitHub orbbec ros astra camera ROS wrapper for Astra camera 普通相机 Git
mac安装lrzsz后运行卡死解决办法

lrzsz的安装配置具体参见 https segmentfault com a 1190000012166969 上述完成后若可以正常使用万事大吉如出现卡死的情况可以查看配置文件 usr local bin iterm2 recv
openwrt 之通过uci 设置参数

在openwrt中默认一种配置文件默认的路径 etc config 在这里面的所有配置文件如需要修改只需使用uci 这个指令来修改以下uci 指令参数 root xxxx uci Usage uci
ubuntu自带vim配色方案

系统版本 ubuntu 16 04 LTS 刚开始用vim的时候大家可能会觉得默认的语法高亮的颜色不合心意不过对于vim来说这并不是一个问题其实vim的配色方案是可以更改的既可以选择系统自带的配色方案也可以从网上下载其它配色方案
简单理解Hadoop（Hadoop是什么、如何工作）

一 Hadoop主要的任务部署分为3个部分分别是 Client机器主节点和从节点主节点主要负责Hadoop两个关键功能模块HDFS Map Reduce的监督当Job Tracker使用Map Reduce进行监控和调度数据的并行处
linux下部署thinkphp5项目

准备工作购买一个linux服务器地址安装好linux常用的ssh工具我这边喜欢用xshell敲命令用filezilla传输文件这些工具只要到官网下载就好速度很快的 1 安装phpstudy for linux 安装下载phpst
java：JSONArray转byte[]字节数组

package com xxx huali hualitest json import com alibaba fastjson JSONArray import com alibaba fastjson util Base64 publi
C语言运行流程

在上一篇文章visual studio如何运行并调试C语言代码中写了如何运行并调试代码我们就明确一个事实即不论是嵌入式系统亦或是普通PC电脑对于程序的运行硬件处理器只能识别0 1的二进制码从类人语言的C代码需要经过一系列的转换过
各种算法使用场景

深度优先搜索BFS VS 广度优先搜索 DFS 算法就是回溯算法 BFS 相对 DFS 的最主要的区别是 BFS 找到的路径一定是最短的但代价就是空间复杂度可能比 DFS 大很多递归灵魂三问 labuladong 告诉你遇到任何递归型
SQL Server基础Sql语句复习

基础至极 1 创建表 create table Course Cno char 4 primary key not null 创建主键非空 Cname char 40 not null Cpno char 4 Ccredit smalli
软件测试报告bug统计,软件测试中如何有效地写Bug报告

引言为公众写过软件的人大概都收到过很拙劣的bug 计算机程序代码中的错误或程序运行时的瑕疵译者注报告例如在报告中说不好用所报告内容毫无意义在报告中用户没有提供足够的信息在报告中提供了错误信息所报告的问题是由于用户的过失
【算法学习笔记】17：DFS与BFS

1 DFS 深度优先搜索常用于解决需要给出所有方案的问题因为它的搜索顺序就是能够得到一个完整的搜索路径方案后回退再去搜索其它的方案 1 1 例题排列数字由于要求所有排列的方案可以每次从 1 n 1 n 1 n里拿一个数字然后记
为什么P值不再是0.05（孟德尔随机化）

为什么P值不再是0 05 孟德尔随机化为什么P值不再是0 05 孟德尔随机化
长连接和短链接的区别

长连接意味着进行一次数据传输后不关闭连接长期保持连通状态如果两个应用程序之间有新的数据需要传输则直接复用这个连接无需再建立一个新的连接就像下图这样它的优势是在多次通信中可以省去连接建立和关闭连接的开销并且从总体上来看进行多
＜数据结构＞堆的应用 --- 堆排序和Topk问题

目录 1 堆排序法一自己写堆进行排序时间复杂度分析法二直接对数组建堆向上调整建堆向下调整建堆向上建堆和向下建堆熟优升序能否建小堆排序建大堆 2 TopK问题何为Topk 实现过程 1 堆排序假如我们有一串乱序数组

＜ 数据结构 ＞ 堆的应用 --- 堆排序和Topk问题

1、堆排序

法一：自己写堆进行排序

时间复杂度分析

法二：直接对数组建堆

①、向上调整建堆

②、向下调整建堆

向上建堆和向下建堆熟优？

升序能否建小堆？

排序（建大堆）

2、TopK问题

何为Topk？

实现过程

＜ 数据结构 ＞ 堆的应用 --- 堆排序和Topk问题 的相关文章

随机推荐

热门标签

＜数据结构＞堆的应用 --- 堆排序和Topk问题

＜数据结构＞堆的应用 --- 堆排序和Topk问题的相关文章