博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
最小的K个数(Top K问题)
阅读量:5810 次
发布时间:2019-06-18

本文共 3432 字,大约阅读时间需要 11 分钟。

一、题目描述

描述:

输入n个整数,输出其中最小的k个。

输入:

  1. 输入 n 和 k
  2. 输入一个整数数组

输出:

输出一个整数数组

样例输入:

5 21 3 5 7 2

样例输出:

1 2 

二、Top K问题

对于 Top K 问题有很多种解法。

解法一:排序

相信很多人会首先想到这种方法,先把数组按升序/降序进行排序,然后输出 K 个最小/最大的数。

  • 常规的排序方法时间复杂度至少是Θ(nlog2n)。()
  • 可能你会说,我们可以使用。当然可以,但通常它们对输入的数组有一定的要求。比如计数排序要求 n 个数都是正整数,且它们的取值范围不太大。

解法二:部分排序 O(nk)

由于我们只需要找出最小/最大的 k 个数,所以我们可以进行部分排序,比如简单选择排序 和 冒泡排序,它们每一趟都能把一个最小/最大元素放在最终位置上,所以进行 k 趟就能把 n 个数中的前 k 个排序出来。

部分简单选择排序:

void select_sort(int A[], int n, int k){    for(int i=0; i

部分冒泡排序:

void bubble_sort(int A[], int n, int k){    for(int i=0; i
i; --j) // 一趟冒泡过程 if(A[j-1] > A[j]) { int tmp = A[j-1]; A[j-1] = A[j]; A[j] = tmp; flag = true; } if(flag == false) // 已经有序 return ; }}

那么,O(nlog2n) 与 O(nk) 哪一个更好呢?这取决于 k 的大小。在 k 较小的情况下,即 k<=log2n,可以选择部分排序。

解法三:快排划分 O(nlog2k)

根据基于快排partition操作的《》,我们知道,当我们求出第 k 顺序统计量时,位于它前面的元素都比它小,位于它后面的元素都比它大。这时,数组的前 k 个数就是最小的 k 个数。

int partition(int A[], int low, int high){    int pivot = A[low];    while(low < high)    {        while(low < high && A[high]>=pivot)            --high;        A[low] = A[high];        while(low < high && A[low]<=pivot)            ++low;        A[high] = A[low];    }    A[low] = pivot;    return low;}int topK(int A[], int low, int high, int k){    if(k <= 0)        return -1;    if(low == high)        return low;    int pos = partition(A, low, high);    int i = pos - low + 1;    if(i == k)        return pos;  // 返回前k个数的    else if(i > k)        return topK(A, low, pos, k);    else        return topK(A, pos+1, high, k-i);}

我们说这个算法的平均时间复杂度是线性的,更准确地说,是 O(nlog2k)。另外,为了避免特殊数据下的算法退化,最好使用随机化版本的划分操作。

int Partition(int* arr,int low ,int high){    int temp = arr[low];    while(low < high)    {        while(low < high && arr[high] >= temp)            high--;        arr[low] = arr[high];        while(low < high && arr[low] <= temp)            low++;        arr[high] = arr[low];    }    arr[low] = temp;//确定参考元素的位置    return low;}int KthElement(int * arr,int low, int high,int n ,int k){    if(arr == nullptr || low >= high || k > n)//边界条件和特殊输入的处理        return 0;    int pos = Partition(arr,low,high);    while(pos != n  - k)  //非递归形式    {        if(pos > n - k)        {            high = pos - 1;            pos = Partition(arr,low,high);        }        if(pos < n - k)        {            low = pos + 1;            pos = Partition(arr,low,high);        }    }    return arr[pos]; }

 

解法四:大根堆 O(nlog2k)

参见《》,可以用大小为 k 的大根堆来存储最小的 k 个数。大根堆的堆顶元素就是最小 k 个数中最大的一个。每次新考虑一个数 X:

  • 如果 X 比堆顶的元素 Y 大,则不需要改变原来的堆,因为这个元素比最小的 k 个数都大。

  • 如果 X 比堆顶元素 Y 小,那么用 X 替换堆顶的元素 Y。在 X 替换堆顶元素 Y 之后,大根堆的结构可能被破坏,需要进行向下调整。调整过程的时间复杂度是 O(log2k) 。

遍历完成以后,数组的前 k 个数就是最小的 k 个数,但是它们并非有序,而是以堆的形式存在。C++代码如下:

void AdjustDown(int A[], int i, int len)  {      int temp = A[i];  // 暂存A[i]      for(int largest=2*i+1; largest
A[largest]) ++largest; // 如果右子结点大 if(temp < A[largest]) { A[i] = A[largest]; i = largest; // 记录交换后的位置 } else break; } A[i] = temp; // 被筛选结点的值放入最终位置 }/* 建堆 */void BuildMaxHeap(int A[], int len){ for(int i=len/2-1; i>=0; --i) // 从i=n/2-1到0,反复调整堆 AdjustDown(A, i, len);}/* 维护 A[0...k-1] 这个大根堆 */void topK(int A[], int n, int k){ BuildMaxHeap(A, k); // 先用前面的k个数建大根堆 for(int i=k; i

注意:找最小的 k 个数,就维护一个大根堆;找最大的 k 个数,就维护一个小根堆。

 

转载地址:http://urcbx.baihongyu.com/

你可能感兴趣的文章
oracle导入导出小记
查看>>
聊一聊log4j2配置文件log4j2.xml
查看>>
NeHe OpenGL教程 第七课:光照和键盘
查看>>
修改上一篇文章的node.js代码,支持默认页及支持中文
查看>>
Php实现版本比较接口
查看>>
删除设备和驱动器中软件图标
查看>>
第四章 TCP粘包/拆包问题的解决之道---4.1---
查看>>
html语言
查看>>
从源码看集合ArrayList
查看>>
spring-boot支持websocket
查看>>
菜鸟笔记(一) - Java常见的乱码问题
查看>>
我理想中的前端工作流
查看>>
记一次Git异常操作:将多个repository合并到同一repository的同一分支
查看>>
CodeIgniter 3.0 新手捣鼓源码(一) base_url()
查看>>
Chrome 广告屏蔽功能不影响浏览器性能
查看>>
vSphere 6将于2月2日全球同步发表
查看>>
Android状态栏实现沉浸式模式
查看>>
让你的APP实现即时聊天功能
查看>>
iOS 绝对路径和相对路径
查看>>
使用Openfiler搭建ISCSI网络存储
查看>>