排序算法-白红宇

排序算法

阅读量：5076 次

发布时间：2019-06-12

本文共 4578 字，大约阅读时间需要 15 分钟。

排序算法常用的有：

当数据量不大时, 选择插入或者选择排序, 不用冒泡排序;

其次,当数据量大而又注重空间复杂性时,, 选择快速排序或堆排序;

再次,当数据量大而又允许使用较多附加空间时, 选择桶排序,

最后,当要在已排序数据上增加若干新数据时, 选择插入排序.

------- 摘自.C++数据结构原理与经典问题

1、插入排序（直接插入排序、折半插入排序、希尔排序）；

2、交换排序（起泡排序、快速排序）；

3、选择排序（直接选择排序、堆排序）；

4、归并排序； 5、基数排序；

排序方法的分类

1．按是否涉及数据的内、外存交换分

　在排序过程中，若整个文件都是放在内存中处理，排序时不涉及数据的内、外存交换，则称之为内部排序(简称内排序)；

反之，若排序过程中要进行数据的内、外存交换，则称之为外部排序。

注意：　 ① 内排序适用于记录个数不很多的小文件

　 ② 外排序则适用于记录个数太多，不能一次将其全部记录放人内存的大文件。

2．按策略划分内部排序方法 　

可以分为五类：

插入排序、

选择排序、

交换排序、

归并排序

分配排序。

待排文件的常用存储方式

（1）以顺序表(或直接用向量)作为存储结构

排序过程：对记录本身进行物理重排（即通过关键字之间的比较判定，将记录移到合适的位置）

（2）以链表作为存储结构　　

排序过程：无须移动记录，仅需修改指针。通常将这类排序称为链表(或链式)排序；

（3）用顺序的方式存储待排序的记录，但同时建立一个辅助表(如包括关键字和指向记录位置的指针组成的索引表) 　

　排序过程：只需对辅助表的表目进行物理重排（即只移动辅助表的表目，而不移动记录本身）。适用于难于在链表上实现，仍需避免排序过程中移动记录的排序方法。

一）排序的定义

所谓排序，就是要整理文件中的记录，使之按关键字递增(或递减)次序排列起来。

其确切定义如下：

输入：n个记录R₁，R₂，…，R_n，其相应的关键字分别为K₁，K₂，…，K_n。

输出：R_il，R_i2，…，R_in，使得K_i1≤K_i2≤…≤K_in。(或K_i1≥K_i2≥…≥K_in)。

二）排序的分类

1．按是否涉及数据的内、外存交换分在排序过程中，若整个文件都是放在内存中处理，排序时不涉及数据的内、外存交换，则称之为内部排序(简称内排序)；

反之，若排序过程中要进行数据的内、外存交换，则称之为外部排序。

注意：内排序适用于记录个数不很多的小文件外排序则适用于记录个数太多，不能一次将其全部记录放人内存的大文件。

2．按策略划分内部排序方法可以分为五类：插入排序、选择排序、交换排序、归并排序和分配排序。

三）具体的排序方法（待补充）

插入排序：直接插入排序、折半插入排序、希尔排序

交换排序：冒泡排序、快速排序

选择排序：简单选择排序、堆排序

归并排序：归并排序

四）排序算法的评价

1.评价排序算法好坏的标准评价排序算法好坏的标准主要有两条：

① 执行时间和所需的辅助空间

② 算法本身的复杂程度

2.排序算法的空间复杂度

若排序算法所需的辅助空间并不依赖于问题的规模n，即辅助空间是O(1)，则称之为就地排序(In-PlaceSou)。

非就地排序一般要求的辅助空间为O(n)。

3.排序算法的时间开销

大多数排序算法的时间开销主要是关键字之间的比较和记录的移动。

有的排序算法其执行时间不仅依赖于问题的规模，还取决于输入实例中数据的状态。

所谓排序，就是使一串记录，按照其中的某个或某些关键字的大小，递增或递减的排列起来的操作。

分类

在计算机科学所使用的排序算法通常被分类为：

计算的复杂度（最差、平均、和最好表现），依据串列（list）的大小（n）。一般而言，好的表现是O。(n log n)，且坏的行为是Ω(n2)。对於一个排序理想的表现是O(n)。

仅使用一个抽象关键比较运算的排序算法总平均上总是至少需要Ω(n log n)。

记忆体使用量（以及其他电脑资源的使用）

稳定度：稳定排序算法会依照相等的关键（换言之就是值）维持纪录的相对次序。也就是一个排序算法是稳定的，就是当有两个有相等关键的纪录R和S，且在原本的串列中R出现在S之前，在排序过的串列中R也将会是在S之前。

一般的方法：插入、交换、选择、合并等等。交换排序包含冒泡排序（bubble sort）和快速排序（quicksort）。选择排序包含shaker排序和堆排序（heapsort）。

当相等的元素是无法分辨的，比如像是整数，稳定度并不是一个问题。然而，假设以下的数对将要以他们的第一个数字来排序。

(4, 1) (3, 1) (3, 7) (5, 6)

在这个状况下，有可能产生两种不同的结果，一个是依照相等的键值维持相对的次序，而另外一个则没有：

(3, 1) (3, 7) (4, 1) (5, 6) (维持次序)

(3, 7) (3, 1) (4, 1) (5, 6) (次序被改变)

不稳定排序算法可能会在相等的键值中改变纪录的相对次序，但是稳定排序算法从来不会如此。

不稳定排序算法可以被特别地时作为稳定。作这件事情的一个方式是人工扩充键值的比较，如此在其他方面相同键值的两个物件间之比较，就会被决定使用在原先资料次序中的条目，当作一个同分决赛。

然而，要记住这种次序通常牵涉到额外的空间负担。

排列算法列表

在这个表格中，n是要被排序的纪录数量以及k是不同键值的数量。

稳定的

冒泡排序（bubble sort） — O(n2)

鸡尾酒排序 (Cocktail sort, 双向的冒泡排序) — O(n2)

插入排序（insertion sort）— O(n2)

桶排序（bucket sort）— O(n); 需要 O(k) 额外记忆体

计数排序 (counting sort) — O(n+k); 需要 O(n+k) 额外记忆体

归并排序（merge sort）— O(n log n); 需要 O(n) 额外记忆体

原地归并排序 — O(n2)

二叉树排序（Binary tree sort） — O(n log n); 需要 O(n) 额外记忆体

鸽巢排序 (Pigeonhole sort) — O(n+k); 需要 O(k) 额外记忆体

基数排序（radix sort）— O(n·k); 需要 O(n) 额外记忆体

Gnome sort — O(n2)

Library sort — O(n log n) with high probability, 需要 (1+ε)n 额外记忆体

不稳定

选择排序（selection sort）— O(n2)

希尔排序（shell sort）— O(n log n) 如果使用最佳的现在版本

Comb sort — O(n log n)

堆排序（heapsort）— O(n log n)

Smoothsort — O(n log n)

快速排序（quicksort）— O(n log n) 期望时间, O(n2) 最坏情况; 对於大的、乱数串列一般相信是最快的已知排序

Introsort — O(n log n)

Patience sorting — O(n log n + k) 最外情况时间, 需要额外的 O(n + k) 空间, 也需要找到最长的递增子序列（longest increasing subsequence）

不实用的排序算法

Bogo排序 — O(n × n!) 期望时间, 无穷的最坏情况。

Stupid sort — O(n3); 递回版本需要 O(n2) 额外记忆体

Bead sort — O(n) or O(√n), 但需要特别的硬体

Pancake sorting — O(n), 但需要特别的硬体

排序的算法

排序的算法有很多，对空间的要求及其时间效率也不尽相同。

下面列出了一些常见的排序算法。这里面插入排序和冒泡排序又被称作简单排序，他们对空间的要求不高，但是时间效率却不稳定；

而后面三种排序相对于简单排序对空间的要求稍高一点，但时间效率却能稳定在很高的水平。

基数排序是针对关键字在一个较小范围内的排序算法。

插入排序

冒泡排序

选择排序

快速排序

堆排序

归并排序

基数排序

希尔排序

插入排序

插入排序是这样实现的：

首先新建一个空列表，用于保存已排序的有序数列（我们称之为"有序列表"）。

从原数列中取出一个数，将其插入"有序列表"中，使其仍旧保持有序状态。

重复2号步骤，直至原数列为空。

插入排序的平均时间复杂度为平方级的，效率不高，但是容易实现。它借助了"逐步扩大成果"的思想，使有序列表的长度逐渐增加，直至其长度等于原列表的长度。

冒泡排序

冒泡排序是这样实现的：

首先将所有待排序的数字放入工作列表中。

从列表的第一个数字到倒数第二个数字，逐个检查：若某一位上的数字大于他的下一位，则将它与它的下一位交换。

重复2号步骤，直至再也不能交换。

冒泡排序的平均时间复杂度与插入排序相同，也是平方级的，但也是非常容易实现的算法。

选择排序

选择排序是这样实现的：

设数组内存放了n个待排数字，数组下标从1开始，到n结束。

i=1

从数组的第i个元素开始到第n个元素，寻找最小的元素。

将上一步找到的最小元素和第i位元素交换。

如果i=n－1算法结束，否则回到第3步

选择排序的平均时间复杂度也是O(n²)的。

快速排序

现在开始，我们要接触高效排序算法了。实践证明，快速排序是所有排序算法中最高效的一种。它采用了分治的思想：先保证列表的前半部分都小于后半部分，然后分别对前半部分和后半部分排序，这样整个列表就有序了。这是一种先进的思想，也是它高效的原因。因为在排序算法中，算法的高效与否与列表中数字间的比较次数有直接的关系，而"保证列表的前半部分都小于后半部分"就使得前半部分的任何一个数从此以后都不再跟后半部分的数进行比较了，大大减少了数字间不必要的比较。但查找数据得另当别论了。

堆排序

堆排序与前面的算法都不同，它是这样的：

首先新建一个空列表，作用与插入排序中的"有序列表"相同。

找到数列中最大的数字，将其加在"有序列表"的末尾，并将其从原数列中删除。

重复2号步骤，直至原数列为空。

堆排序的平均时间复杂度为nlogn,效率高（因为有堆这种数据结构以及它奇妙的特征，使得"找到数列中最大的数字"这样的操作只需要O(1)的时间复杂度，维护需要logn的时间复杂度），但是实现相对复杂（可以说是这里7种算法中比较难实现的）。

看起来似乎堆排序与插入排序有些相像，但他们其实是本质不同的算法。至少，他们的时间复杂度差了一个数量级，一个是平方级的，一个是对数级的。

平均时间复杂度

插入排序 O(n2)

冒泡排序 O(n2)

选择排序 O(n2)

快速排序 O(n log n)