数据结构学习(C++)续——排序【2】插入排序

发表于:2007-07-01来源:作者:点击数: 标签:
基本思想是,每步将一个待排序的记录,按其关键码大小,插入到前面已经排好序的记录的适当位置,从头做到尾就可以了。 直接插入排序 template class T void InsertSort(T a[], int N, int KCN, int RMN) { KCN = 0; RMN = 0; for (int i = 1; i N; i++) { T

基本思想是,每步将一个待排序的记录,按其关键码大小,插入到前面已经排好序的记录的适当位置,从头做到尾就可以了。

直接插入排序

template <class T>

void InsertSort(T a[], int N, int& KCN, int& RMN)

{

       KCN = 0; RMN = 0;

      for (int i = 1; i < N; i++)

       {

              T temp = a[i]; RMN++;

              for (int j = i; j > 0 && ++KCN && temp < a[j - 1]; j--) { a[j] = a[j - 1]; RMN++; }

              a[j] = temp; RMN++;

       }

}

精简之后就是这样:

template<class T> void InsertSort(T a[], int N)

{

      for (int i = 1; i < N; i++)

       {

              T temp = a[i];

              for (int j = i; j > 0 && temp < a[j - 1]; j--) a[j] = a[j - 1];

              a[j] = temp;

       }

}

测试结果:

Sort ascending  N=10000 TimeSpared: 0ms

KCN=9999       KCN/N=0.9999     KCN/N^2=9.999e-005 KCN/NlogN=0.07525

RMN=19998      RMN/N=1.9998     RMN/N^2=0.00019998 RMN/NlogN=0.1505

Sort randomness N=10000 TimeSpared: 330ms

KCN=24293730   KCN/N=2429.37    KCN/N^2=0.242937   KCN/NlogN=182.829

RMN=24303739   RMN/N=2430.37    RMN/N^2=0.243037   RMN/NlogN=182.904

Sort descending N=10000 TimeSpared: 711ms

KCN=49995000   KCN/N=4999.5     KCN/N^2=0.49995    KCN/NlogN=376.25

RMN=50014998   RMN/N=5001.5     RMN/N^2=0.50015    RMN/NlogN=376.4

可以看出,平均性能近似为n2/4,书上没有骗人(废话,多少人做过多少试验才得出的结论)。

折半插入排序

将直插排序中的搜索策略由顺序搜索变为折半搜索,便能得到此种排序方法。显而易见,只能减少KCN,不能减少RMN,所能带来的性能提升也不会太大。

template<class T>

void BinaryInsertSort(T a[], int N, int& KCN, int& RMN)

{

       KCN = 0; RMN = 0;

      for (int i = 1; i < N; i++)

       {

              T temp = a[i]; RMN++; int low = 0, high = i - 1;

              while (low <= high)//折半查找

              {

                     int mid = (low + high) / 2;

                     if (++KCN && temp < a[mid]) high = mid - 1; else low = mid + 1;

              }

              for (int j = i - 1; j >= low; j--) { a[j + 1] = a[j]; RMN++; }//记录后移

              a[low] = temp; RMN++;//插入

       }

}

测试结果:

Sort ascending  N=10000 TimeSpared: 0ms

KCN=123617     KCN/N=12.3617    KCN/N^2=0.00123617 KCN/NlogN=0.930311

RMN=19998      RMN/N=1.9998     RMN/N^2=0.00019998 RMN/NlogN=0.1505

Sort randomness N=10000 TimeSpared: 320ms

KCN=118987     KCN/N=11.8987    KCN/N^2=0.00118987 KCN/NlogN=0.895466

RMN=24303739   RMN/N=2430.37    RMN/N^2=0.243037   RMN/NlogN=182.904

Sort descending N=10000 TimeSpared: 631ms

KCN=113631     KCN/N=11.3631    KCN/N^2=0.00113631 KCN/NlogN=0.855158

RMN=50014998   RMN/N=5001.5     RMN/N^2=0.50015    RMN/NlogN=376.4

可以看到KCN近似为nlog2n,有一定的性能提升。

表插入排序

如果用“指针”来表示记录间的顺序,就可以避免大量的记录移动,当然,最后还是要根据“指针”重排一下。自然的,折半查找在这里用不上了。

template <class T>

void TableInsertSort(T a[], int N, int& KCN, int& RMN)

{

       KCN = 0; RMN = 0;

       int* link = new int[N]; int head = 0, pre, cur, i; link[0] = -1;

       for (i = 1; i < N; i++)

       {

              if (a[head] > a[i]) { link[i] = head; head = i; KCN++;}//没设表头,因此需要此判断,失败时此次判断没记入KCN

              else

              {

                     for (cur = head; cur != -1&& ++KCN && a[cur] <= a[i]; cur = link[cur]) pre = cur;

                    link[pre] = i; link[i] = cur;

              }

       }

       cur = head;//重排序列

       for (i = 0; i < N; i++)

       {

              while (cur < i) cur = link[cur];

              pre = link[cur];

              if (cur != i)

              {

                     swap(a[i], a[cur]); RMN += 3;

                     link[cur] = link[i]; link[i] = cur;

              }

              cur = pre;

       }

       delete []link;

}

测试结果:

Sort ascending  N=10000 TimeSpared: 751ms

KCN=49995000   KCN/N=4999.5     KCN/N^2=0.49995    KCN/NlogN=376.25

RMN=0          RMN/N=0          RMN/N^2=0          RMN/NlogN=0

Sort randomness N=10000 TimeSpared: 621ms

KCN=25721250   KCN/N=2572.13    KCN/N^2=0.257213   KCN/NlogN=193.572

RMN=29955      RMN/N=2.9955     RMN/N^2=0.00029955 RMN/NlogN=0.225434

Sort descending N=10000 TimeSpared: 0ms

KCN=9999       KCN/N=0.9999     KCN/N^2=9.999e-005 KCN/NlogN=0.07525

RMN=15000      RMN/N=1.5        RMN/N^2=0.00015    RMN/NlogN=0.112886

可以看到,确实减少了RMN,理论上RMNmax=3(n-1)。然而,就平均情况而言,性能还不如简单的直插——这是由于测试对象是整数的缘故。对于链表来说,这种方法就不需要最后的重排了。关于重排的算法在严蔚敏的《数据结构(C语言版)》上有详细的说明。

希尔排序

前面的算法的平均效率都不怎么好,但我们注意到直插排序在关键码基本有序的情况下,效率是最好的,并且,在关键码的数量很少的时候,n和n2的差距也不是那么的明显。基于以上的事实,D.L.Shell在1959年(老古董了)提出了缩小增量排序,基本思想是:取一个间隔(gap),将序列分成若干的子序列,对每个子序列进行直插排序;然后逐渐缩小间隔,重复以上过程,直到间隔为1。在开始的时候,每个子序列里关键码很少,直插的效率很高;随着间隔的缩小,子序列的关键码越来越多,但是在前面的排序基础上,关键码已经基本有序,直插的效率依然很高。

希尔排序的时间复杂度不好估量,gap的选取也没有定论,gap=[gap/2]的程序是最好写的,至于为什么,写写就知道了。

template <class T>

void ShellSort(T a[], int N, int& KCN, int& RMN)

{

       KCN = 0; RMN = 0;

       for (int gap = N/2; gap; gap = gap/2)

              for (int i = gap; i < N; i++)

              {

                     T temp = a[i]; RMN++;

                     for (int j = i; j >= gap && ++KCN && temp < a[j - gap]; j -= gap)

                     { a[j] = a[j - gap]; RMN++; }

                     a[j] = temp; RMN++;

              }

}

测试结果:

Sort ascending  N=10000 TimeSpared: 0ms

KCN=120005     KCN/N=12.0005    KCN/N^2=0.00120005 KCN/NlogN=0.903128

RMN=240010     RMN/N=24.001     RMN/N^2=0.0024001  RMN/NlogN=1.80626

Sort randomness N=10000 TimeSpared: 10ms

KCN=258935     KCN/N=25.8935    KCN/N^2=0.00258935 KCN/NlogN=1.94868

RMN=383849     RMN/N=38.3849    RMN/N^2=0.00383849 RMN/NlogN=2.88875

Sort descending N=10000 TimeSpared: 10ms

KCN=172578     KCN/N=17.2578    KCN/N^2=0.00172578 KCN/NlogN=1.29878

RMN=302570     RMN/N=30.257     RMN/N^2=0.0030257  RMN/NlogN=2.27707

注意到这时的测试结果很不准确了,10000个整数的排序已经测试不出什么来了(估计新机器都是0ms,我这里也有个别的时候全是0)。因此,下面用100000个整数的排序重新测试了一次:

Sort ascending  N=100000        TimeSpared: 140ms

KCN=1500006    KCN/N=15.0001    KCN/N^2=0.000150001KCN/NlogN=0.903094

RMN=3000012    RMN/N=30.0001    RMN/N^2=0.000300001RMN/NlogN=1.80619

Sort randomness N=100000        TimeSpared: 230ms

KCN=4041917    KCN/N=40.4192    KCN/N^2=0.000404192KCN/NlogN=2.43348

RMN=5598883    RMN/N=55.9888    RMN/N^2=0.000559888RMN/NlogN=3.37086

Sort descending N=100000        TimeSpared: 151ms

KCN=2244585    KCN/N=22.4459    KCN/N^2=0.000224459KCN/NlogN=1.35137

RMN=3844572    RMN/N=38.4457    RMN/N^2=0.000384457RMN/NlogN=2.31466

这个结果表明,希尔排序几乎没有最坏情况,无论是正序、逆序、乱序,所用时间都不是很多,附加储存是O(1),的确非常不错。在没搞清楚快速排序、堆排序之前,它的确是个很好的选择,我当年一直用它。


原文转自:http://www.ltesting.net