八大排序算法的 Python 实现

简介:

1、插入排序

插入排序的基本操作就是将一个数据插入到已经排好序的有序数据中,从而得到一个新的、个数加一的有序数据,算法适用于少量数据的排序,时间复杂度为O(n^2)。是稳定的排序方法。插入算法把要排序的数组分成两部分:第一部分包含了这个数组的所有元素,但将最后一个元素除外(让数组多一个空间才有插入的位置),而第二部分就只包含这一个元素(即待插入元素)。在第一部分排序完成后,再将这个最后元素插入到已排好序的第一部分中。

 
  1. def insert_sort(lists):
  2. # 插入排序
  3. count = len(lists)
  4. for i in range(1, count):
  5. key = lists[i]
  6. j = i - 1
  7. while j >= 0:
  8. if lists[j] > key:
  9. lists[j + 1] = lists[j]
  10. lists[j] = key
  11. j -= 1
  12. return lists

2、希尔排序

希尔排序Shell Sort是插入排序的一种。也称缩小增量排序,是直接插入排序算法的一种更高效的改进版本。希尔排序是非稳定排序算法。该方法因DL.Shell于1959年提出而得名。 希尔排序是把记录按下标的一定增量分组,对每组使用直接插入排序算法排序;随着增量逐渐减少,每组包含的关键词越来越多,当增量减至1时,整个文件恰被分成一组,算法便终止。

 
  1. def shell_sort(lists):
  2. # 希尔排序
  3. count = len(lists)
  4. step = 2
  5. group = count / step
  6. while group > 0:
  7. for i in range(0, group):
  8. j = i + group
  9. while j < count:
  10. k = j - group
  11. key = lists[j]
  12. while k >= 0:
  13. if lists[k] > key:
  14. lists[k + group] = lists[k]
  15. lists[k] = key
  16. k -= group
  17. j += group
  18. group /= step
  19. return lists

3、冒泡排序

它重复地走访过要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。

 
  1. def bubble_sort(lists):
  2. # 冒泡排序
  3. count = len(lists)
  4. for i in range(0, count):
  5. for j in range(i + 1, count):
  6. if lists[i] > lists[j]:
  7. lists[i], lists[j] = lists[j], lists[i]
  8. return lists

4、快速排序

通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行,以此达到整个数据变成有序序列。

 
  1. def quick_sort(lists, left, right):
  2. # 快速排序
  3. if left >= right:
  4. return lists
  5. key = lists[left]
  6. low = left
  7. high = right
  8. while left < right:
  9. while left < right and lists[right] >= key:
  10. right -= 1
  11. lists[left] = lists[right]
  12. while left < right and lists[left] <= key:
  13. left += 1
  14. lists[right] = lists[left]
  15. lists[right] = key
  16. quick_sort(lists, low, left - 1)
  17. quick_sort(lists, left + 1, high)
  18. return lists

5、直接选择排序

基本思想:第1趟,在待排序记录r1 ~ r[n]中选出最小的记录,将它与r1交换;第2趟,在待排序记录r2 ~ r[n]中选出最小的记录,将它与r2交换;以此类推,第i趟在待排序记录r[i] ~ r[n]中选出最小的记录,将它与r[i]交换,使有序序列不断增长直到全部排序完毕。

 
  1. def select_sort(lists):
  2. # 选择排序
  3. count = len(lists)
  4. for i in range(0, count):
  5. min = i
  6. for j in range(i + 1, count):
  7. if lists[min] > lists[j]:
  8. min = j
  9. lists[min], lists[i] = lists[i], lists[min]
  10. return lists

6、堆排序

堆排序Heapsort是指利用堆积树(堆)这种数据结构所设计的一种排序算法,它是选择排序的一种。可以利用数组的特点快速定位指定索引的元素。堆分为大根堆和小根堆,是完全二叉树。大根堆的要求是每个节点的值都不大于其父节点的值,即A[PARENT[i]] >= A[i]。在数组的非降序排序中,需要使用的就是大根堆,因为根据大根堆的要求可知,最大的值一定在堆顶。

 
  1. # 调整堆
  2. def adjust_heap(lists, i, size):
  3. lchild = 2 * i + 1
  4. rchild = 2 * i + 2
  5. max = i
  6. if i < size / 2:
  7. if lchild < size and lists[lchild] > lists[max]:
  8. max = lchild
  9. if rchild < size and lists[rchild] > lists[max]:
  10. max = rchild
  11. if max != i:
  12. lists[max], lists[i] = lists[i], lists[max]
  13. adjust_heap(lists, max, size)
  14. # 创建堆
  15. def build_heap(lists, size):
  16. for i in range(0, (size/2))[::-1]:
  17. adjust_heap(lists, i, size)
  18. # 堆排序
  19. def heap_sort(lists):
  20. size = len(lists)
  21. build_heap(lists, size)
  22. for i in range(0, size)[::-1]:
  23. lists[0], lists[i] = lists[i], lists[0]
  24. adjust_heap(lists, 0, i)

7、归并排序

归并排序是建立在归并操作上的一种有效的排序算法,该算法是采用分治法Divide and Conquer的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。若将两个有序表合并成一个有序表,称为二路归并。

归并过程为:比较a[i]和a[j]的大小,若a[i]≤a[j],则将第一个有序表中的元素a[i]复制到r[k]中,并令i和k分别加上1;否则将第二个有序表中的元素a[j]复制到r[k]中,并令j和k分别加上1,如此循环下去,直到其中一个有序表取完,然后再将另一个有序表中剩余的元素复制到r中从下标k到下标t的单元。归并排序的算法我们通常用递归实现,先把待排序区间[s,t]以中点二分,接着把左边子区间排序,再把右边子区间排序,最后把左区间和右区间用一次归并操作合并成有序的区间[s,t]。

 
  1. def merge(left, right):
  2. i, j = 0, 0
  3. result = []
  4. while i < len(left) and j < len(right):
  5. if left[i] <= right[j]:
  6. result.append(left[i])
  7. i += 1
  8. else:
  9. result.append(right[j])
  10. j += 1
  11. result += left[i:]
  12. result += right[j:]
  13. return result
  14. def merge_sort(lists):
  15. # 归并排序
  16. if len(lists) <= 1:
  17. return lists
  18. num = len(lists) / 2
  19. left = merge_sort(lists[:num])
  20. right = merge_sort(lists[num:])
  21. return merge(left, right)

8、基数排序

基数排序radix sort属于“分配式排序”distribution sort,又称“桶子法”bucket sort或bin sort,顾名思义,它是透过键值的部份资讯,将要排序的元素分配至某些“桶”中,藉以达到排序的作用,基数排序法是属于稳定性的排序,其时间复杂度为O (nlog(r)m),其中r为所采取的基数,而m为堆数,在某些时候,基数排序法的效率高于其它的稳定性排序法。

 
  1. import math
  2. def radix_sort(lists, radix=10):
  3. k = int(math.ceil(math.log(max(lists), radix)))
  4. bucket = [[] for i in range(radix)]
  5. for i in range(1, k+1):
  6. for j in lists:
  7. bucket[j/(radix**(i-1)) % (radix**i)].append(j)
  8. del lists[:]
  9. for z in bucket:
  10. lists += z
  11. del z[:]
  12.  
  13. return lists本文来自云栖社区合作伙伴“Linux中国”,原文发布日期:2015-10-03
目录
相关文章
|
4天前
|
机器学习/深度学习 运维 算法
【Python机器学习专栏】异常检测算法在Python中的实践
【4月更文挑战第30天】本文介绍了异常检测的重要性和在不同领域的应用,如欺诈检测和网络安全。文章概述了四种常见异常检测算法:基于统计、距离、密度和模型的方法。在Python实践中,使用scikit-learn库展示了如何实现这些算法,包括正态分布拟合、K-means聚类、局部异常因子(LOF)和孤立森林(Isolation Forest)。通过计算概率密度、距离、LOF值和数据点的平均路径长度来识别异常值。
|
4天前
|
机器学习/深度学习 数据可视化 算法
【Python机器学习专栏】t-SNE算法在数据可视化中的应用
【4月更文挑战第30天】t-SNE算法是用于高维数据可视化的非线性降维技术,通过最小化Kullback-Leibler散度在低维空间保持数据点间关系。其特点包括:高维到二维/三维映射、保留局部结构、无需预定义簇数量,但计算成本高。Python中可使用`scikit-learn`的`TSNE`类实现,结合`matplotlib`进行可视化。尽管计算昂贵,t-SNE在揭示复杂数据集结构上极具价值。
|
4天前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习专栏】关联规则学习:Apriori算法详解
【4月更文挑战第30天】Apriori算法是一种用于关联规则学习的经典算法,尤其适用于购物篮分析,以发现商品间的购买关联。该算法基于支持度和置信度指标,通过迭代生成频繁项集并提取满足阈值的规则。Python中可借助mlxtend库实现Apriori,例如处理购物篮数据,设置支持度和置信度阈值,找出相关规则。
|
4天前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习专栏】层次聚类算法的原理与应用
【4月更文挑战第30天】层次聚类是数据挖掘中的聚类技术,无需预设簇数量,能生成数据的层次结构。分为凝聚(自下而上)和分裂(自上而下)两类,常用凝聚层次聚类有最短/最长距离、群集平均和Ward方法。优点是自动确定簇数、提供层次结构,适合小到中型数据集;缺点是计算成本高、过程不可逆且对异常值敏感。在Python中可使用`scipy.cluster.hierarchy`进行实现。尽管有局限,层次聚类仍是各领域强大的分析工具。
|
4天前
|
机器学习/深度学习 算法 数据挖掘
【Python 机器学习专栏】K-means 聚类算法在 Python 中的实现
【4月更文挑战第30天】K-means 是一种常见的聚类算法,用于将数据集划分为 K 个簇。其基本流程包括初始化簇中心、分配数据点、更新簇中心并重复此过程直到收敛。在 Python 中实现 K-means 包括数据准备、定义距离函数、初始化、迭代和输出结果。虽然算法简单高效,但它需要预先设定 K 值,且对初始点选择敏感,可能陷入局部最优。广泛应用在市场分析、图像分割等场景。理解原理与实现对应用聚类分析至关重要。
|
4天前
|
机器学习/深度学习 算法 前端开发
【Python机器学习专栏】集成学习算法的原理与应用
【4月更文挑战第30天】集成学习通过组合多个基学习器提升预测准确性,广泛应用于分类、回归等问题。主要步骤包括生成基学习器、训练和结合预测结果。算法类型有Bagging(如随机森林)、Boosting(如AdaBoost)和Stacking。Python中可使用scikit-learn实现,如示例代码展示的随机森林分类。集成学习能降低模型方差,缓解过拟合,提高预测性能。
|
4天前
|
机器学习/深度学习 算法 Python
【Python 机器学习专栏】随机森林算法的性能与调优
【4月更文挑战第30天】随机森林是一种集成学习方法,通过构建多棵决策树并投票或平均预测结果,具有高准确性、抗过拟合、处理高维数据的能力。关键性能因素包括树的数量、深度、特征选择和样本大小。调优方法包括调整树的数量、深度,选择关键特征和参数优化。Python 示例展示了使用 GridSearchCV 进行调优。随机森林广泛应用于分类、回归和特征选择问题,是机器学习中的重要工具。
|
4天前
|
机器学习/深度学习 算法 数据可视化
【Python机器学习专栏】决策树算法的实现与解释
【4月更文挑战第30天】本文探讨了决策树算法,一种流行的监督学习方法,用于分类和回归。文章阐述了决策树的基本原理,其中内部节点代表特征判断,分支表示判断结果,叶节点代表类别。信息增益等标准用于衡量特征重要性。通过Python的scikit-learn库展示了构建鸢尾花数据集分类器的示例,包括训练、预测、评估和可视化决策树。最后,讨论了模型解释和特征重要性评估在优化中的作用。
|
5天前
|
机器学习/深度学习 算法 数据挖掘
机器学习--K近邻算法,以及python中通过Scikit-learn库实现K近邻算法API使用技巧
机器学习--K近邻算法,以及python中通过Scikit-learn库实现K近邻算法API使用技巧
|
6天前
|
机器学习/深度学习 算法 数据挖掘
【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(下)
【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(下)
13 0