机器学习必备手册-阿里云开发者社区

更多深度文章，请关注云计算频道：https://yq.aliyun.com/cloud

a4327b3f7e761b6b1243b2c310ee149a3afa0a41

机器学习是计算机科学的一个子领域，在人工智能领域，机器学习逐渐发展成模式识别和计算科学理论的研究。从2016年起，机器学习到达了不合理的火热巅峰。但是，有效的机器学习是困难的，因为机器学习本身就是一个交叉学科，没有科学的方法及一定的积累很难入门。

如果你也想学习机器学习或者正在学习机器学习，本手册一定会帮助你走向你自己的“人生巅峰”。手册包含如何入门机器学习，机器学习流行算法，机器学习实战等等。

一．机器学习入门篇：

1．让你少走弯路：这有一份开展机器学习的简短指南

摘要：本文分享了一份简单的关于开展机器学习的心得体会，目的是给初学者提供基本的指导，主要讲解了建立系统、选择合适的评价指标、数据处理、系统优化等内容，帮助初学者少走一些弯路。

2. 机器学习的入门“秘籍”

摘要：机器学习已经成为当下最火热的技术之一，对于初学者来说，如何快速入门机器学习是至关重要的。本文属于入门级宝典，高手请绕道！

3. 会玩超级玛丽，机器学习能有多难？

摘要：小白也能看懂机器学习？这篇文章用超级玛丽的原理教会你，到底什么是机器学习，让尖端科技不再艰深难懂。

4. 机器学习能为你的业务做什么？有些事情你肯定猜不到！（机器学习入门第一篇）

摘要：机器学习是一项令人难以置信的技术，你需要了解很多很多的基础知识，以使得业务功能尽可能的不受复杂算法的影响，让你能够提出正确的问题、了解机器学习模型开发过程、成立一个团队以促进学科间的不断合作，而不是把数据科学视为一个产生奇迹的黑匣子。

5. 关于机器学习算法你需要了解的东西（机器学习入门第二篇）

摘要：对学习算法进行分类是基于构建模型时所需的数据：数据是否需要包括输入和输出或仅仅是输入，需要多少个数据点以及何时收集数据。根据上述分类原则，可以分为4个主要的类别：监督学习、无监督学习、半监督学习和强化学习。

6. 如何开发机器学习模型？（机器学习入门第三篇）

摘要：创建一个优秀的机器学习模型跟创建其他产品是一样的：首先从构思开始，把要解决的问题和一些潜在的解决方案放在一起考虑。一旦有了明确的方向，就可以对解决方案进行原型化，然后对它进行测试以确定是否满足需求，不妨看看本文是如何一步一步实现的。

7.如何高效运作机器学习团队（机器学习入门第四篇）

摘要: 一个“传统”的产品团队由设计师、工程师和产品经理组成，而数据分析师有时也会包含在其中，但大多数情况下是多个团队共享这个稀缺资源。在机器学习团队中又会有哪些角色和组织结构呢，本文为你揭晓。

8.机器学习会产生哪些用户体验问题？（机器学习入门第五篇）

摘要：许多机器学习算法都是黑匣子：输入大量的数据，然后获得一个以某种神秘方式工作的模型。这使得很难向用户解释机器学习的结果。在许多算法中，还存在着交互效应，这使得模型更加难以解释了。你可以把这个看成是特征之间的复合效应，特征之间以多种奇怪而又复杂并且不为人类所理解的方式结合在一起，整体效应大于各个部分效应。

9. 简单自学机器学习理论——引言 (Part I)

摘要：本篇文章是"机器学习理论"三部曲中的第一部分，主要介绍学习机器学习的动机及基本理论知识，详细介绍机器学习所学习的问题、泛化误差以及学习问题是否可解的公式化表示，为初步研究机器学习的人员介绍了机器学习的基本处理过程。

10. 简单自学机器学习理论—— 泛化界限 (Part II )

摘要：本篇文章是"机器学习理论"三部曲中的第二部分，主要介绍独立同分布、大数法则及hoeffding不等式等基本数学知识，详细推导了泛化界限及其分解。

11. 简单自学机器学习理论——正则化和偏置方差的权衡 (Part III )

摘要：本篇文章是"机器学习理论"三部曲中的第三部分，主要介绍方差分解以及目标函数的正则化，通过仿真可以看到，引入正则化项限定了学习问题的解决方案范围。

12. 入门级攻略：机器学习 VS. 深度学习

摘要：本文以浅显易懂的语言介绍了机器学习和深度学习的定义及应用，以及在源数据要求，硬件支持，特征工程、问题解决方式、执行时间及可解释性等方面的区别，对于新手入门有很大启示意义。

13. 增强学习小白？本文带你入门了解增强学习

摘要：入门一件新事物总是会有些无从下手的，看了本文希望可以给大家一些帮助和了解。

14.这10本由浅入深的好书，或让你成为机器学习领域的专家

摘要：机器学习是个跨领域的学科，而且在实际应用中有巨大作用，但是没有一本书能让你成为机器学习的专家。在这篇文章中，我挑选了10本书，这些书有不同的风格，主题也不尽相同，出版时间也不一样。因此，无论你是新手还是领域专家，定能找到适合你的。

15.想知道机器学习掌握的怎么样了吗？这有一份自测题（附答案和解析）

摘要：人类对于自动化和智能化的追求一直推动着技术的进步，而机器学习这类型的技术对各个领域都起到了巨大的作用。随着时间的推移我们将看到机器学习无处不在从移动个人助理到电子商务网站的推荐系统。即使作为一个外行你也不能忽视机器学习对你生活的影响。本次测试时面向对机器学习有一定了解的人。

16. 送机器学习电子书——(TensorFlow)RNN入门

摘要：本文作者正在写自己的新书Machine Learning with TensorFlow，这篇博文只是他新书的一小部分，作者用简单的语言介绍了RNN，不用一个小例子介绍了如何使用Tensorflow中内置的RNN模型进行预测。

17. 适合入门的8个趣味机器学习项目

摘要：还在为找不到机器学习入门练手项目而感到无奈吗？本指南中，将给大家带来8个适合初学者学习的有趣的机器学习项目，简单易学，相信会增添大家学习机器学习的信心。

18. 机器学习快速入门：你必须知道的三大算法

摘要：每天霸占新闻头条的“机器学习”，想入门，先看懂这三大算法。

二．机器学习算法篇：

1.快速选择合适的机器学习算法

摘要：机器学习初学者可以通过本文了解如何快速找到合适的机器学习算法。

2.多重角度解读：贝叶斯推理是怎么工作的

摘要：本文首先介绍了贝叶斯的起源，并利用简单的例子生动形象地讲解了贝叶斯定理是如何工作的，解释了其基本原理以及公式的物理含义。

3.简单通俗易懂：一个小例子完美解释Naive Bayes（朴素贝叶斯）分类器

摘要：Naive Bayes分类器的解释有很多，但是基于一个小例子来解释的不多，本文就是基于一个简单通俗易懂的小例子来解释Naive Bayes分类器。

4.“学”、“习”二合一：监督学习——支持向量机（SVM）入门

摘要：SVM是机器学习中有监督学习的一种，通常用来进行模式识别、分类、以及回归分析。本文用一个小例子简介SVM，言简意赅，通俗易懂。

5.机器学习利器——决策树和随机森林

摘要: 机器学习是当下最火的领域，本文通过一个小例子介绍了其核心算法：决策树和随机森林。

6.基于图的机器算法（一）

摘要：基于图的机器算法学习是一个强大的工具。结合运用模块特性，能够在集合检测中发挥更大作用。

7.基于图的机器算法（二）

摘要：基于图的机器算法学习是一个强大的工具。结合运用模块特性，能够在集合检测中发挥更大作用。本文是基于图的机器算法系列文的第二篇。

8.简单易学！一步步带你理解机器学习算法——马尔可夫链蒙特卡罗（MCMC）

摘要：对于简单的分布，很多的编程语言都能实现。但对于复杂的分布，是不容易直接抽样的。马尔可夫链蒙特卡罗算法解决了不能通过简单抽样算法进行抽样的问题，是一种实用性很强的抽样算法。本文将简明清晰地讲解马尔可夫链蒙特卡罗算法，带你理解它。

9.进阶隐式矩阵分解——探讨如何实现更快的算法

摘要：本文重点是围绕Conjugate Gradient（共轭梯度）方法来探讨更优的矩阵分解算法。

10.纯干货|机器学习中梯度下降法的分类及对比分析（附源码）

摘要：本文详细介绍了基于使用数据量的多少，时间复杂度以及算法准确率的不同类型的梯度下降法，并详细说明了3种梯度下降法的比较。

11.深度学习网络大杀器之Dropout（I）——深入解析Dropout

摘要：本文详细介绍了深度学习中dropout技巧的思想，分析了Dropout以及Inverted Dropout两个版本，另外将单个神经元与伯努利随机变量相联系让人耳目一新。

12.深度学习网络大杀器之Dropout（II）——将丢弃学习视为集成学习之我见

摘要：本文分析了可以将丢弃学习当作是集成学习。在集成学习中，可以将一个网络划分成若干个子网络，并且单独训练每个子网络。在训练学习后，将每个子网络的输出进行平均得到集成输出。另外，展示了丢弃学习可以看成是在每次迭代中不同隐藏节点集合的集成学习表现，同时也展示了丢弃学习有着与L2正则化一样的效果。

13.神经网络常用激活函数对比：sigmoid VS sofmax（附python源码）

摘要：本文介绍了神经网络中的两种常用激活函数——softmax与sigmoid函数，简单介绍了其基本原理、性质及其使用，并用python进行了实例化演示，在文章的最后总结了两种激活函数的区别。

14.新颖训练方法——用迭代投影算法训练神经网络

摘要：本文介绍了一种利用迭代投影算法对神经网络进行训练的方法，首先介绍了交替投影的基础知识，说明投影方法是寻找非凸优化问题解决方案的一种有效方法；之后介绍了差异图的基础知识，将差异图与一些其他算法相结合使得差分映射算法能够收敛于一个好的解决方案；当投影的情况变多时，介绍了分治算法，最后将迭代投影算法应用到神经网络训练中，给出的例子实验结果表明效果不错。

15.车辆追踪算法大PK：SVM+HOG vs. YOLO

摘要：本文通过SVM+HOG算法，YOLO算法实现车辆检测和跟踪准确性和速度的对比，得出YOLO算法更具优势的结论。

16.什么是视频向量化？本文带你了解基于DeepWalk的视频推荐

摘要：本文简要讲述了视频向量化，对DeepWalk的算法进行简单的解释。

17.比PCA降维更高级——（R/Python）t-SNE聚类算法实践指南

摘要: 本文介绍t-SNE聚类算法，分析其基本原理。并从精度上与PCA等其它降维算法进行比较分析，结果表明t-SNE算法更优越，本文最后给出了R、Python实现的示例以及常见问题。t-SNE算法用于自然语音处理、图像处理等领域很有研究前景。

18.随机森林 VS 梯度提升机——模型融合之我见

摘要：本文节选自Quora社区上“When would one use Random Forests over Gradient Boosted Machines (GBMs)?”问题的回答，几位博主就随机森林(Random Forests)与梯度提升机(Gradient Boosted Machines, GBMs)的适合场景以及优缺点展开了讨论。

三．机器学习常用库：

1.倚天遇到屠龙：LightGBM VS xgboost谁才是最强的梯度提升库？

摘要：很多人把XGBoost比作屠龙刀，LightGBM比作倚天剑，那么当倚天遇到屠龙，谁更强呢？

2.即学即用：Pandas入门与时间序列分析

摘要：这篇文章是Alexander Hendorf 在PyData Florence 2017上做的报告。报告前半部分主要为初学者介绍Pandas的基本功能，如数据输入/输出、可视化、聚合与选择与访问，后半部分主要介绍如何使用Pandas进行时间序列分析，源代码亲测可用。

3.俄罗斯最大搜索引擎Yandex开源了一款梯度提升机器学习库CatBoost

摘要：俄罗斯搜索巨头Yandex宣布，将向开源社区提交一款梯度提升机器学习库CatBoost。它能够在数据稀疏的情况下“教”机器学习。特别是在没有像视频、文本、图像这类感官型数据的时候，CatBoost也能根据事务型数据或历史数据进行操作。

4.Netflix开源面向稀疏数据优化的轻量级神经网络库Vectorflow

摘要：在Netflix公司，我们的机器学习科学家在多个不同的领域处理着各种各样的问题：从根据你的爱好来定制电视和推荐电影，到优化编码算法。我们有一小部分问题涉及到处理极其稀疏的数据；手头问题的总维度数很容易就能达到数千万个特征，即使每次要看的可能只是少数的非零项。

5.Python高性能计算库——Numba

摘要：在计算能力为王的时代，具有高性能计算的库正在被广泛大家应用于处理大数据。例如：Numpy，本文介绍了一个新的Python库——Numba，在计算性能方面，它比Numpy表现的更好。

6.第二热门语言：从入门到精通，Python数据分析库大全

摘要：本文介绍了一些常见的用于数据分析任务的Python库，如Numpy、Pandas、Matplotlib、Scikit-learn以及BeautifulSoup等，这些工具库功能强大，便于上手。有了这些帮助，数据分析会变得分外简单。

7.新工具——TensorLayer：管理深度学习项目的复杂性

摘要：本文介绍了一种新基于TensorFlow的python库——TensorLayer，它能够有效的帮助开发者管理好自己的深度学习网络。并且它还提供了很多功能强悍的API，帮助开发者更好的完成任务。

8.Pandas并非完美无缺

摘要：我们一直使用Pandas，但是却不知道关于Pandas的细节。Pandas开发者深度复盘Pandas，指出了十大关键性问题，并通过介绍了如何使用Apache Arrow来解决这些问题。

9. 关于Numba你可能不了解的七个方面

摘要：目前Numba正被开始流行使用来加速Python程序，本文讲解了七个大家可能不了解的方面，希望对大家有所帮助。

四．机器学习实战篇：

1.57行价值八千万美元的车牌识别代码

摘要：为了防止被窃车辆进入黑市销售，警方使用了一个名为VicRoads的基于网络的服务，该服务用于检查车辆的登记状态。该警局还投资研发了一个固定式汽车牌照扫描器：一个固定的三脚架摄像头，可扫描过往的车辆，并自动识别被窃车辆。

2.如何利用机器学习预测房价？

摘要：本文作者利用自己过去三个月里所学到的东西，来预测所在城市的房价。所用到的技术有网络爬取技术、文本自然语言处理，图像上的深度学习模型以及梯度增强技术等。

3.机器学习中的技术债务

摘要：许多人遇到技术债务时都会眉头紧锁，但一般来说，技术债务并不是一件坏事。例如，当我们需要在最后期限之前发布版本的时候，技术债务就是一个可以利用起来的合理手段。但是技术债务存在与金融债务一样的问题，那就是到了要偿还债务的时候，我们所付出的要比开始时付出得多。这是因为技术债务具有复合效应。

4.DIY图像压缩——机器学习实战之K-means 聚类图像压缩：色彩量化

摘要：本文以图像压缩为例，介绍了机器学习的实际应用之一。

5.如何将机器学习用在基于规则的验证上

摘要：这篇文章介绍了一些高级问题，比如：智能自治系统的验证有多少可以用机器学习来实现？大多数的需求是否仍然是基于规则的，如果是这样，那么它们如何跟机器学习相结合？机器学习和规则之间的不稳定接口如何影响基于机器学习的系统？

6.Certigrad——随机计算图优化系统

摘要：Certigrad是一种概念证明，它是用于开发机器学习系统的一个新途径。

7.使用神经网络和遗传算法玩转 Flappy Bird

摘要：本文展示了针对Flappy Bird游戏设计的机器学习算法。本实验的目标是使用神经网络和遗传算法编写一个人工智能游戏控制器，打出游戏最高分，不服的来挑战！

8.教机器写代码：增强拓扑进化网络(NEAT)

摘要：NEAT的意思是“增强拓扑进化网络”，它描述了在进化过程中受遗传修饰启发的自学习机器的算法概念，不妨看看它是如何教机器写代码的。

9. 机器学习中，使用Scikit-Learn简单处理文本数据

摘要：机器学习中，我们总是要先将源数据处理成符合模型算法输入的形式，比如将文字、声音、图像转化成矩阵。对于文本数据首先要进行分词（tokenization），移除停止词（stop words），然后将词语转化成矩阵形式，然后再输入机器学习模型中，这个过程称为特征提取（feature extraction）或者向量化（vectorization）。

五．机器学习杂谈篇：

1.关于机器学习你必须了解的十个真相

摘要：作者从非专业人士的角度对人工智能常见的误解进行了解释说明。

2.谁更胜一筹？——随机搜索 V.S. 网格搜索

摘要：随机法和网格法都是常用的、有效的结构优化方法。那么它们两者当中谁更胜一筹呢？在本文中，作者通过有趣的地形搜索实验，找到了答案。

3.没有任何公式——直观的理解变分自动编码器VAE

摘要：本文简单介绍了变分自动编码器VAE的基本原理，从经典神经网络的贝叶斯计算概率方法慢慢转变到变分自动编码器神经网络中的优化问题，使用KL散度度量误差，给大家提供一个VAE的基本框架。全篇没有公式，通俗易懂。

4.增强避障系统设计浅析：站在机器学习的角度，剖析学习型避障小车的设计思路

摘要：FF91于12017年1月4日在美国拉斯维加斯成功首发，拉开了互联网生态电动汽车的序幕。自动泊车使得停车也成为了一种享受，新手司机再也不用担心该如何见缝插针了。但是如果在车水马龙的繁忙环境下，无人驾驶还能得心应手吗？本文将站在机器学习的角度和大家分享学习型避障小车的设计思路。

5.AlphaGo在围棋界成为最强王者后，我们该如何进行机器学习？

摘要：机器学习无疑是时下的科技热点。无人驾驶，机器下棋，股市预测等领域，我们都能找到机器学习忙碌和高大的身影。那么对于初学者来说，该如何下手？该怎么学习呢？

6.分享Andrew Ng在深度学习暑期班中演讲的机器学习项目

摘要：深度学习项目流程，带你走出迷茫。

7.分布式机器学习平台比较

摘要：机器学习，特别是深度学习（DL），最近已经在语音识别、图像识别、自然语言处理、推荐/搜索引擎等领域获得了成功。这些技术在自主驾驶汽车、数字卫生系统、CRM、广告、物联网等方面都存在着非常有前景的应用。当然，资金驱动着这些技术以极快的速度向前发展，而且，最近我们已经看到了有很多机器学习平台正在建立起来。

8.机器学习和统计学的“爱恨情仇”可以结束了

摘要：机器学习和统计学在数据科学的领域里，已经相爱相杀很多年。今天，就让我们跟随ML从业者和统计学家两者组成团队，解开两者这几十年的“爱恨情仇”。

9.2017上半年无监督特征学习研究成果汇总

摘要：无监督学习是人工智能时代核心技术，今天我们就来盘点一下2017上半年无监督学习出现了那些重要的研究成果。

10.有监督相似性学习：基于相似问题数据的对称关系学习

摘要：本文简单介绍基于相似问题数据的对称关系学习，通过在Quora数据集和StackExchange语料库上应用孪生卷积神经网络的结果表明，对称网络能够较大幅度地提高检测精度。

11. 应用机器学习：传道解惑指南

摘要：本文作者编辑了一份包括概念、定义、资源以及工具的知识合集，这对于在这个复杂领域从事工作的人来说非常有用。

数十款阿里云产品限时折扣中，赶紧点击领劵开始云上实践吧！

本系列博客内容由北邮@爱可可-爱生活老师推荐，@阿里云云栖社区组织翻译，翻译小组袁虎负责整理。本系列长期更新，更多关于机器学习的优质好文，多多推荐！