涂威威：第四范式经验与思考分享-阿里云开发者社区

涂威威：第四范式经验与思考分享

2017-11-30 3207

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 所谓科学发现的前三个范式第一是实验第二是理论第三是模拟第四范式就是数据挖掘。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性属于Association rule learning的信息的过程。

从图灵测试说起

目标判断机器是否表现出与人等价或无法区分的智能
两个基本问题

充分性通过图灵测试就是智能

必要性通过图灵测试才是智能

• 两个著名变种

Feigenbaum test

Nicholas Negroponte Test

4b2f519cafd06e14c1d283481e85e80a23e6934c

“人工” 智能发展历史

人工智能的发展经历了三个阶段

4daef5635ca2d65a657183e693e262fac8f312ac

机器学习的经典定义

利用经验改善系统性能
经验数据
机器学习被广泛应用
搜索与推荐
生物特征识别
自动驾驶
军事决策助手DARPA

机器学习的成功应用和成本

除AlphaGo之外还有大家所熟悉的广告系统整个智能广告上线后对收入有很大的提升但在获得提升的同时会付出高昂的成本。

889a788d362037f6fa4732582b5b344c674d0822

典型的机器学习过程

机器学习专家去定义一个问题通过定义这个问题从实际的应用中收集像样的数据做一些特征工程然后做一些模型训练最后做模型评估。中间的过程会是反反复复的。

96cf14c5b64515ee1cdf37a7def3d2048f32206b

机器学习的效果门槛

建模门槛

数据门槛

特征门槛

算法门槛

模型应用门槛

适应性门槛

信任门槛

数据安全和隐私门槛

建模门槛实际应用中数据和维度的趋势

有效数据的增长

数据量𝟏𝟎𝟒𝟏𝟎𝟏𝟎~𝟏𝟎𝟏𝟐

数据维度的增长

宏观维度𝟏𝟎𝟑→微观维度𝟏𝟎𝟏𝟎~𝟏𝟎𝟏𝟐

30389c4185c7a85fc3e22d0a0a362b5e9c8a784c

建模门槛机器学习模型的趋势

机器学习模型在工业应用中的四个象限

025f8ab8cfe214b634d2bb38a82cc5a375fb4fdd

建模门槛没有免费的午餐

No Free Lunch定理[Wolpert and Macready 1997]
任意两个算法𝑎1和𝑎2 ෍ 𝑓𝑃(𝑑𝑚 𝑦|𝑓,𝑚,𝑎1)=෍ 𝑓𝑃(𝑑𝑚 𝑦|𝑓,𝑚,𝑎2)
任意算法包括随机算法在所有问题上的期望性能一样
不存在通用算法
但在具体的实际问题上有可能存在比其他算法好的算法
需要针对不同的实际问题研究开发不同的机器学习算法

适应性门槛面对开放世界

数据分布变化

迁移学习

Importance Sampling

与环境交互、新训练样本

强化学习

新训练目标

迁移学习

样本属性含义变化

降低适应性门槛鲁棒机器学习

训练阶段

对噪声数据的鲁棒性

应用阶段

模型对未知样本的鲁棒性

置信度估计

对关键性高风险应用的鲁棒性

增加数据、Safe Machine Learning算法

信任门槛黑箱模型

比如医疗应用只给出诊断不给出原因无法给出治疗方案
可解释机器学习

Twice Learning [Zhou,2004]

LIME [Ribeiro, 2016]

Influence Functions Interpretation[Pang Wei Koh, 2017]

数据安全和隐私门槛

保护用户隐私同时保持数据的有效性
解决方案

保留数据隐私的机器学习方法

Differential Privacy

模型交易取代数据交易

机器学习应用的成本----计算成本

降低计算成本计算效率优化

怎么对计算效率进行优化分为四个点

计算
存储
通讯
容错

分布式并行计算

摩尔定律失效
能耗墙Power Wall
延迟墙Latency Wall
单机能力有限
IO、存储、计算有限
目前提升计算能力的主流方式
并行化降低执行延迟提升吞吐
但是Amdahl定律

分布式并行模型训练

数据分布式和模型分布式

典型计算模型数据流

典型计算模型参数服务器

趋势数据流 + 参数服务器

其他计算效率优化

计算

• 异构计算优化

• 异步合理地计算调度

存储

• 不同存储设备共存Hard Disk / SSD / NVMe / • RAM / L2 Cache…

• 多级缓存

通讯

• 提升网络吞吐、降低网络延迟

• 软件请求合并、缓存

• 硬件多网卡、InfiniBand…

灾备

• Data Lineage VS. Checkpointing

e68a9c2c4d775bda30108b95ca7544ed53e9d580

机器学习应用的成本-----专家成本

降低编程门槛机器学习平台

降低专业门槛从“人工”智能到机器智能

自动机器学习AUTOML

自动数据清洗
自动数据类型推断
自动特征工程
自动模型和参数选择

自动组合特征

自动化特征组合FeatureGo
问题空间22𝑑

•𝑑=20,10315652

•AlphaGo空间10171

895cec30d7fb9a22be843c8ced884263c9243ac8

自动时序特征

自动模型和超参数选择

Bayes方法
演化计算方法
迁移学习方法

自动模型和参数选择工程优化

机器学习应用的成本-----数据成本

降低数据成本学件、迁移学习

学件 = 模型 Model + 规约 Specification

•可重用

•可演进

•可了解

迁移学习[Pan & Yang, TKDE 2010]

•特征迁移

•样本迁移

•强化迁移学习

•终生学习

a16797b47f671d4513ea363fdb6e4c0ce0549fc6

AI在工业界有了很多成功的应用
AI for Everyone
效果
维复杂模型
强化学习
鲁棒机器学习
可解释机器学习
成本
降低专家成本AutoML
降低计算成本计算效率优化
降低数据成本学件、迁移学习

原文发布时间为2017-11-29

本文作者涂威威

本文来自云栖社区合作伙伴“中生代技术”了解相关信息可以关注“ 中生代技术 ”微信公众号

涂威威：第四范式经验与思考分享

中生代技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景