从图灵测试说起
- 目标判断机器是否表现出与人等价或 无法区分的智能
- 两个基本问题
充分性通过图灵测试就是智能
必要性通过图灵测试才是智能
- • 两个著名变种
Feigenbaum test
Nicholas Negroponte Test
“人工” 智能发展历史
人工智能的发展经历了三个阶段
机器学习的经典定义
- 利用经验改善系统性能
- 经验 数据
- 机器学习被广泛应用
- 搜索与推荐
- 生物特征识别
- 自动驾驶
- 军事决策助手DARPA
机器学习的成功应用和成本
除AlphaGo之外还有大家所熟悉的广告系统整个智能广告上线后对收入有很大的提升但在获得提升的同时会付出高昂的成本。
典型的机器学习过程
机器学习专家去定义一个问题通过定义这个问题从实际的应用中收集像样的数据做一些特征工程然后做一些模型训练最后做模型评估。中间的过程会是反反复复的。
机器学习的效果门槛
- 建模门槛
数据门槛
特征门槛
算法门槛
- 模型应用门槛
适应性门槛
信任门槛
数据安全和隐私门槛
建模门槛实际应用中数据和维度的趋势
- 有效数据的增长
数据量𝟏𝟎𝟒𝟏𝟎𝟏𝟎~𝟏𝟎𝟏𝟐
- 数据维度的增长
宏观维度𝟏𝟎𝟑→微观维度𝟏𝟎𝟏𝟎~𝟏𝟎𝟏𝟐
建模门槛机器学习模型的趋势
机器学习模型在工业应用中的四个象限
建模门槛没有免费的午餐
- No Free Lunch定理[Wolpert and Macready 1997]
- 任意两个算法𝑎1和𝑎2 𝑓𝑃(𝑑𝑚 𝑦|𝑓,𝑚,𝑎1)= 𝑓𝑃(𝑑𝑚 𝑦|𝑓,𝑚,𝑎2)
- 任意算法包括随机算法在所有问题上的期望性能一样
- 不存在通用算法
- 但在具体的实际问题上有可能存在比其他算法好的算法
- 需要针对不同的实际问题研究开发不同的机器学习算法
适应性门槛面对开放世界
- 数据分布变化
迁移学习
Importance Sampling
- 与环境交互、新训练样本
强化学习
- 新训练目标
迁移学习
- 样本属性含义变化
降低适应性门槛鲁棒机器学习
- 训练阶段
对噪声数据的鲁棒性
- 应用阶段
模型对未知样本的鲁棒性
置信度估计
对关键性高风险应用的鲁棒性
增加数据、Safe Machine Learning算法
信任门槛黑箱模型
- 比如医疗应用只给出诊断不给出原因无法给出治疗方案
- 可解释机器学习
Twice Learning [Zhou,2004]
LIME [Ribeiro, 2016]
Influence Functions Interpretation[Pang Wei Koh, 2017]
数据安全和隐私门槛
- 保护用户隐私同时保持数据的有效性
- 解决方案
保留数据隐私的机器学习方法
Differential Privacy
- 模型交易取代数据交易
机器学习应用的成本----计算成本
降低计算成本计算效率优化
怎么对计算效率进行优化分为四个点
- 计算
- 存储
- 通讯
- 容错
分布式并行计算
- 摩尔定律失效
- 能耗墙Power Wall
- 延迟墙Latency Wall
- 单机能力有限
- IO、存储、计算有限
- 目前提升计算能力的主流方式
- 并行化降低执行延迟提升吞吐
- 但是Amdahl定律
分布式并行模型训练
- 数据分布式和模型分布式
典型计算模型数据流
典型计算模型参数服务器
趋势数据流 + 参数服务器
其他计算效率优化
- 计算
• 异构计算优化
• 异步合理地计算调度
- 存储
• 不同存储设备共存Hard Disk / SSD / NVMe / • RAM / L2 Cache…
• 多级缓存
- 通讯
• 提升网络吞吐、降低网络延迟
• 软件请求合并、缓存
• 硬件多网卡、InfiniBand…
- 灾备
• Data Lineage VS. Checkpointing
机器学习应用的成本-----专家成本
降低编程门槛机器学习平台
降低专业门槛从“人工”智能到机器智能
自动机器学习AUTOML
- 自动数据清洗
- 自动数据类型推断
- 自动特征工程
- 自动模型和参数选择
自动组合特征
- 自动化特征组合FeatureGo
- 问题空间22𝑑
•𝑑=20,10315652
•AlphaGo空间10171
自动时序特征
自动模型和超参数选择
- Bayes方法
- 演化计算方法
- 迁移学习方法
自动模型和参数选择工程优化
机器学习应用的成本-----数据成本
降低数据成本学件、迁移学习
- 学件 = 模型 Model + 规约 Specification
•可重用
•可演进
•可了解
- 迁移学习[Pan & Yang, TKDE 2010]
•特征迁移
•样本迁移
•强化迁移学习
•终生学习
- AI在工业界有了很多成功的应用
- AI for Everyone
- 效果
- 维复杂模型
- 强化学习
- 鲁棒机器学习
- 可解释机器学习
- 成本
- 降低专家成本AutoML
- 降低计算成本计算效率优化
- 降低数据成本学件、迁移学习