涂威威:第四范式经验与思考分享

简介: 所谓科学发现的前三个范式第一是实验第二是理论第三是模拟第四范式就是数据挖掘。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性属于Association rule learning的信息的过程。

从图灵测试说起

  • 目标判断机器是否表现出与人等价或 无法区分的智能 
  • 两个基本问题 

   充分性通过图灵测试就是智能 

   必要性通过图灵测试才是智能 

  • • 两个著名变种 

    Feigenbaum test 

    Nicholas Negroponte Test

4b2f519cafd06e14c1d283481e85e80a23e6934c

“人工” 智能发展历史

人工智能的发展经历了三个阶段

4daef5635ca2d65a657183e693e262fac8f312ac

机器学习的经典定义

  • 利用经验改善系统性能 
  • 经验 数据 
  • 机器学习被广泛应用 
  • 搜索与推荐 
  • 生物特征识别 
  • 自动驾驶 
  • 军事决策助手DARPA 

机器学习的成功应用和成本

014d3f1e52b14525674e3f8798426bd3b618326b

除AlphaGo之外还有大家所熟悉的广告系统整个智能广告上线后对收入有很大的提升但在获得提升的同时会付出高昂的成本。

889a788d362037f6fa4732582b5b344c674d0822

典型的机器学习过程

机器学习专家去定义一个问题通过定义这个问题从实际的应用中收集像样的数据做一些特征工程然后做一些模型训练最后做模型评估。中间的过程会是反反复复的。

96cf14c5b64515ee1cdf37a7def3d2048f32206b

机器学习的效果门槛

  •  建模门槛 

   数据门槛 

   特征门槛 

   算法门槛 

  • 模型应用门槛 

  适应性门槛 

  信任门槛 

  数据安全和隐私门槛

建模门槛实际应用中数据和维度的趋势

  • 有效数据的增长 

  数据量𝟏𝟎𝟒𝟏𝟎𝟏𝟎~𝟏𝟎𝟏𝟐

  • 数据维度的增长 

  宏观维度𝟏𝟎𝟑→微观维度𝟏𝟎𝟏𝟎~𝟏𝟎𝟏𝟐

30389c4185c7a85fc3e22d0a0a362b5e9c8a784c

建模门槛机器学习模型的趋势

机器学习模型在工业应用中的四个象限

025f8ab8cfe214b634d2bb38a82cc5a375fb4fdd

建模门槛没有免费的午餐 

  • No Free Lunch定理[Wolpert and Macready 1997]
  • 任意两个算法𝑎1和𝑎2 ෍ 𝑓𝑃(𝑑𝑚 𝑦|𝑓,𝑚,𝑎1)=෍ 𝑓𝑃(𝑑𝑚 𝑦|𝑓,𝑚,𝑎2)  
  • 任意算法包括随机算法在所有问题上的期望性能一样  
  • 不存在通用算法  
  • 但在具体的实际问题上有可能存在比其他算法好的算法  
  • 需要针对不同的实际问题研究开发不同的机器学习算法

适应性门槛面对开放世界

  • 数据分布变化  

  迁移学习  

  Importance Sampling  

  • 与环境交互、新训练样本  

  强化学习  

  • 新训练目标  

  迁移学习  

  • 样本属性含义变化

e2a5d7f932279816d58acc1c6066e21e7def40f8

降低适应性门槛鲁棒机器学习

  • 训练阶段  

  对噪声数据的鲁棒性  

  • 应用阶段  

  模型对未知样本的鲁棒性  

   置信度估计  

  对关键性高风险应用的鲁棒性  

   增加数据、Safe Machine Learning算法

信任门槛黑箱模型

  • 比如医疗应用只给出诊断不给出原因无法给出治疗方案  
  • 可解释机器学习  

  Twice Learning [Zhou,2004]  

   LIME [Ribeiro, 2016] 

   Influence Functions Interpretation[Pang Wei Koh, 2017]

5310a09188c4d03d30d7272a5654b6c6ab91e0ec

数据安全和隐私门槛

  • 保护用户隐私同时保持数据的有效性  
  • 解决方案  

    保留数据隐私的机器学习方法  

    Differential Privacy  

  • 模型交易取代数据交易

171d0788acbf3ad9a96a44c153e1fa4720210cfc

机器学习应用的成本----计算成本

降低计算成本计算效率优化

怎么对计算效率进行优化分为四个点

  • 计算  
  • 存储  
  • 通讯  
  • 容错

分布式并行计算

  • 摩尔定律失效 
  • 能耗墙Power Wall 
  • 延迟墙Latency Wall 
  • 单机能力有限 
  • IO、存储、计算有限 
  • 目前提升计算能力的主流方式 
  • 并行化降低执行延迟提升吞吐 
  • 但是Amdahl定律

36610e7f43ab65076e6fd8025e9abb52618e96fe

分布式并行模型训练

  • 数据分布式和模型分布式

c3b66bb9da8f01bfea0b5c5847115829f43d45fc

典型计算模型数据流

48d836e2ef9c32d5d48348cd3f79e5e0b7ead8c8

典型计算模型参数服务器

39294d9ab69cbb15e43b2ee2396c0726ee8049fd

趋势数据流 + 参数服务器

7c9cf0168bf5a96c3c67c102c2e042c5d0975691

其他计算效率优化

  • 计算  

   • 异构计算优化  

   • 异步合理地计算调度  

  • 存储  

   • 不同存储设备共存Hard Disk / SSD / NVMe /    • RAM / L2 Cache…  

    • 多级缓存  

  • 通讯  

   • 提升网络吞吐、降低网络延迟  

    • 软件请求合并、缓存  

    • 硬件多网卡、InfiniBand…  

  • 灾备  
   • Data Lineage VS. Checkpointing

e68a9c2c4d775bda30108b95ca7544ed53e9d580

机器学习应用的成本-----专家成本

降低编程门槛机器学习平台

20ea7bf3d5341988f3f71981a28af5a256fa9fbd

降低专业门槛从“人工”智能到机器智能

2a126efdc63fe1ac21740a74b8ecf06a210fefdc

自动机器学习AUTOML

  • 自动数据清洗  
  • 自动数据类型推断  
  • 自动特征工程  
  • 自动模型和参数选择  

自动组合特征

  • 自动化特征组合FeatureGo  
  • 问题空间22𝑑  

    •𝑑=20,10315652  

     •AlphaGo空间10171

895cec30d7fb9a22be843c8ced884263c9243ac8

自动时序特征

3b4df8d1c617b538de5da801599909a16fc93fcf

自动模型和超参数选择

  • Bayes方法  
  • 演化计算方法  
  • 迁移学习方法

029cb22500effa8bb5422b83ad8df509c0d0f1a4

自动模型和参数选择工程优化

43440d1b9cd89e5a00ca36cf63d65c91eb9ce1da

机器学习应用的成本-----数据成本

降低数据成本学件、迁移学习

  • 学件 = 模型 Model + 规约 Specification  

   •可重用  

   •可演进  

   •可了解  

  • 迁移学习[Pan & Yang, TKDE 2010]  

   •特征迁移  

   •样本迁移  

   •强化迁移学习  

   •终生学习

a16797b47f671d4513ea363fdb6e4c0ce0549fc6

  • AI在工业界有了很多成功的应用  
  • AI for Everyone  
  • 效果  
  • 维复杂模型  
  • 强化学习  
  • 鲁棒机器学习  
  • 可解释机器学习  
  • 成本  
  • 降低专家成本AutoML  
  • 降低计算成本计算效率优化  
  • 降低数据成本学件、迁移学习


原文发布时间为2017-11-29
本文作者涂威威
本文来自云栖社区合作伙伴“中生代技术”了解相关信息可以关注“ 中生代技术 ”微信公众号


相关文章
|
18天前
|
存储 运维 数据可视化
驾驭数据的能力,如同使用ChatGPT一样,是现代职场人的必修课
现代职场所比拼的除了聪明才智、过往经验之外,很多软性技能也尤为重要。现在已经不是像网络游戏开局拿着一根小木棍打天下的时代了,这将是一场武装到牙齿的较量,对于各类“装备”的驾驭能力有时候甚至可以决定胜负。
驾驭数据的能力,如同使用ChatGPT一样,是现代职场人的必修课
|
1月前
|
设计模式 算法 测试技术
【软件设计师备考 专题 】标准化知识:意识和发展(一)
【软件设计师备考 专题 】标准化知识:意识和发展
47 0
|
6月前
技术人修炼之道阅读笔记(一)让自己更值钱的5个能力
技术人修炼之道阅读笔记(一)让自己更值钱的5个能力
|
1月前
|
网络协议 算法 安全
【软件设计师备考 专题 】标准化知识:意识和发展(二)
【软件设计师备考 专题 】标准化知识:意识和发展
26 0
|
3月前
|
数据采集 人工智能 自然语言处理
大模型发展亟需高质量“教材”相伴
【1月更文挑战第20天】大模型发展亟需高质量“教材”相伴
30 2
大模型发展亟需高质量“教材”相伴
|
3月前
|
数据采集 人工智能 自然语言处理
回望做大模型一年后的感悟
本文为转载,就不计入我的一月更文计划中了。本文作者:刘聪NLP , NLP算法工程师,专业炼丹师。原文链接见:https://mp.weixin.qq.com/s/CfAY8FCrQKKIrQx3U10EcQ
|
9月前
终身成长本质:成长型思维——打败人不成熟,成为高效能人士
终身成长本质:成长型思维——打败人不成熟,成为高效能人士
|
11月前
|
人工智能 城市大脑 达摩院
特辑 | 培养创新思维,推荐这4本书!
编者按: 创新是世界发展的动力来源,也是科学技术的生命,对于个人、企业乃至国家而言,只有创新才能具有竞争力,更好的拥抱变化。那么有哪些思维可以帮助我们创新,激发创造力,助推企业的发展?这篇文章就与大家一起分享阿里巴巴集团副总裁、达摩院城市大脑实验室负责人华先胜的阅读与思考。
345 0
|
机器学习/深度学习 存储 人工智能
复盘|香侬科技:“云”上成长新范式
自然语言处理(NLP)的历史,几乎跟计算机科学一样久远。直到深度神经网络的出现,才从根本上改变了自然语言处理的发展周期,也一度给人工智能由弱到强、由窄变宽的变革趋势注入了一针“强心剂”。 如今,智能搜索与推荐、智能问答系统、语义分析、机器翻译等自然语言处理核心技术早已走出实验室,应用于互联网、金融等诸多行业。在过往的研发中,香侬科技与阿里云团队无数次“碰撞”,逐渐找到了解决自然语言处理在开发、部署、交付等环节中对底层云资源的依赖和如何优化调度。凭借在科研和应用上的领先性,短短几年内香侬科技就崭露头角。
581 1
复盘|香侬科技:“云”上成长新范式
|
机器学习/深度学习 人工智能 算法
复旦大学产学合作实践:面向新工科的机器学习混合课程建设
从认知论的角度而言,人类获得新知识的过程往往是从大量的个案和具体的问题入手,通过抽取其共性,形成了相关的概念和认识,然后在应用到个案中。在机器学习建设过程中,通过课前引入具体的应用领域背景,揭示其中要解决的问题,增加在线课程的趣味性和吸引力。在此基础上,从现实领域问题的视野,突出其中关键的步骤,然后再介绍相关的概念和算法等理论知识,并给出具体的解题过程。之后还要通过自建案例库的实验探讨其中的关键问题,从而能使学生的认知达到一定的深度。这个从应用中学习的过程也是深度学习的要求。
399 0
复旦大学产学合作实践:面向新工科的机器学习混合课程建设