大规模数据的分布式机器学习平台

  1. 云栖社区>
  2. 阿里巴巴大数据 —玩家社区>
  3. 博客>
  4. 正文

大规模数据的分布式机器学习平台

大数据史记 2017-05-17 22:40:05 浏览5625
展开阅读全文

来自阿里云IDST褚崴为大家带来分布式机器学习平台方面的内容,主要从大数据的特点和潜在价值开始讲起,然后介绍阿里的业务场景中常用到的机器学习算法,以及阿里采用的分布式机器学习框架,最后介绍了PAI算法平台,一起来看下吧。

 

大数据的特点和潜在价值

bb7952833cbb2acedbed7c3a98100657523fde60

我们正在步入大数据的时代,大数据至少具备以下四个特点:

  • 海量样本:数据的规模巨大,特征非常多,每40个月翻一番,数据管理复杂;
  • 内容多样:非结构化数据、异质数据,每天产生的数据里有图像、语音、视频,还有各类传感器产生的数据,各种定位的信息,交易记录…
  • 时效性强:数据实时更新,多突发事件,用户短期行为,要求实时检索和计算的能力;
  • 质量不均:数据采集渠道多,质量参差不齐,数据分析准确性不一致。

大数据里蕴藏着丰富的知识,如何使大数据成为知识和力量?这是数据挖掘科学家的使命。

数据挖掘是由软件实现的机制从海量

网友评论

登录后评论
0/500
评论
大数据史记
+ 关注