大数据的下一步:AI、ML、DL

简介:

开源大数据技术Hadoop,在今年刚好满十岁。在大数据的第一个十年,Hadoop成功地让大数据成为最被看好的技术,这股大趋势,不仅影响资讯科技的走向,更成为商业热烈讨论的议题。

之所以如此,一方面是随著网际网络、云端运算、智慧行动装置的普及,使得Google、Facebook、Twitter等大型互联网公司的用户数量,呈现爆炸性成长,为了应付全球用户的规模,这些知名互联网技术公司纷纷投入大数据技术,使得大数据成为顶尖技术的指标,瞬间成了抢手的当红炸子鸡。

另一方面,这些互联网公司不仅是采用Hadoop这样的开源大数据技术,更雇用软件高手开发符合自己需求的大数据技术,再将这些大数据软体的程式码开源。如此一来,既吸引更多高手加入开发,亦回馈开发社群,而这样的效应,也使得大数据开源技术的发展,如火如荼,至今与Hadoop相关的开源软件已超过一百个,形成庞大的Hadoop生态圈。

在接下来的第二个十年,大数据将会如何发展呢?今年中,我参加在大数据领域颇负盛名的Strata & Hadoop World技术大会,原本我期待这场以大数据技术Hadoop为名的技术会议,主要探讨的议题,应该围绕著Hadoop生态圈的开源大数据技术;然而,在两天的大会主题演讲,不论上台的是Google、Microsoft这样的国际大厂,或是百度、阿里巴巴、蚂蚁金服、小米等中国网路大公司,谈的都是人工智慧(Artificial Intelligence,AI)、机器学习(Machine Learning,ML)、深度学习(Deep Learning,DL)等AI议题。

纵使那两天的下午议程当中,仍有很大的比例,在探讨大数据即时分析、串流运算等议题,然而大会主秀——通常是科技公司展现实力的主题演讲,却是不约而同谈AI、ML及DL等技术议题。

在这些原本就是大数据技术领头羊的眼中,很明显地,人工智慧、机器学习与深度学习是大数据的下一步,也是大数据第二个十年的兵家必争之地。

然而,迈向第二个十年后,大数据就不再重要了?其实并不然,这些技术依然重要,只是下个十年的发展,将是以AI为导向的大数据。关于这部份,我们可以从催生Spark、Mesos的柏克莱AMPLab实验室来观察。

在大数据第一个黄金十年的后半段,以微批次串流运算技术窜红的Spark,引领风骚,而Spark的诞生地——柏克莱大学AMPLab,却将在2016年底吹熄灯号。AMPLab由两位拥有软体创业经验的教授主持,在目前的6年计画期间,推动许多开源软体研究专案,最知名的当属分散式资源管理系统Mesos、串流运算平台Spark、分散式记忆体储存系统Alluxio(之前称为Tachyon),在个别领域都居于技术领先的地位。

既然AMPLab有如此重要的研究贡献,为何结束呢?因为柏克莱实验室的传统,普遍以5至6年投入研究,解决一个重要的问题,如今AMPLab已经完成了阶段性使命:打造开源大资料分析技术,接下来,他们将以新成立的实验室RISELab,解决大数据的下一个新问题。

新问题是什麽呢?从实验室的名称Real-time Intelligent Secure Execution,即可看出端倪。在上个阶段,AMPLab是从大数据批次资料处理技术,发展至大数据分析技术,而下个阶段的RISELab,则要克服即时资料处理的问题,发展出即时决策的应用。他们的目标是,研发出比Spark的反应速度快100倍、输出快1000倍的新一代大数据技术,并且结合线上机器学习与更自动化的演算法,在确保资料加密安全与隐私,且不牺牲效能的情况下,从即时资料中做即时决策。

未来6年RISELab能否达成目标,尚无人能知。但很肯定的是,大数据的下一步,是以AI为导向的新一代大数据。


本文作者:佚名

来源:51CTO

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
人工智能 安全 算法
AI与大数据:智慧城市安全的护航者与变革引擎
AI与大数据:智慧城市安全的护航者与变革引擎
23 1
|
1月前
|
人工智能 弹性计算 Serverless
Serverless+AI驱动的一站式数据平台有哪些可能性
【2月更文挑战第4天】Serverless+AI驱动的一站式数据平台有哪些可能性
|
2月前
|
人工智能 数据管理 Serverless
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
404 2
|
2月前
|
人工智能 运维 Cloud Native
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
149 2
|
2月前
|
人工智能 数据管理 大数据
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
33 2
|
1月前
|
人工智能 大数据 流计算
大数据&AI产品月刊【2024年2月】
大数据&AI产品技术月刊【2024年2月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
|
2月前
|
人工智能 运维 数据管理
阿里云数据库走向Serverless与AI驱动的一站式数据平台
阿里云数据库走向Serverless与AI驱动的一站式数据平台
271 2
|
2月前
|
人工智能 Cloud Native 数据管理
阿里云数据库:向Serverless与AI驱动的一站式数据平台迈进
众所周知,在人工智能迅猛发展的现在,在AI驱动下的数据平台,正在向一站式、智能化的方向演进,还有就是云原生+Serverless的不断深入,一站式数据平台将让数据管理开发像“搭积木”一样简单实用,以性价比更高、体验更优的云数据库服务,助推用户业务提效增速。据悉阿里云数据库正在朝着Serverless与AI驱动的方向发展,构建一站式、智能化的数据平台,这一发展趋势将为用户提供更简单、实用的数据管理开发体验,以提高业务效率和降低成本。那么本文就来分享一下如何看待阿里云数据库的这一转变,并展望云原生和Serverless对数据管理与开发的未来带来的更多可能性。
65 1
阿里云数据库:向Serverless与AI驱动的一站式数据平台迈进
|
2月前
|
人工智能 分布式计算 大数据
重磅!阿里云在海外市场推出系列AI大数据产品
重磅!阿里云在海外市场推出系列AI大数据产品
90 1
|
3月前
|
人工智能 分布式计算 DataWorks
大数据&AI产品月刊【2024年1月】
大数据&AI产品技术月刊【2024年1月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。