云栖科技评论第60期:云、大数据与AI:大科学时代的“三剑客”

简介: 简单一句话:数据是介质,云是协作平台,AI是知识发现的助力。有趣的是,随着支持大科学时代的大尺度问题的解决,不断面对大规模数据计算与存储、大范围协作平台以及深层次知识发现等问题的云与AI,也将得到“反哺”,得以实现“高维”学习,持续提高其功能与能力。

【卷首语】云、大数据与AI:大科学时代的“三剑客”

  人类基因组编辑、新的DNA结构、规模庞大的全球脑计划、在石墨烯材料上培养心脏细胞……随着生物学界在针对人类自身的研究上取得越来越多的进展,生物学研究的范围、规模和复杂性都在不断扩大,甚至于仅仅是人类微生物组学的课题难度与研究范畴,都远比十年前的整个生物学研究要大的多得多。

  不仅是在生物学研究上,在物理学、化学、天文学、空间科学、地理科学、海洋研究等等几乎所有的研究领域,科学研究的研究尺度、深度和广度,都呈现出远超原有学科的态势,逐渐将科学家的目光和立足点,推上前所未有的新高度。

  正是这些大尺度的科学研究,对我们掌握全新的制药技术以治愈癌症等严重疾病;寻找新的清洁能源生产方式以减少对环境的破坏;利用空间科学领域的空间大地测量与遥感监测技术以提高粮食产量,以及避免环境灾害对人类正常生活与生命财产造成损失等起到了关键的作用。可以说,气候变化、卫生健康、消除贫困以及社会治理、经济增长等难题,都通过大科学研究得到了越来越多、越来越准确的解决。

  人类已经进入大科学时代,而在这一时代,云、大数据与AI将起到毋庸置疑的重要作用,正如科技部部长王志刚5月26日在杭州举行的第二十届中国科协年会上所说的:“新一轮科技革命和产业变革正在加速演进,人工智能、互联网、大数据与传统的一些物理、化学、机械等(学科)相结合,可能是新一轮的科技革命。”

  但我们必须清楚意识到,这一切的前提,是我们能够准确理解它们将处于什么样的位置,发挥什么样的作用。

  数据是介质,随着各种高通量科学仪器的普及和应用,科研中的数据正在变得越来越容易被测量,被记录下来的数据的类别越来越丰富,同时也以越来越细的颗粒度被全量记录下来,科学研究在实验科学、理论科学、计算科学之后,正呈现出“数据密集型科学”的全新范式,让科学研究可以发现更多此前从未发现的深层逻辑。

  云是协作平台,无论是科研组织内部的协调,还是集聚全球科研力量形成广泛的科研网络,云都是最佳的科研协作平台。数据在云上形成共享数据集并顺畅流通,每一项科学研究的软件工具都可以被整个云上科研协作网络所应用,正如前不久国务院所发布的《积极牵头组织国际大科学计划和大科学工程方案》中所说,当今世界范围内,人类面临着共同的科技难题,一些国际科学前沿领域的重大突破,以及气候变化、卫生健康、消除贫困等世界性难题的破解,需要全球科学家的共同努力,只有在云上,才能跨越地域、跨越时差、跨越环境的巨大差异,形成全球化的科研协作网络。

  AI能做什么?它具有助力知识发现的能力,AI在科学领域能够在人类的洞见和分析之外,塑造出新的视界,形成新的研究路径,发现新的未知领域,而这些,通常在过去是几十年才能够达到的成就。但需要指出的是,AI并不能彻底完成科学研究与科学发现,它所做的一是帮助科学家们提高数据中的知识密度,二是寻找关键的、此前难以发现的深层逻辑与知识表象,科学家仍然是关键的存在。以AI所发现的知识,加上人的理解、判断与思考,最终形成科学研究的突破。

  简单一句话:数据是介质,云是协作平台,AI是知识发现的助力。有趣的是,随着支持大科学时代的大尺度问题的解决,不断面对大规模数据计算与存储、大范围协作平台以及深层次知识发现等问题的云与AI,也将得到“反哺”,得以实现“高维”学习,持续提高其功能与能力。就这一点来说,颇有些“我为人人,人人为我”的“三剑客”的意味。

1、Facebook构建自主芯片 用于分析和过滤视频内容

image

【新闻摘要】 社交网络巨头Facebook首席人工智能科学家雅恩·勒坤(Yann LeCun)在巴黎的Viva技术产业大会上透露,Facebook正在构建自主芯片,以用于分析和过滤视频内容。勒坤表示,传统方法已经不再有效,因为分析和过滤视频内容需要更多的能量和计算能力,向专用芯片过渡可以帮助该公司更快地过滤视频,以识别出违反其服务条款的内容,比如有人在直播中自杀或实施暴力行为。

【小云评论】通用处理器的瓶颈会限制IT行业乃至社会进步的发展,“面向应用定向优化”的芯片架构将是突破摩尔定律的关键。放眼今日,鉴于“云计算+大数据+人工智能+物联网”的创新模式在产业优化、转型、重组的进程中起关键作用,设计和应用先进的专用处理器服务于专用的人工智能、物联网、数据分析与处理领域,不仅将影响互联网与云计算巨头的未来发展,更是国家科技实力的“角力场”。专用处理器的普及与应用将显著加快前沿科技在社会治理、经济发展中的促进作用。

2、GDPR生效第一天 谷歌和FB面临88亿美元诉讼

image

【新闻摘要】 5月25日起,欧盟网络数据隐私保护新规《通用数据保护条例》在欧盟全体成员国内正式实施,而就在GDPR正式生效的第一天,两大科技巨头谷歌和Facebook因在分享用户数据方面涉嫌违规,遭遇法律诉讼,面临的罚金总额分别为37亿欧元和39亿欧元(总额约为88亿美元)。谷歌和Facebook均对该起诉讼提出异议,称目前保护用户数据隐私的措施已经充分满足了GDPR的要求。据悉该诉讼分别针对Facebook的主应用以及旗下的Instagram和Whatsapp应用,以及谷歌的安卓操作系统。

【小云评论】GDPR要求科技公司在收集和共享用户数据时,提出更为清晰明确的获准条款,这一条例意义在于全面对欧盟所有网络用户的数据隐私权利、企业的数据保护责任以及有关监管机制提出了更为强化和细节的规定,值得注意的是,该法案虽然由欧盟设立,但它不仅适用于欧盟本土公司,也拥有域外效力。对欧盟以外的公司,只要它们向欧盟提供商品或服务、追踪欧盟民众的行为,都必须受到该法案的监管。在中国企业“出海”呈爆发式增长的当下,对GDPR等数据隐私法规的理解和遵守将成为重要的工作,但这往往受限于企业的知识储备与业务能力,因此,寻找合适的合作伙伴就变得非常重要。

3、英特尔发布全新AI软件和应用,透露AI野心

image

【新闻摘要】 美国时间5月23日zai1会议上,英特尔副总裁、AI事业部(AIPG)负责人Naveen Rao介绍了英特尔AI的最新进展:首先,英特尔至强处理器的性能有了进一步的提升,并发布了新一代专为机器学习设计的神经网络处理器(NNP)芯片Nervana NNP-L1000 (Spring Crest);其次,英特尔已经构建了包括nGRAPH平台、BigDL大数据开源平台、OpenVINO等在内的开源软件工具;最后,英特尔的Movidius 神经元计算棒已经越来越成熟,比如已经可以来进行AI作曲等原本只能由人类完成的创意性工作。

【小云评论】近一年来,英特尔在人工智能领域的布局越来越清晰,其正在构建“英特尔人工智能全栈[t1] 解决方案”,提供从计算、存储、网络处理器,函数库与深度学习框架,到平台及产品的完整产品组合。作为一家芯片厂商,英特尔的做法或许对中国人工智能产业的发展给了一个重要的提示:人工智能的发展需要的全业态、全堆栈和全层级的发展,芯片、算法、框架、软件应用缺一不可,同时,为了激发人工智能行业的创业创新,要将人工智能的算法、框架及开发工具,以低门槛、易入门的方式,通过云服务交付给整个社会。

4、IBM 举起砍斧:沃森健康(Watson Health)最多裁员 70%

image

【新闻摘要】 据The Register报道,有IBM内部人士透露,IBM的Watson Health(沃森健康)部门本周裁掉了约50%至70%的员工。据悉,被裁的对象主要是IBM在过去几年为增强Watson在医疗行业的实力而陆续收购的一些公司的员工。这包括2016年斥资26亿美元收购的医疗数据公司Truven、2015年斥资10亿美元收购的医疗影像公司Merge以及同样在2015年收购的医疗保健管理公司Phytel。

【小云评论】IBM近年来在Watson上投入巨大,这几乎成为了蓝色巨人的“主航道”,而Watson Health更是被其寄予厚望,持续力图在医疗健康行业取得突破,并接连收购了多家医疗行业公司扩大其业务范围和客户积累。但Watson Health却未形成蓝色巨人所期待的“爆发式增长”。与之形成对照的,是阿里云的“ET行业大脑”正在通过与产业深度结合,切实解决产业中的实际问题。在天合光能,阿里云ET工业大脑在试点产线上的电池片A品率提升7%,预计可提高年利润数千万。事实上,所有的AI技术和产品都应该思考同样的一个问题,无论是强AI还是弱AI,能够切实解决行业发展的问题、满足商业活动的需求或为社会治理提供切实可行的解决方案,才是“好AI”!

5、澳大利亚加文医学研究所确认人体存在新的DNA结构

image

【新闻摘要】 来自澳大利亚加文医学研究所的科学家首次在人体活细胞内确认了一种新的 DNA 结构:i-motif,这种新确认的结构形似一个扭曲的DNA“结”,在这个‘结’结构中,同一条 DNA 链上的 C(胞嘧啶)彼此结合;在双螺旋结构中,两条相对链上碱基则互相识别,而且 C 要与 G(鸟嘌呤)结合,两者大相径庭。澳大利亚加文医学研究所抗体治疗研究员 Daniel Christ表示,生物中还存在着完全不同的 DNA 结构,而且这些结构很可能对我们的细胞来说非常重要。

【小云评论】i-motif被 “再次发现”的故事同时提醒我们,在科学研究领域,因为人的原因而出现的科学发现的遗漏、错误时有发生,而新一代信息技术比如人工智能,或许可以通过对大数据集的处理、筛选,帮助科学家们提高科学发现的水平,避免再次出现类似的遗憾。2015年,借助中国虚拟天文台的共享数据, 10岁小学生廖家铭成为全球发现超新星年龄最小的人之一,而就在前不久,国家天文台在阿里云的支持下将涉及10亿个天体的数据通过云端的虚拟天文台向全球开放,“10岁小学生廖家铭发现超新星”的故事很可能将会再次重演。

6、新实验表明计算机速度有望能再快100万倍

image

【新闻摘要】 雷根斯堡大学物理系教授 Ruper Huber在研究中用一束红外激光脉冲照射由钨和硒组成的六角蜂窝晶体, 使得该晶体中的电子以每秒 1000 兆(10的15次方)次的速度在“0”和“1”状态下切换,比晶体管还要快 100 万倍。Ruper Huber表示,在未来,制造一种超高速量子信息设备是可行的,这种设备可以在光波振动的瞬间完成状态翻转。尽管未来风光无限,目前为止这个设想还停留在理论阶段。事实上,研究人员在这个系统上实现的仅仅是无序的,不包含任何信息的 0-1 翻转,离实现真正的“计算”还有很长的路要走。

【小云评论】虽然Ruper Huber的研究还只处于早期阶段,但这仍然是一次从电驱动到光驱动的大胆尝试,而它潜在的高速运算能力和实现室温量子运算的可能性,都为下一代计算开辟了一个新的方向。随着摩尔定律的失效,传统计算机正在面临可见的性能增长瓶颈,正因如此,以量子计算为代表的新计算形态正在不断涌现出来。值得注意的是,截止到目前,仍然很难定论哪一种新的计算形态会是未来的主流,而全球科技产业也正是在这种不确定性和对自我的不断超越以及颠覆中不断地向前发展的。

7、石墨烯模仿心脏疾病电流模式 为药物测试提供新可能

image

【新闻摘要】 加州大学圣地亚哥分校的物理学家亚历克斯·萨夫臣柯及其团队宣布研制成功了“如何通过改变照射到材料上的光量”来精确控制石墨烯产生的电量的方法。在石墨烯上培养心脏细胞的实验中,他们已经做到可以利用光来控制电流,以模拟不同心脏跳动的频率的环境。他们可以模拟心脏跳动快 1.5倍、 3倍、10 倍或者他们需要的任何频率的环境。亚历克斯·萨夫臣柯表示,其研究成果不仅可以使石墨烯模仿类似于各种心脏疾病的电流模式,这使得测试心脏药物和其他新药物变得更加容易,也可以用于研制出更好的心脏起搏器。

【小云评论】目前为止, 所有正在开发中的药物都需要在心脏细胞上进行实验测试, 以确保诸如止痛药导致心脏病发作等事故不会发生,这一测试过程往往耗时数年同时潜藏隐患,而石墨烯不仅可以将光转化为电,而且没有毒性,亚历克斯·萨夫臣柯的研究证明,未来在心脏病药物、心脏起搏器乃至所有有关心脏的药物测试中,石墨烯都很有可能起到非常关键的作用。而更重要的是,亚历克斯·萨夫臣柯的研究展现出了材料科学与医学研究“大交叉”所可能激发出的无尽潜能。事实上,这种潜力,广泛存在于研究学科之间、大科学与新技术之间的“大交叉”之中。

8、人类基因组编写计划转向制造“超级细胞”

image

【新闻摘要】 自诞生以来就颇受关注的“基因组编写计划“(GP-write)宣布重大调整:项目的重点将由合成所有人类基因组碱基对转向重编码基因组,以制造对病毒感染免疫的细胞。这一调整是近日在波士顿举行的GP-write科学工作会议上做出的,GP-write领导人宣布,将组织国际科研合作团队,共同进行“重编码计划”,旨在改变细胞基因结构,抵抗病毒感染。纽约市纽约大学Langone医疗中心遗传学者 Jef Boeke说,新发布的项目更为具体,旨在对人类及其他物种的细胞进行重新设计,使之“极度安全”,同时,也代表了“贯穿GP-write始终的主题”。

【小云评论】GP-write这一计划的调整,很有可能加速制造出对病毒感染免疫的细胞的速度,从而帮助药厂更加安全、高效和顺利地开展药用蛋白的生产,从而保证药品和疫苗的生产。同时,该项目可能有助于研究人员超越 CRISPR 等编辑工具的限制,不再局限于在几个特定位置对 DNA 进行调整,而是对基因组进行更广泛的重新设计。但需要注意的是,如果要让人类细胞具有病毒抗性,那么将改变至少400,000个基因组,这意味着,仅仅通过实验的方式测试及推进几乎是不可能的,这就需要借助云计算服务所提供的巨大算力和人工智能的加持,以“数字孪生”的思路实现GP-write计划的伟大梦想。

9、Netflix市值大跃进,逼近Disney

image

【新闻摘要】 5月24日,全球最大的流媒体视频服务提供商Netflix创下1518亿美元的市值,首次超过全球最大的有线电视服务提供商Comcast,同时非常逼近全球第一大传媒企业迪斯尼的1522亿美元。虽然从营收和净利润来看,Netflix与Comcast及迪斯尼相差悬殊,但是Netflix的成长态势和未来预期更吸引投资人。今年第一季度Netflix的营收增长了43%,订阅用户数增加了741万户,并且已经在全球吸引了超过1.25亿的订阅用户。

【小云评论】持续的用户调查与互动、高质量的在线流媒体服务、在线视频订阅、基于大数据的内容推荐系统、高水平的自制内容以及一次播出一整季电视剧的颠覆式播出方式,Netflix完美地诠释了如何通过“数据驱动+技术创新+模式颠覆”的方式,成长为一家行业内令人望尘莫及的优秀企业。同时,Netflix的模式对所有希望在互联网上提供服务的供应商来说都有着三点重要的借鉴意义:1、与用户的持续交互并满足其需求永远是第一位的;2、数据驱动、技术创新和模式颠覆三者缺一不可,三者形成的良性互动与紧密协作,才能让企业获得成功;3、行业的颠覆者永远都有可能出现,甚至让行业竞争出现“归零效应”,(用户)互动、(平台)优化、(技术与模式的)迭代必须要持之以恒。

10、Gartner发布2018年云基础设施魔力象限

image

【新闻摘要】 本周,Gartner发布了2018年全球云计算基础设施魔力象限,AWS和微软Azure仍然占据魔力象限前两位,但差距已经有所缩小,Oracle和IBM则处于相对靠后的位置。值得注意的是,NTT Communications、Rackspace和Virtustream等原本出现在2017年云计算基础设施魔力象限上的云服务商被Gartner剔除,这意味着Gartner自发布该魔力象限以后,共剔除了14家云服务商,显示出这家全球调研分析公司对魔力象限入围标准的严苛。

【小云评论】Gartner云基础设施魔力象限清晰地展现了未来全球IaaS市场的格局,位于尾部的IaaS云服务商已逐渐退出竞争,市场将由AWS、微软Azure、阿里云和Google Cloud四大云服务商主导,Oracle和IBM将借助其在企业级IT市场的存量客户继续维持IaaS云服务业务,但难以向领导厂商形成挑战。需要指出的是,位于领导地位的IaaS服务提供商之间的云服务发展理念同样在出现“分化”:与AWS和Google Cloud不同,阿里云正在将精力投向以云计算为基础,结合大数据、物联网、人工智能等技术的企业数字化转型服务领域,同时也正在加速国际化、提供更多独特的差异化产品。此外,阿里云也是其中唯一入选的中国企业。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
13天前
|
机器学习/深度学习 人工智能 安全
Azure Databricks实战:在云上轻松进行大数据分析与AI开发
【4月更文挑战第8天】Databricks在大数据分析和AI开发中表现出色,简化流程并提高效率。文中列举了三个应用场景:数据湖分析、实时流处理和AI机器学习,并阐述了Databricks的一体化平台、云原生弹性及企业级安全优势。博主认为,Databricks提升了研发效能,无缝集成Azure生态,并具有持续创新潜力,是应对大数据挑战和加速AI创新的理想工具。
36 0
|
27天前
|
人工智能 云计算 芯片
|
1月前
|
人工智能 自然语言处理 安全
|
1月前
|
人工智能 自动驾驶 安全
破壁人AI百度:科技公司反内卷的典型样本
破壁人AI百度:科技公司反内卷的典型样本
15 0
|
1月前
|
人工智能 自然语言处理 算法
|
1月前
|
人工智能 自动驾驶 安全
破壁人AI百度:科技公司反内卷的典型样本
互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词,恰如其分的描述了互联网的现状,比如抖音开始做外卖,微信强推视频号,一直硝烟弥漫的电商市场,更是激战在社区团购上。内卷背后也有人感慨,互联网到了尽头。支撑这一论述的是,移动互联网的人口红利已经消失,几款国民型APP用户增长都固定在了10亿这个级别,只能依靠自然人口的增长和迁移。
22 0
|
1月前
|
人工智能 自动驾驶 安全
破壁人AI百度:科技公司反内卷的典型样本
简介: 互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词,恰如其分的描述了互联网的现状,比如抖音开始做外卖,微信强推视频号,一直硝烟弥漫的电商市场,更是激战在社区团购上。
19 0
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0