继续支持开源，IBM新型主机平台能够更好支持Spark-阿里云开发者社区

继续支持开源，IBM新型主机平台能够更好支持Spark

2017-07-03 1301

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

IBM公司近日宣布推出基于Apache Spark的新型z/OS平台，以帮助企业使用IBM大型主机更加方便、快捷地访问和分析数据。此举将给数据科学家和开发人员创造新的机会，帮助他们对系统丰富的数据集进行高级分析，以实现实时洞察。Apache Spark是一种开源的分析框架，IBM此次推出的基于Spark的z/OS平台将支持其在z/OS主机操作系统上实现本地运行。新的操作系统平台可以帮助数据科学家打通分析库和底层文件系统之间的联系，无需进行提取、转换和加载(ETL)即可对数据实现就地分析。

在认知时代，数据作为一种新的自然资源能够被计算机系统所理解、推理和学习，但企业必须在数据价值有效期内对其进行分析，形成洞察并予以应用。新的z/OS平台配有来自业务合作伙伴的加速器，可以帮助企业更便利地利用大型主机的数据和能力，来了解市场变化和客户的个性化需求，从而对业务及时进行调整，更快实现价值。

IBM大型主机被全球各大银行、保险公司、零售商和运输公司广泛用于关键数据处理和交易。它拥有业界最快的商用微处理器，以及内置的交易分析功能，可以在不超过2毫秒的时间内为某项交易的预测模型评分。目前，企业可以利用这些功能，在无需从主机中下载数据(without moving data off the mainframe)的条件下通过Spark来进行高级内存中分析，既节省时间和成本，又降低风险。

IBM专注于新兴互联网技术的院士Rod Smith表示，“各种规模的企业在向实时数字化转型时，都需要对自己所有的数据了解清楚，这个过程不应花费过多的时间，也不应有提取、转换和加载(ETL)的风险。现在我们实现了在包括大型主机在内的IBM平台上本地(natively)运行Apache Spark，客户可以并行执行处理关键数据的交易处理系统和分析系统，同时从其他数据源获取关联洞察，帮助他们与客户进行实时互动，继而产生效益。”

基于Apache Spark推出的IBM z/OS平台具备Apache Spark core、Spark SQL、Spark Streaming、Machine Learning Library (MLlib)和Graphx等开源功能，可提供业内唯一的主机常驻Spark数据提取解决方案。新的平台帮助企业通过以下途径更加高效、安全地获取信息：

简化开发——开发人员和数据科学家可利用他们已有的Scala、Python、R和SQL等编程经验来更快实现可用洞察的价值。

简化数据访问——经过优化的数据抽象化服务消除了复杂性，通过Apache Spark API使用熟悉的工具对IMS、VSAM、DB2 z/OS、PDSE或SMF等传统格式实现企业数据的无缝访问。

就地数据分析(In-place data analytics)——Apache Spark使用内存计算来处理数据，可以快速产生结果。新平台具备数据抽象和集成服务功能，可以让z/OS分析应用程序利用标准Spark API。这可以让企业就地分析数据，避免产生提取、转换和加载相关的高额处理和安全性问题。

开源功能——新平台提供了一个应用于Apache Spark、专门针对大数据设计的开源内存计算引擎。

IBM也在与DataFactZ、Rocket Software和Zementis这三家公司进行合作，通过IBM z/OS平台为Apache Spark开发定制解决方案：

DataFactZ是IBM新的合作伙伴，双方正在合作开发基于Spark SQL和MLlib的Spark分析产品，以用于在大型机上处理的数据和交易。

Rocket Software已经成为IBM的长期合作伙伴，两家公司在z/OS Apache Spark领域也已展开合作。比如，新的Rocket Launchpad解决方案可以让客户使用z/OS数据来体验平台功能。

Zementis正在开发支持Apache Spark的基于多个标准的执行引擎。作为一款新的z/OS交易中预测分析(in-transaction predictive analytics)解决方案，它允许用户在处理交易时部署和执行高级预测模型，帮助用户在影响最大的时候实时地预测终端用户需求、计算机风险或侦测欺诈。

基于Apache Spark推出的全新z/OS平台以及合作伙伴相关解决方案，可以让那些从不同来源采集数据的数据科学家和数据管理员用自己喜欢的格式和工具来收集和分析数据。

IBM去年发布了一项针对Spark的承诺，将投入3500名IBM研究人员和开发人员参与与Spark相关的项目。为了推进支持大型主机分析的开源技术，大型主机还成了一个新的GitHub组织，以便开发人员协作建立针对Spark的z/OS工具。比如，Project Jupyter和任一NoSQL数据库的组合都能提供灵活、可扩展的数据处理和分析解决方案.

这一方法可以帮助件开发人员选择他们的工具和语言，提供能够在不同数据环境中监控分析结果的新型视觉辅助工具，开发出新的数据处理技术和技巧，从而让新的开源工具更易使用。

使用z/OS的开发人员现在已经可以下载基于Apache Spark的IBM z/OS平台。

本文转自d1net（转载）