中小型公司大数据分析的福音

摘要 数据挖掘,大数据,数据处理 近几年来,各行各业的数据增长趋势都非常明显,大数据不再是少数大企业的专属研究领域。如何在数据金矿中挖掘出宝藏、如何做好数字化运营,成为各类企业共同关注的话题。针对企业日益迫切的数据化运营需求,阿里云ODPS(Open Data Processing Service,开放数据处理服务)在2014年1

本文来自《程序员》与阿里云联合出品的《凌云》杂志。

作者:周卫林

 

    近几年来,各行各业的数据增长趋势都非常明显,大数据不再是少数大企业的专属研究领域。如何在数据金矿中挖掘出宝藏、如何做好数字化运营,成为各类企业共同关注的话题。针对企业日益迫切的数据化运营需求,阿里云ODPS(Open Data Processing Service,开放数据处理服务)在2014年1月对外开放公测,旨在推动大数据分析处理“平民化”。为了丰富ODPS的周边生态,降低用户的接入成本,提高实施效率,尤其是弥补传统DW/BI工具的缺陷,基于多年建设内部数据工作平台的经验,我们搭建了一套解决方案,称为采云间(Data Process Center,简称DPC),取“采集云间数据”之意。采云间于2014年7月24日在阿里云官网上线,通过快速迭代数个版本,目前的V1.2版本已经可以较为完整地支持ETL工程师和数据分析师的工作。

 

     DW/BI软件行业已有30多年的发展历史,Oracle、IBM、SAP等多家传统厂商,通过自研和收购的方式,形成了自己的DW/BI产品解决方案,并在金融、电信等传统行业中得到广泛的应用。然而,传统的ETL和BI工具,通常存在着以下问题。

 

     ■ License昂贵,初始软件投入费用高。

 

     ■ 学习成本大,需要1-2周的专业培训才能上手,后续咨询服务费用高。

 

     ■ 需要二次开发,后期扩展难,普遍不支持分布式数据存储与计算平台,例如Hadoop。

 

     与传统工具相比,采云间在产品形态上有比较大的区别。

 

     ■ SaaS化,所有产品都在云端部署,不需要本地安装。

 

     ■ 提供统一的数据工作台,通过应用中心可以接入第三方提供的服务,形成丰富的大数据工具解决方案。

 

     ■ 多数产品都是图形化操作界面,比如简单拖拽即可完成数据分析和报表制作。

 

     目前,采云间内部集成了Ali Data Developer Package(数据开发者套件)和 Ali Business Intelligence Package(商业智能套件),提供的数据处理工具,包括ODPS IDE、数据同步、任务调度、数据分析、报表制作等。其产品功能示意参见图1,其产品功能列表参见图2。用户通过采云间应用中心可以查看到具体的产品列表,见图3。

 

TB12Qi1GVXXXXcMXpXXLK7HWVXX-418-255.jpg

 

TB1VIiVGVXXXXckXVXXSm9j7FXX-973-523.jpg

 

TB1EISZGVXXXXXAXVXX4m4k2VXX-962-486.jpg

 

     应用演示

 

     下面以完成一个简单的业务报表的统计分析作为需求,来演示采云间的主要功能,并详细介绍采云间的产品实现。要完成一个业务报表的统计分析,主要涉及几个步骤:

 

     ■ 同步RDS(Relational Database Service,关系型数据库服务)数据库中的数据到ODPS上;

 

     ■ 使用数据工厂执行ODPS SQL;

 

     ■ 通过“数据分析”进行在线可视化数据分析。

 

     如何同步RDS数据库中的数据到ODPS上

 

     采云间内置了数据同步和流转功能,完成RDS与ODPS之间的双向同步只需在采云间配置中心创建RDS和ODPS的连接信息即可。当配置RDS链接信息时,建议该账号只开通表的查询权限。对于这些用户名和密码,采云间会调用阿里云公有的加密服务进行加密保存。

 

     步骤1:进入RDS控制台,点击实例名称,进入RDS管理页面获取实例ID。

 

     步骤2:在采云间配置中心,点击“新建连接配置”,填写RDS实例的用户名和密码,保存配置。同理,可以完成ODPS链接信息的配置。

 

     完成上述操作之后,通过数据工厂(该工具的使用,参见“如何使用数据工厂执行ODPS SQL”)创建需要同步的表的结构,然后在任务管理里通过新建“同步任务”的方式,配置数据同步任务,确定提交之后,就可以每天自动进行数据同步了。

 

     重复上述的操作,可以配置多个同步任务,完成每天从生产库里将表中的数据同步到离线分析环境ODPS中,为后续的数据清洗转换作准备。

 

     如何使用数据工厂执行ODPS SQL

 

     数据工厂是ODPS的集成开发环境(IDE),提供了类似PL/SQL Developer的功能。使用它,可以完成如下工作:编写和管理你的代码;查看和管理表;创建任务;上传本地文件。

 

     在采云间控制台上第一次登录数据工厂时,需要输入ODPS的Project名称和对应的Access Key ID和Access Key Secret。点击登录界面的“立即查看Access Key”,跳转到如图4中的页面,找到启用的Access Key ID和Access Key Secret,复制并粘贴。

 

TB1BAiPGVXXXXXsapXXz2aB6FXX-760-201.jpg

 

     进入数据工厂,点击“新建SQL文件”,输入SQL语句,点击“执行”按钮,即可完成一个简单的查询,执行日志和查询结果会显示在下方(图5)。

 

TB1JIu5GVXXXXaqXpXX1h430FXX-1103-619.jpg

 

     通常我们会依据业务统计需求,对生产库里同步过来的多个表,进行数据关联处理,生成结果表。这个结果表就是后续进行数据可视化分析的源材料。

 

     如何通过“数据分析”进行在线可视化数据分析

 

     首先,需要从ODPS上导入元数据信息,形成数据分析的数据集。如图6所示,完成ODPS的链接信息设置;选择需要分析的表,点击导入,形成分析数据集。

 

TB1za12GVXXXXXOXFXXEPuWWpXX-387-175.jpg

 

     其次,从导入的数据集中,选择一个打开,就可以开始进行数据分析了。整个分析过程的体验非常像在Excle里做透视分析,可以大大降低学习成本,如图7所示。

 

TB1g_a1GVXXXXXTXFXXz7SqFFXX-1099-616.jpg

 

     架构解读

 

     通过上述介绍,相信大家已经从产品角度对采云间有了一定认知。下面将从技术角度对采云间的架构做一个简单的解读。

 

     ■ 数据源支持:依托阿里云的飞天平台,采云间可以将ODPS作为DW的存储和计算引擎,并根据数据规模自动调整集群的存储和计算能力;采云间的数据分析和报表制作工具既可以支持ODPS数据源,也可以接入ADS和RDS作为数据源,并提供了各个数据源之间切换的功能,用户可以依据数据量、场景特点,选择合适的数据库。这三个产品在采云间数据分析场景下的选择依据如下。

 

TB1mtOVGVXXXXcaXVXXwIHNOVXX-361-72.jpg

 

     ■ Web架构:用户通过浏览器可以访问采云间的所有产品功能。采云间本身由多个系统组成,每个系统(无论是前端Web服务器,还是后端执行引擎)都可以通过增加集群的机器数量,实现服务能力的水平扩展。并可以通过Admin控制台对集群和服务进行管控。

 

     ■ 账号和权限:采云间有完整的权限模型,不仅可以透过ODPS对DB里的数据进行权限管理,也支持在应用层实现行级和列级的数据权限设置,同时考虑到企业级用户,不是每个企业员工都对应有阿里云账号,采云间的权限流程审批支持接入企业的内网系统。

 

     总结

 

     前文阐释了采云间的产品定位、应用步骤和架构思路,下面我们就来总结一下它的核心产品优势。

 

     ■ 依托阿里云飞天平台,天生具备大数据的处理能力,且具有很强的扩展能力。

 

     ■ 投入小,回报快。在线服务模式,无需部署,开通就可以使用;按需、按使用量付费,初期费用基本为零。

 

     ■ 提供更友好的操作界面,易于上手,从技术层面降低企业使用大数据的门槛。

 

     虽然采云间在阿里内部已得到广泛应用,但外部的产品仍处于公测期,在产品和技术上还有很多方面需要进一步完善和加强。欢迎大家现在可以申请试用,采云间和ODPS的产品运营团队将在12月选取少量用户进行重点服务,以进一步提升产品品质。相信通过采云间不断完善的全链路的数据处理工具,企业将更加容易收获大数据的价值。


周卫林
    花名敬智,有10年DW/BI领域工作经验,对该领域有深入了解和实践,坚信“数据创造价值”。目前在蚂蚁金服平台数据部担任核
TB1IIGZGVXXXXasXVXXHlzq4pXX-646-818.jpg
心架构师,带领团队完成大数据应用相关领域的技术研发,特别专注于实时计算、数据可视化等大数据技术的创新业务应用。
本文中提到的产品

云数据库 云服务器 大数据计算服务
相关文章