大数据资产管理实战

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介: 本文讲的是大数据资产管理实战,本次分享包括大数据资产管理的概述、方法论和实施效果三个部分的内容。

本文讲的是大数据资产管理实战,本次分享包括大数据资产管理的概述、方法论和实施效果三个部分的内容。
· · ·

image

第一部分:大数据资产管理概述

image

提到企业数字化转型,不得不提现在的一个主流观点:未来的企业必将成为数字化企业,每个公司都将会成为软件公司!未来企业增长和竞争的能力越来越取决于其数字化创新能力。为了应对企业数字化转型,企业IT架构采用分布式、微服务、移动化、大数据等技术来应对业务变化带来的挑战。

那么在业务敏捷变革、应用快速创新的前提下,企业的大数据需要能够准确反映出企业的业务情况,进而需要高质量的数据和完善的数据管理机制,也就是大数据资产管理。下面我们来看一下复杂场景下数据资产的一个实例。

image

如上图所示,一笔4G的XDR信令数据在完整情况下将保存5份数据,分别为:数据流Storm、Hadoop、MPP、DB、内存网格Redis。信令数据根据业务用途的不同分别存放。同样的,不同存放的数据又是同一来源,相互之间存在着关系。

因此,在复杂的异构环境下,使用一套行之有效的工具进行数据模型管理是非常有必要的。
image

在单个系统开发时,一般使用ERWin、PowerDesigner等工具进行数据模型设计。
当设计异构环境时,就存在着各种问题了:

1、如何设计逻辑模型
2、设计好的逻辑模型如何快速的分发到各个环境中
3、分发到异构环境中的数据模型是否不被修改

那么在这种异构环境下,就存在着“数据模型设计→数据模型分发→数据资产管理”的数据模型生产闭环了。

1、数据模型设计:负责逻辑模型的设计,不依赖于数据平台,支持协作;
2、数据模型分发:负责逻辑模型在各个数据平台的分发,支持对接各类数据平台;
3、数据资产管理:负责异构环境下数据模型的管理,支持审计、分析等。

今天,我们主要分享数据资产管理的相关内容。

· · ·

image

第二部分:大数据资产管理的方法论
image

大数据资产管理是一个复杂而长期的工程,主要包括“建规范、搭平台、管资产”三个环节。

image

建规范:制订资产的管理流程(加强资产的生成、使用和退出管理),制订数据资产的技术模型(全局数据资产标识)及规范。

1、实现异构资产的统一注册、统一审计、统一监控的全生命周期管理
2、通过多种手段提升资产管理的安全,防止敏感信息泄露

image

大数据资产管理的规范包括两部分,分别为管理规范和技术规范:

1、管理规范:对数据资产的管理过程进行了规范化和标准化,对使用数据资产管理系统的人员进行角色定义,介绍了各个角色在不同的环境中需要完成的相关工作。

2、技术规范:对数据资产的管理技术进行规范化和标准化的阐述,包括数据资产模型和数据资产管理接口规范。
image

经过抽象,数据资产管理模型分为三层:业务分类→业务对象→数据资产

在实物资产管理时,通过固定资产标签进行唯一确认。那么在数据资产管理时,同样需要对数据资产进行全局确认(数据资产全局唯一标识)。如下图所示:

image

数据资产管理平台建议的标识由五段七项内容组成。五段标识分别为根前缀、业务域、资产类型、提供者/租户、资产名称组成,其中提供者/租户、资产名称根据具体的数据资产分别展开两段。

在上图中,我们以“Hadoop类资产”为例,全局唯一标识为:

1、Hadoop类HDFS资产就是:根前缀、业务域、资产类型、提供者/租户(HDFS集群、HDFS域)、资产名称(文件名、文件类型)组成。

2、Hadoop类HIVE资产就是:根前缀、业务域、资产类型、提供者/租户(Hive服务、Hive数据库)、资产名称(数据库对象名、数据库对象类型)组成。

3、Hadoop类HBASE资产就是:根前缀、业务域、资产类型、提供者/租户(HBase服务、HBase命名空间)、资产名称(数据库对象名、数据库对象类型)组成。

image

搭平台:建设数据资产管理平台,实现数据资产管理

实现异构环境下的数据资产管理
image

根据业务目标的不同,数据资产存放在数据流、Hadoop、MPP、数据库、内存网格等异构环境中。数据资产管理平台提供了如下能力:

1、一体化的数据资产管控(注册、审计、统计、影响分析等)
2、多环境的数据资产使用同一套管理办法及流程,与存储模型、业务域没有关系

那么,我们首先来看看如何快速实现异构环境的数据资产注册……

image

基于统一的CWM规范数据模型,实现对异构数据源的资产管理。既提供丰富的采集适配器实现数据资产的自动注册,同时也提供在线编辑、接口注册、Excel导入等人工注册的方式。

数据对象模型注册及访问接口:提供标准的HTTP+JSON、WebService接口,Hadoop、MPP等平台的开发工具可以通过调用标准接口集成数据对象模型注册及访问功能。
image

数据资产管理平台实现对异构数据源的数据模型/数据进行审计及统计分析。

在数据模型审计及统计分析时:

1、平台获取数据模型配置
2、平台数据平台中获取实际的数据模型
3、平台将针对数据模型的审计结果导入审计结果分析引擎

在数据审计及统计分析时:

1、平台获取数据模型配置
2、平台获取数据审计规则配置
3、平台从数据平台中获取实际的数据(抽样)
4、平台将针对数据的审计结果导入审计结果分析引擎
image

管资产:梳理现有异构环境下的数据,通过平台分阶段进行数据资产管理

1、完整:包括整个资产以及上游、下游资产关系等
2、详细:细化到资产的各个字段定义等详细信息
3、结构化:实现每个资产信息结构化存储
image

基于数据资产管理平台建设数据资产服务能力,组建数据管理体系团队。团队的职责包括:

1、负责数据管理体系管理流程及管理办法建立
2、基于平台进行常态化的数据管理(审计和统计分析),完善数据对象的管控流程,形成数据生产标准
3、基于平台完善数据字典的维护流程及完成数据字典的日常维护工作

数据管理场景(部分)如下:

每天:
1、数据对象的注册、变更、审批;
2、重要业务对象的分析(不同态之间的差异分析、模型不一致审计、关键业务字段质量分析等);
3、配合完成数据共享平台接入。

每周:
1、全局业务对象的分析(不同态之间的差异分析、模型不一致审计、关键业务属性质量分析等)。

新系统上线:
1、数据对象的注册、变更、审批;
2、配置关键业务字段属性质量。

因为业务需求的不断变化,大数据资产的管理(梳理、规范、优化)工作是持续且长期的。因此,在客户的高度重视下,客户、平台厂商、业务厂商的紧密配合及持续演进才能建设数据资产的服务能力!!!

· · ·

image

第三部分:实施大数据资产管理的项目效果。

image

根据前面介绍的大数据资产管理方法论,普元主导实施了一系列大数据资产管理类项目。本人有幸作为项目负责人参与了上海移动数据资产管理平台的建设,上海移动建设数据资产管理平台时,采用“规范+平台+服务”的环节,大数据资产管理已经初见成效。通过大数据资产管理项目的建设及实施,上海移动实现了:

1、建立数据资产管理服务体系
2、统一数据模型注册管控
3、提供有效的数据质量审计审核

通过建立数据资产管理平台,上海移动从整体上改善了企业对多种数据的管控能力,将数据的价值提升,为日后基于大数据的应用与业务创新提供了有效支撑。

image

最后,我们来总结一下大数据资产管理,它提供了以下业务价值:

1、建设数据资产管理能力体系
2、多环境一体化的数据对象管理(注册、审计、统计、影响分析等)
3、从全局角度初步提升各环境的数据质量
4、为基于大数据的应用创新提供基础,可输出各类标签库

同时,通过数据资产管理平台的数据积累,通信行业可以得出如下标签:

1、客户标签类(客户自然属性、客户偏好信息、客户群信息)
2、终端信息类(某一终端品牌在特定时间区间下的用户群分布、地域分布、型号分布、市场占比情况等信息的查询服务)
3、位置信息类(某具体位置在特定时间点或区间下的客流量、客户群分布等信息查询服务)
4、等

原文发布时间为:2016-08-03
本文作者: 徐松林
本文来自云栖社区合作伙伴EAWorld,了解相关信息可以关注EAWorld。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
SQL 分布式计算 数据可视化
滴滴出行大数据数仓实战
滴滴出行大数据数仓实战
117 0
滴滴出行大数据数仓实战
|
4月前
|
SQL 分布式计算 大数据
【大数据技术Spark】DStream编程操作讲解实战(图文解释 附源码)
【大数据技术Spark】DStream编程操作讲解实战(图文解释 附源码)
42 0
|
4月前
|
分布式计算 Java 大数据
【大数据技术Hadoop+Spark】HDFS Shell常用命令及HDFS Java API详解及实战(超详细 附源码)
【大数据技术Hadoop+Spark】HDFS Shell常用命令及HDFS Java API详解及实战(超详细 附源码)
215 0
|
2月前
|
SQL 分布式计算 MaxCompute
maxcompute之配置报错如何解决
MaxCompute配置是指在使用阿里云MaxCompute服务时对项目设置、计算资源、存储空间等进行的各项调整;本合集将提供MaxCompute配置的指南和建议,帮助用户根据数据处理需求优化其MaxCompute环境。
35 0
|
4月前
|
安全 大数据 API
elasticsearch|大数据|elasticsearch的api部分实战操作以及用户和密码的管理
elasticsearch|大数据|elasticsearch的api部分实战操作以及用户和密码的管理
63 0
|
4月前
|
SQL 分布式计算 数据库
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
102 0
|
4月前
|
分布式计算 大数据 Scala
【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战(超详细 附源码)
【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战(超详细 附源码)
92 1
|
15天前
|
机器学习/深度学习 人工智能 安全
Azure Databricks实战:在云上轻松进行大数据分析与AI开发
【4月更文挑战第8天】Databricks在大数据分析和AI开发中表现出色,简化流程并提高效率。文中列举了三个应用场景:数据湖分析、实时流处理和AI机器学习,并阐述了Databricks的一体化平台、云原生弹性及企业级安全优势。博主认为,Databricks提升了研发效能,无缝集成Azure生态,并具有持续创新潜力,是应对大数据挑战和加速AI创新的理想工具。
40 0
|
2月前
|
分布式计算 大数据 Java
Spark 大数据实战:基于 RDD 的大数据处理分析
Spark 大数据实战:基于 RDD 的大数据处理分析
122 0
|
4月前
|
SQL 存储 大数据
手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark
手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark
98 0

热门文章

最新文章