数据开放式创新时代,如何保障数据安全?

 1. 云栖社区>
 2. 博客>
 3. 正文

数据开放式创新时代,如何保障数据安全?

云栖小秘书 2016-09-01 11:37:40 浏览7761
展开阅读全文

本文将与大家共同分享大数据开放式创新的背景和蚂蚁体系内的应用案例,数据的未来方向,并向大家介绍开放式创新平台——蚂蚁数巢,并分享蚂蚁数巢是如何保障在数据开放式创新的同时保障数据安全的,最后还将分享对于大数据开放式创新的敬畏之心和数据信仰之念。

直播视频:点击进入

PDF下载:点击进入

以下为整理内容。

---------------------------------------------------------------------------------------------------------------------------------

本次分享主要分为四个部分:

 1. 分享大数据开放式创新的背景和蚂蚁体系内的应用案例,让大家思考大数据给公司和行业能带来哪些价值,大数据的未来方向在哪里,该如何到达。
 2. 介绍开放式创新平台——蚂蚁数巢,同时也让大家了解这个蚂蚁数巢能给业务带来什么样的机会或者价值。
 3. 介绍蚂蚁数巢的安全实践。
 4. 分享个人对于蚂蚁金服的大数据开放式实践的总结。

大数据开放式创新的背景和应用案例

             043639f4b65d3189e78082b6eb9b9757d35c6f35
互联网已经走到新的拐点,从PC互联到移动互联,再到万物互联,真正的大数据时代已经来临,手机、各种可穿戴设备、智能硬件,拥有比 PC 互联网更实时、更广阔的数据采集能力。IDC预测:2020年,中国数据量将达到8.6ZB,这是什么概念呢?目前阿里和蚂蚁金服的数据总量在EB级,这相当于要产生近9万个拥有类似体量的公司,数据的市场也达到近2000亿美金的规模。当我们还在移动互联时代思考时,智能时代已疾驰而来,数据、数据科学和计算能力成为新的生产三要素,基于数据和智能的商业也必将超过工业时代、信息时代,给人类整体的生产力提升带来又一次根本性的巨大突破。
             70473cfa09a7bcaa5cdb8e94c53367c252d2dc08
在大数据时代,业务与产品的驱动力正在改变。以前,根据用户的需求,设计一个极富想象力的创新产品,针对用户痛点问题,定义一个全新的用户体验方式,依赖技术不断的迭代产品,通过这种方式就可以让用户量快速增长,让企业迅速成长,互联网企业早期基本是这种模式。在业务和产品发展到一定阶段后,一般用数据来驱动,通过自身数据,对用户进行精准画像,同时启动数据智能的引擎,在某些关键环节上持续提升用户体验,进一步促进业务的增长,这是包括阿里和蚂蚁等知名互联网公司目前正在做的事情。
蚂蚁小贷和芝麻信用开启了新的模式,通过全域数据的整合,通过场景的驱动,用数据打造了全新的产品,将业务范围扩展到更多普通人,带来大量的用户和业务的持续增长,这样的数据+智能的商业模式,是对传统商业的颠覆,也数据开放式创新带来的新机遇和商业新模式。
             f02027f105451c29000618ca6fdefaec03beb09b
首先分享两个案例:有车的同学比较清楚传统的车险保费是从车模式的,不同的保险公司出价基本差不多。这里存在两个问题:车的风险与人相关,具有丰富经验的开车稳重的同学出险的几率较低,毛头小子出险的概率相对就高些;车险从商业模式上就是标准化产品,对于保险公司来讲,很难做出差异性,没法给用户个性化的服务。针对这些问题,我们将保险公司的车险数据跟蚂蚁的数据进行了融合,产生了一个模型,根据这个模型可以精确的判断客户出险的概率,即便是同样的车,对不同的人而言,车险的价格也不同。这一方面提升了保险公司的风险定价能力,形成竞争优势,另一方面,也体现了对用户的尊重。
             555fff030fe4b6cc7d10b65b3799c81ad8f52876
第二个案例是口碑目前在做的事情,针对生日场景,这一天电信发和银行都发短信来了,用户会收到N多短信,虽然是问候,但是感觉跟骚扰差不多。口碑则利用线下商户和口碑的数据,洞察用户的真实的需求,在生日这天给用户一个优惠大礼包,比如去饭店吃饭,服务员会送上祝福,蛋糕店这天8折优惠,吃完饭后还可以优惠去看电影和去KTV,这一天,用户会真正感觉到自己就是上帝。这个就是数据带来的不一样的体验。
             713e440f7951055f07853ea315b73c9588c2abfb
通过上述例子,结合阿里巴巴和蚂蚁金服在数据应用所做的一些事情,我们把大数据应用划分为四个阶段

 • 第一阶段:报表类业务阶段,如数据门户、淘宝数据魔方等,解决了分析用户做了什么事情和企业经营效率问题;
 • 第二阶段:数据应用阶段,如推荐,猜你喜欢,有好货,解决的是用户喜欢什么事情的问题;
 • 第三阶段:数据业务阶段,如蚂蚁小贷、芝麻信用,都是纯粹用数据来完成产品和业务的创新的,解决的是用户内在需求问题。
 • 第四阶段:数据开放式创新阶段,除了解决用户内在需求之外还解决企业业务扩张问题。

以上每个阶段并不是彼此独立的,而是延续和深入的发展的。
四个阶段的特征分析:
             7a60f1c0026922cef2b172b22bfc30f5b380927f

蚂蚁数巢介绍

数据与业务碰出火花,必须具备业务专业能力、数据加工能力、丰富的数据,这里包含三种生态角色,数据使用方、数据加工方和数据提供方。对于蚂蚁金服和阿里巴巴来说,也许拥有了强大的数据能力,但在某些方面也缺少数据和对行业的理解。就数据本身来说,一次产生,多次使用,边际成本可以趋于零,在企业内使用,是内生价值,而在企业外使用,就产生外延价值,也就是直接收入。
数据往往表现出很强的网络效应,1+1>>2 的案例也很多。这些数据特性也内在地促进数据开放。为了把这三者能力聚集在一起,产生化学效应,让数据成为DT时代社会发展的血脉,我们打造了蚂蚁数巢平台。其实起初的目的很简单,就是实现数据共享,实现数据价值的再造。通过蚂蚁数巢,已经产生很多创新的应用。
蚂蚁数巢的愿景是:培育一个“安全”的互联数据生态系统。数据无安全,不开放,安全一定是为先的,严格保护开放过程中的用户隐私数据安全、商业机密信息安全和数据的所有权,在此基础上建立数据之间的连接关系,让数据能充分发挥网络效应和外部效应,实现1+1>>2。通过这个生态系统,促进围绕数据的研究,基于数据的创新产品研发和业务的开展。
             991fce2b52824aa5f79616430a281f4370ec419f
要构建蚂蚁数巢这样一个互联的数据生态系统,首先建立了数据俱乐部,蚂蚁金服和阿里巴巴以及很多合作伙伴都在里面。数据俱乐部提供了共享数据清单信息的场所,这带来的改变是创意很容易产生,也很容易找到数据资源来使创意产品化,会员之间有很多机会进行合作。
在合作过程中,有两个问题必须解决:

 1. 数据是有权益的,数据的所有权在使用过程中不发生转移,数据不被人窃取,不被人恶意公开,同时数据安全得到保障;
 2. 数据的价值提炼是很难的,大浪淘沙,才能把数据的价值真正挖掘出来。

为此建立了云数据实验室,在其中数据可用不可见,并且提供了一站式的大数据技术服务,让每个开发者都拥有提炼数据价值的能力。在最终数据消费环节,对接了支付宝、口碑、淘宝等投放平台,让数据能在业务系统里闭环流转,还可对接外部APP,直接进行价值输出。
             7b7417cfde60afdda4ade81fb9e394924930e5f0
蚂蚁数巢的四大能力:

 1. 全域的数据融合能力。已沉淀了十几亿自然人信息,加上独创算法,生成了强大的ID-Mapping库,可帮助不同的企业、行业实现数据的“连接”。
 2. 全球领先的大数据能力。存储EB级数据,对PB级数据进行计算,对百亿级数据进行算法训练。
 3. 数据安全共创能力。基于金融云,打造了安全、可信的环境,数据可以放心的进行加工和生产。
 4. 全渠道数据消费。对接了阿里和蚂蚁金服的终端渠道,可帮助企业多终端触达用户。

             216d14979a89d63cacddedf2204820af58589ea0
通过蚂蚁数巢,口碑数据开放是怎么实现的呢?口碑不仅开放了云数据计算环境,还开放了数据集,同时在这些数据集上定义了报表类分析的API和营销类的API,最后通过蚂蚁开放平台,可直接对接到商户或ISV的CRM系统,商户可以通过这些数据进行建立会员中心、报表中心和营销中心,可以方便的进行线上线下的会员管理、业务分析,和精准营销。
             bf10c353170e24aabcf066335657fb02bc5118d3
在合作伙伴和俱乐部成员的大力支持下,蚂蚁数巢也在其他行业也在快速发展,有丰富的数据沉淀,可以帮助客户实现数据业务化和业务智能化。上图表明:数据的生态圈是去中心化的,类似行业联盟,蚂蚁金服、阿里巴巴只是生态圈中的一员;另外数据应用场景非常丰富,需要很深的行业积累,单靠个别企业无法服务好整个行业,其中存在巨大的商机。
             ba0dcd83fb75d54ceefe30fc2c52941c6ee0f36d
大数据时代,经济的驱动力在于创意、创新和创造,而数据就是生产资料,技术平台就是实现梦想的工厂。通过蚂蚁数巢,只要有创意和数据,就可以获得成功,同时也让社会进入智慧时代。

蚂蚁数巢的安全体系及建设思路

             800e4197fe2561ad4a483ed60acea7697555811e

作为数据开放式创新平台,数据通过可用不可见的方式安全的开放和共享。如何保证数据安全呢? 针对这个问题,围绕六要素:人、系统、账号、操作、渠道和数据,建立了智能脱敏与预警服务、行为监督CTU,金库中心,智能脱敏与预警策略服务可以开放给数据提供商自行设置数据静态脱敏策略和商业预警策略,同时还用在平台防护层进行智能动态脱敏与实时风险预警;行为监督CTU系统从注册、登录、查询等多方面进行监控和危险拦截,金库中心就是打造一层铜墙铁壁来保护数据的存储和访问。
             886f188788af4dfec179d4c11acfda4f0bc8edda
如何打造数据的安全闭环非常重要,借助数据俱乐部和云数据实验室,数据在闭环体系内经过授权流动,进行加工、清洗、分析和挖掘,最后对接到业务系统,所有的行为都被记录和分析,所有的数据操作会进行安全扫描。整个加工的闭环体系,数据只进不出,用户可以自行销毁数据。CTU系统针对高危操作会进行安全预警和拦截。在最终数据应用到业务系统上,通过系统审核和多方授权体系保障数据安全。
蚂蚁数巢安全业务流程架构图:
             98794417c06ea14188284843682df30ea541e3f5
为实现数据可用不可见,建立了两个环境:实验环境和生产环境。实验环境是开发者进行数据加工的环境,不同的租户,实验环境相互隔离,彼此不能访问。在实验环境,开发者可以进行数据清洗、转换等加工处理,也可以做报表和分析,还可以用算法平台去解决复杂的业务问题,最终结果可以API方式发布。实验环境一般放样本数据,在某些业务情况下也会放去用户隐私和标识后的轻微脱敏和采样后的数据。即使是这种场景,数据访问也是严格受限的。
实验环境的代码经过安全扫描后,可以发布到生产环境,生产环境相当于实验室环境的克隆,但使用的是真实数据。数据消费时,经过系统和人工审核,可以出蚂蚁数巢,可以对接信任的出口。
             24a242a87e0a008955c9930873d2c7d5b535cc11
蚂蚁数巢在用户隐私和商业风险方面的安全策略:数据提供商的数据,当从企业数据仓库环境授权到云实验区时,可通过提供的工具进行数据静态脱敏,之后还可以采样。云实验区是一个只进不出的环境,这有效地保证了数据的所有权不发生转移。
             426bdf1d08d62ec33fc5bc3c2867e25ec4277177
在实验环境,用户提交SQL语句、报表查询或算法计算任务时,会对SQL进行解析,在扫描和解析SQL的过程中,会用到血缘追溯,去判断查询的数据来自哪里,包含什么信息,及敏感程度,怎么使用的,通过规则和算法去判断这个查询请求的高危程度。在执行SQL语句的过程中,会进行用户认证和数据鉴权。查询的结果,会根据数据敏感策略进行脱敏转换,同时进行详细的日志监控,在返回结果的过程中,进行少量展示,同时防止数据通过恶意方式下载。所有的操作,从用户层面和系统层面都会进行记录,以便实时监控和审计。
             e69493df934f59dc36022bcc575912ff02d366fe
在行为风险识别方面,CTU系统通过两套模式来进行:规则模型充分利用“人”沉淀的经验和知识识别异常情况,同时对数据消费量进行监控。同时,通过机器学习模型来识别“难以看到的风险”,检测到的风险,根据不同的等级进行相应的处理。
             731a071ba11762a6d354662ee0d00bec5b59a0f4
在数据存储与访问上,“金库中心”基于金融云搭建,采用了独立的机房集群进行部署,满足一行三会金融监管要求。数据存储在阿里云研发MaxComputer集群上,利用安全机制进行保护模式设置,数据只进不出。数据的可访问端也仅限于指定的白名单。ODPS底层的是以表格式二进制存储的,文件系统不暴露,同时提供了灵活的ACL授权模型,权限控制到表、列级,这些安全机制很大程度上保护了数据的存储和访问安全。此外,所有的操作都会经CTU分析,访问端也有严格的安全限制。

蚂蚁金服大数据开放式创新的总结

             6a83bc98402ff1c93c99a80a0712c05884bc8471

在数据和智能的商业时代,大数据的新三要素:海量新数据、新技术、新算法。
第一点,数据在线才有价值,只有用起来,数据价值才能发挥,数据越大,对用户洞察越深,产品带给用户的体验越好。与其它商品一样,数据的价值会折旧,随着时间大幅下降。许多场景,数据的价值是按照毫秒或秒级别来进行度量的。
第二点,数据越来越多,更新越来越快,处理的难度也越来越大,要推动深度学习、人工智能的激情拥抱业务,也需要强大的计算能力,新的技术可以加速数据的流动、突破时空的限制,很多时候也改变数据的业务模式。
第三点,针对核心的业务,一定要看看深度学习、新算法是否可以帮助业务。新算法带来的改变是:不需要一个个精确的个体信息,算法也是持续提升用户体验的关键,现在APP提的最多的词就是互动、连接和个性化,这些都需要算法来解决。由于有大规模机器学习平台,传统的采样模式不再那么重要了,海量数据带来的是更好的效果,在某些场景下,还要通过数据去倾听每个个体的声音的。
综合这些来看,云一定是未来,云计算,在做的是解决一个“大计算”的问题,是以足够低的成本、新的商业服务模式来解决。如果没有计算能力,就谈不上数据和智能商业。未来大数据一定是生在云里面,长在云里面,产生价值也是在云里面,数据智能通过云向端进行输送。
             2b0ba49e053341c265dbcce2dca2dcc4b79bf4e9
数据开放式实践是一条艰辛之路,怎么把这条路趟出来,需要思考。走过一些弯路,最终发现还是要回到业务和商业本质上,蚂蚁数巢应该帮助企业围绕着其自身的数据建立生态系。这里最核心的是场景,也就是业务和用户的痛点问题,通过场景驱动点对点或多方的数据合作和应用,通过场景驱动数据的闭环体系建设,通过场景驱动数据价值的度量;数据只有互联与连接,才能产生1+1>>2的效应。但仅开放数据不行,还得开放大数据的基础能力,让裸数据通过加工产生信息、产生有价值的数据。数据的开放需要建立起可度量的价值体系,这个体系可以根据数据的应用场景和数据在其中起到的价值来定的,这个可度量体系反过来也驱动数据的开放。
             5a436ab79b6db3ce0824632d7a41fa4502c45bcd
只有深化大数据价值提取和封装能力,只有深化安全能力建设,大数据开放才能做好。大数据开放给用户带来的美好和微小的改变,给社会带来的变革力量和效率提升效应,给企业带来的商业效益,又将推动着数据的开放,大数据能力的建设和安全建设。
这需要敬畏之心和数据信仰之念。所谓的敬畏之心,是指在数据开放式实践路上,要如履薄冰,小心谨慎。在安全上,“守底线,负全责”,只要数据上出了一点小问题,都事关平台存亡。数据信仰之念是指要坚定的相信:DT时代,数据一定是最重要的核心生产资料,是社会的公共资源和社会进步的推动力,而未来的生产力就是计算能力和创业者的创新能力。
有了大数据,计算能力和创意,这个时代将发生翻天覆地的变化。这条路,难免坎坷,但是想象一下,利用大数据可以提前避免疾病的发生,通过大数据的共享,任何人都可以享受到普惠金融的实惠。通过大数据,可以让每一个个体都能享受平等、个性化的教育,这就是可以奋斗终生的理想。未来,因为数据而美好。
蚂蚁数巢,邀你一起共建数据生态圈,携手同行!

网友评论

登录后评论
0/500
评论
云栖小秘书
+ 关注