日交易笔百万级,Ping++的大数据平台架构

简介: 当前日交易笔数为百万级,目前已经积累了海量交易数据。如何在经过客户授权的情况下利用数据为客户赋能,并带来额外附加价值,从而提高客户黏性,Ping++亟需搭建可靠、稳定的大数据平台。
11+大数据行业应用实践请见 https://yq.aliyun.com/activity/156 ,同时这里还有流计算、机器学习、性能调优等技术实践。 此外,通过 Maxcompute及其配套产品 ,低廉的大数据分析仅需几步,详情访问 https://www.aliyun.com/product/odps ;更多精彩内容参见 云栖社区大数据频道 https://yq.aliyun.com/big-data  。

Ping++ 是上海简米网络科技有限公司旗下的聚合支付品牌,国内领先的第三方支付解决方案SaaS服务商。Ping++ 成立于2014年4月,2016年初获得由宽带资本领投的千万美元 B 轮融资。Ping++ 为零售、电商、O2O、教育、旅游、SaaS 服务等众多领域的商户提供定制化支付解决方案,累计帮助15000多家商户解决支付问题。

从安全可靠的聚合支付平台到简单无忧的聚合支付云服务,Ping++不仅极大地简化了企业与移动支付渠道和消费分期渠道的对接过程,还将日常交易管理、账务管理、大数据分析、多级商户、用户账户等功能集成到统一的管理平台。从支付接入、交易处理、业务分析到业务运营、大数据营销,Ping++以定制化全流程的解决方案来帮助企业应对在商业变现环节可能面临的诸多问题。

Ping++的百万级交易挑战

Ping++ 通过搭建在云端的支付处理平台为商户集中处理所需第三方支付渠道的交易请求并提供统一的SDK接口供商户调用,当商户的用户发起交易时,就会调用这个SDK,此时这些数据记录会存储到数据库中,包括时间、金额、渠道等信息。当前日交易笔数为百万级,目前已经积累了海量交易数据。如何在经过客户授权的情况下利用数据为客户赋能,并带来额外附加价值,从而提高客户黏性,Ping++亟需搭建可靠、稳定的大数据平台。在Ping++搭建大数据平台的过程中,存在以下挑战:

1.一站式大数据平台,可以帮助降低数据创新与创业成本,需同时具有存储、计算、BI和机器学习等功能需求:
  • 存储: 利用数据仓库存储海量支付订单数据。
  • 计算: 批处理进行 ETL 数据清洗、统计汇总、数据分析。
  • BI: 产出数据的监控指标,以图形化方式反映数据质量和趋势。
  • 机器学习: 各类场景下模型的训练及预测。
2.Ping++作为一个创业公司,前期尽可能以最低的成本去实现业务创新。但是,自己搭建符合上述4种所有要求的大数据平台,需要投入大量硬件投资、时间成本和人力成本。作为互联网创业公司,唯快不破,需要跟时间赛跑,如何快速、高效、低成本的搭建大数据平台也是亟需的。

3.安全是金融行业永远的话题,作为互联网支付服务提供商,Ping++非常重视大数据平台的安全性、稳定性和可靠性,并需要平台具有多角色多权限的账户体系。同时,Ping++ 使用严格的数据隐私保护机制,商户的数据只用于分析商户自己的生意。

Ping++的公有云供应商考量

如上所述,自建符合要求的大数据平台成本过高、周期过长,而且Ping++是做第三方服务的,秉承专业的人做专业的事情的理念,希望能够通过第三方服务去解决问题,因此一开始就决定考虑采用公有云大数据平台。“我们认为,对于初创公司和小规模团队来讲,利用云服务更加省时和经济,可以将更多精力投入于应用和业务开发。”Ping++大数据总监夏苏敏表示。

Ping++大数据技术团队对主流的公有云大数据平台进行了试用和对比,尤其是跟某国际化云计算大公司的大数据平台去进行比较,当时发现此公司在国内提供的服务并不是非常的好,而且服务器也不是非常的稳定。另外,Ping++的整个交易系统架构在阿里的金融云上,其稳定性、安全性均进行了前期的验证,而且如果大数据平台也采用阿里云在数据传输、兼容性和成本上均有很大优势。鉴于以上考虑,Ping++最后选定了阿里云的数加平台。

Ping++的解决方案及架构

Ping++围绕积累下来海量的交易数据,主要基于阿里云数加平台进行以下业务场景创新:

1.BI营销业务系统。基于用户交易行为数据进行用户画像,在用户画像的基础上提供精准营销方案,在老客户激活、提高客单价、潜客获取、转化率提升等方面对客户赋能。

2.内部监控。基于阿里云数加平台进行数据监控赋能内部管理,包括交易信息汇总、异常交易提醒、数据质量分析等。

6202a13b07f92a372ed5db895a3101ba2d484e67

数据源:来源于支付业务系统,分别使用了阿里云RDS、DRDS以及MongoDB,DRDS和RDS主要用来存储用户交易信息,MongoDB主要用来存储商品维度信息。

大数据平台:通过阿里云数加平台搭建,包含的组件及功能为:

  • 大数据计算服务(MaxCompute ,原名 ODPS): 用于数据仓库。目前有包括原始基础表、ETL 结果表、上层 ADM 应用数据集市表在内的共计 630+ 张数据表。
  • 大数据开发套件(DataIDE): 使用其中的 DAG 调度系统支撑每天例行化运行 140+ 个节点;利用提供的日志功能、报警机制、重跑补数据等多种工具进行运维工作;通过阿里云子账号和数加平台的权限体系实现了多角色多权限的账户体系。
  • Quick BI: 用于指标的图表展示。目前有 10+ 张图表以监控数据质量和辅助决策。
  • 机器学习: 利用提供的算法库解决大数据量的图模型问题、机器学习分类问题、文本分词问题等。
结果存储及检索:通过阿里云数加产品分析型数据库(AnalyticDB)同步经过DataIDE处理过的存储在MaxCompute中的数据集市表,主要是汇总后的脱敏数据,使用分析型数据库的主要原因是基于其强大的实时计算功能,可实现实时检索分析。机器学习的预测分析结果存放于MySQL进行检索分析。

应用:BI营销业务系统及内部监控。

收益:
  1. 阿里云数加为Ping++大数据实施提供了一套完整的一站式大数据解决方案,覆盖了企业数仓、商业智能、机器学习、数据可视化等领域,助力Ping++在DT时代更敏捷、更智能、更具洞察力。数加平台从数据导入、查找、开发、ETL、调度、部署、建模、BI报表、机器学习,到服务开发、发布,以及外部数据交换的完整大数据链路,一站式集成开发环境,降低Ping++数据创新与创业成本。
  2. 通过阿里云数加平台,Ping++快速搭建了大数据平台,节省了大量成本,因此可以将更多的人力、物力投入到业务创新上来。“现在我们已经开始向客户提供大数据的服务了,如果自己建的话,可能现在才刚刚把这个平台搭好,业务上的事情还没有开始做呢,整体上来讲,可以为我们节省六到八个月的时间。”夏苏敏说到。
  3. 阿里云及其数加平台提供金融企业级的安全机制,保证了Ping++业务应用的安全、可靠、稳定运行。核心产品MaxCompute更是提供多种安全机制为DT时代的企业数据资产保驾护航,如采用业界标准的API认证协议、没有超级管理员的角色、提供了丰富的项目空间内的用户管理及授权功能、将用户作业在运行时隔离、作业运行时使用最小权限、数据访问审计以及安全监控系统等。“我们曾经也遭受过一次DDos攻击,阿里云也成功的帮助我们防御了这样一次攻击。” 夏苏敏回忆道。
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
7天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
28 2
|
2月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
702 0
|
2月前
|
缓存 安全 API
【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的API网关设计实现
公司对外开放的OpenAPI-Server服务,作为核心内部系统与外部系统之间的重要通讯枢纽,每天处理数百万次的API调用、亿级别的消息推送以及TB/PB级别的数据同步。经过多年流量的持续增长,该服务体系依然稳固可靠,展现出强大的负载能力。
55 9
【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的API网关设计实现
|
4月前
|
SQL 存储 分布式计算
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
159 0
|
4月前
|
存储 分布式计算 Hadoop
【大数据技术Hadoop+Spark】HDFS概念、架构、原理、优缺点讲解(超详细必看)
【大数据技术Hadoop+Spark】HDFS概念、架构、原理、优缺点讲解(超详细必看)
108 0
|
1月前
|
存储 关系型数据库 测试技术
印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构
印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构
33 4
|
3月前
|
SQL 存储 关系型数据库
华为大佬的“百万级”MySQL笔记,基础+优化+架构一键搞定
MySQL不用多说,大家都知道它是目前最为活跃热门的开源数据库,由于成本低,操作简易的特点,所以在互联网企业中被广泛使用,即使是头部的BATJ。由此可见,想要在互联网行业混得风生水起,或者说想要进入BATJ等一线互联网公司,那么熟练掌握MySQL必定是一块必要的敲门砖。
|
4月前
|
监控 物联网 大数据
助力工业物联网,工业大数据之服务域:AirFlow的架构组件【三十二】
助力工业物联网,工业大数据之服务域:AirFlow的架构组件【三十二】
45 0
|
4月前
|
存储 分布式计算 大数据
首批!阿里云MaxCompute完成中国信通院基于无服务器架构大数据平台测试
近日,阿里云计算有限公司MaxCompute产品顺利完成中国信通院首批无服务器架构(Serverless)大数据平台测试。
221 0
|
4月前
|
存储 数据采集 大数据
大数据必知必会系列——数仓分层架构及三层架构流程[新星计划]
大数据必知必会系列——数仓分层架构及三层架构流程[新星计划]
106 0

相关产品

  • 云原生大数据计算服务 MaxCompute