动辄数百TB级数据的分析平台 海量并发无压力

简介:

从本质上来讲,大数据平台的目标都是完成对数据的采集、清洗、加工、加载、建模分析,可视化的过程。本文源自诸葛io创始人&CEO孔淼在AWS技术峰会上的分享内容,从技术架构和底层平台方面讲解全量数据处理的分析平台如何实现。本文为第三篇,此前分别从行业现状和趋势(原文《「场景化」增长的践行者:探寻大数据时代的商业变革》);及分析模型(原文《诸葛io围绕用户的场景化分析 驱动数据价值释放》)两方面阐述。

海量数据并发「无压力」用户会话真实「不切割」

动辄数百TB级数据的分析平台 海量并发无压力

数据收集端

诸葛io的数据采集采用的是LVS+Nginx+Lua,而不是简单的Nginx,之所以这样设计是因为:

  • “多租户”平台要同时支持很多大型应用,例如“墨迹天气”,“Flipboard红板报”等大数据量的数据上传;
  • 率先采用https协议的数据采集分析平台,所以比http高并发面临的挑战会更大;
  • 保证高响应的速度;

此外,诸葛io的私有部署也同时支持该架构,保障用户数据上传的实时性,准确性。

数据分析模型

诸葛io的数据分析模型更高级,我们的模型是“用户-触点(设备)-会话-事件”:

动辄数百TB级数据的分析平台 海量并发无压力

a. 会话是行业分析的标准,我们的模型基于实时还原用户会话场景,而不是通过“规则”来人为切割;

b. 诸葛io对“用户”的判断一直以来都是行业比较领先的规则,传统的“用户”其实是“设备”,而我们能找到用户与设备的关系,透过设备来追踪背后真正的用户,包括不限于:

  • 用户注册前的匿名行为与注册后行为的关联
  • 单用户的多设备(跨平台)行为关联
  • 单设备多用户的行为还原

为了支持这样的数据模型,我们需要更复杂的服务端逻辑处理,Codis是领先的Redis分布式组件,让我们的实时匹配更可扩展,而SSDB是兼容Redis协议的硬盘存储,支持海量的关系存储。

  • 基础存储、索引、OLAP

诸葛io同时支持SaaS和私有化部署,所以有统一的ETL以及差异化的数据存储和查询引擎,基础存储基于S3和HDFS。Redshift是很多硅谷最顶尖的公司都使用的技术,包括Airbnb, Yelp, Pinterest等等,我们致力于给国内客户提高更高品质的云端分析能力,所以也采用了更好的基础设施。

站在AWS的肩膀上

动辄数百TB级数据的分析平台 海量并发无压力

诸葛io依托AWS可灵活拓展的云计算平台,可降低持续成本,无需购买服务器等前期设备,快速实现数据应用,缩减基础设施成本及时间成本;企业搭建大数据平台的目的是应用而不是运维,所以诸葛io通过AWS平台降低企业运维成本;此外为了便于诸葛io在其他方面的探索,比如在AI方面进行探索,通过AWS平台提供的AMI可极大地降低研发成本。

总之,基于AWS平台弹性化的丰富功能,更人性化的设计方案,更高质量的全球服务,为诸葛io提供了优质的基础设施服务:

1、功能丰富

AWS的功能非常丰富,除了EC2作为基础机器之外,PaaS方面,我们使用了EMR/ S3/Redshift等组件,小的功能方面,还包括AMI镜像备份恢复,用户的IAM权限分配,Instance机器种类和外置磁盘EBS的选型,分布式S3的文件存储功能以及工作中产生的业务需求等。

2、弹性化

诸葛io在搭建基础设施之初,就以满足海量数据规模计算为目标,随着诸葛io每年企业客户呈指数级的增长,再次证明最初的坚持是正确的。

海量数据并发,当系统负载、QPS偏高时,常出现CPU利用率达到100%的情况,此时诸葛io即可通过调用AWS API接口来实现弹性扩容,包括主机的分配、流量的分配、IP的绑定、域名解析的配置以及存储服务等。

3、全球服务

能够在节约成本的前提下,非常方便的进行扩容和Hadoop/Spark数据计算,在全球部署自己的数据中心,帮助诸葛io为全球企业客户提供服务。

Amazon EMR

Amazon EMR 是一种 Web 服务,它能让企业、研究人员、数据分析师和开发人员能够轻松、经济高效地处理海量数据。

大数据平台基于Hadoop,技术复杂度非常高,对诸葛io而言,底层的运维压力和成本压力非常大。因为动辄一个客户可能就是数百TB级的数据,我们必须选择非常灵活、低成本的方式来支撑业务,所以我们选择EMR。

此外,Hadoop有很多发行版,在选择不同的Hadoop版本时,EMR帮助诸葛io更快捷地筛选适合我们的发行版套餐,Hadoop在组件的更新和支持上非常迅速,帮助诸葛io及时跟进最新技术来调整方案。

基于Amazon EMR易操作,易于设置集群/Hadoop/节点、在重试失败任务等方面具有很高的可靠性、允许任何规模处理数据来灵活控制成本支出、通过自动配置Amazon EC2防火墙设置保证数据安全,灵活自定义群集,使用成本的优势,为诸葛io搭建一个强大的技术支持。

EMR & S3 有效结合

采用AWS的S3(数据采集平台)存储数据,可对分散的数据进行有效的集中管理,满足对不同框架的输入需求,甚至支持Redshift的直接查询,而且有高持久性。在诸葛io的实际运用中,通过将EMR与S3的有效结合,降低数据传输成本,增加数据存储能力扩展性,增强计算能力的扩展性,提高伸缩响应速度,摊薄存储与计算成本。

Redshift

Redshift:提供基于云的全托管的PB级高速数据仓库,用现有BI工具分析海量数据。

随着诸葛io的客户越来越多,Greenplum的方案已不再适合SaaS服务,因为它虽然查询性能很好,可一旦海量并发时便遇到性能瓶颈。

在研究国外架构时,Redshift是airbnb等很多知名公司的选择,所以,在尝试后我们发现Redshift的确是基于数据仓库优化,包括基于S3之后在海量数据加载和计算时有非常不错的表现,另外,考虑到业务方案和基础架构,诸葛io也选择了兼容性和适配性更好的Redshift。

此外,Redshift可以利用现在使用的 SQL 语法和 BI 工具,对 Amazon S3 中的 EB 级数据进行查询,二者范围内可进行无缝查询,具有极高的扩展性;通过 AWS 管理控制台或 Amazon Redshift API 使用任何系统快照或用户快照来恢复群集,系统元数据恢复后,群集就可供使用,并且可在用户数据在后台输出时开始运行查询,具有快速恢复能力;在未使用Redshift之前主要使用Greenplum作为数据仓库,二者都是基于postgresql,数据迁移到新数据仓库后对应用中查询改动量较小,平滑迁移,更易于迁移。

大数据的技术发展势不可挡,大数据技术的发展将会越来越多样化,企业必须跟上技术发展趋势并结合数据与价值输出。随着更为复杂的用户需求涌现,精细化数据分析将成为驱动企业业务增长的关键功能。

诸葛io围绕这些趋势所产生的问题,结合用户-触点(设备)-会话-事件模型,提供了一站式的数据分析解决方案,从数据接入到自助式的场景分析,最后再将底层进行清洗和整合过的数据,完整开放给企业,以便实现企业数据相关价值的挖掘。

以用户跟踪技术和简易集成开发的方法,帮助移动应用的运营者挖掘用户的真实行为与属性,帮助互联网产品更快、更简单的通过数据驱动产品分析从而实现业务增长,商业价值的提升。


本文作者:佚名

来源:51CTO

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
消息中间件 算法 Java
【亿级数据专题】「分布式消息引擎」 盘点本年度我们探索服务的保障容量的三大关键方案实现
尽管经过了上一篇文章 《【亿级数据专题】「分布式消息引擎」 盘点本年度我们探索服务的低延迟可用性机制方案实现》有了低延迟的优化保障,消息引擎仍需精心规划其容量。为了提供无与伦比的流畅体验,消息引擎必须实施有效的容量管理策略。
52 2
【亿级数据专题】「分布式消息引擎」 盘点本年度我们探索服务的保障容量的三大关键方案实现
|
2月前
|
存储 消息中间件 Java
【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的高可靠消息服务设计实现
在深入研究了 **“【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的API网关设计实现”** 设计实现后,我们意识到,尽管API网关为服务商提供了高效的数据获取手段,但实时数据的获取仍然是一个亟待解决的问题。
31 1
【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的高可靠消息服务设计实现
|
4月前
|
SQL 存储 OLAP
2G内存搞定一亿数据的分析引擎
EuclidOLAP是一个可以在低配置服务器上执行上亿数据量分析并且快速响应和支持复杂查询的开源OLAP数据库。
77 2
|
存储 数据采集 分布式计算
如何处理大规模数据量的应用?
如何处理大规模数据量的应用?
104 0
|
存储 弹性计算 监控
波克城市引入阿里云数据仓库AnalyticDB,助力万亿级数据秒级分析,节省80%以上存储成本
AnalyticDB是阿里云自研、经过大规模验证的云原生数据仓库,曾在权威评测机构TPC组织的TPC-DS和TPC-H测试中获得性能和性价比全球第一的成绩。
波克城市引入阿里云数据仓库AnalyticDB,助力万亿级数据秒级分析,节省80%以上存储成本
|
SQL 存储 大数据
10亿+/秒!看阿里如何搞定实时数仓高吞吐实时写入与更新
10亿+/秒!看阿里如何搞定实时数仓高吞吐实时写入与更新
3762 2
10亿+/秒!看阿里如何搞定实时数仓高吞吐实时写入与更新
|
缓存 关系型数据库 大数据
百亿级性能
使用关系型数据库来做大数据,第一步必然是索引! 单表超过1000万数据,任何查询都必须走索引!否则数据库一定跟你说ByeBye!
285 0
|
存储 SQL 关系型数据库
百万级活跃用户、十亿级数据,揭秘PolarDB-X如何提升小打卡性能和稳定性
通过PolarDB-X+RDS MySQL的分布式数据库解决方案支持客户核心业务圈子打卡日记,采用PolarDB-X的水平拆分给客户提供海量数据存储能力,利用平滑扩容能力提供计算和存储的平滑扩展,可支持到百亿级数据存储和读写。
655 0
百万级活跃用户、十亿级数据,揭秘PolarDB-X如何提升小打卡性能和稳定性
|
运维 监控 Java
日均千万级消息规模,深捷旅使用函数计算释放运维压力
函数计算可以监听多种数据源,通过监控处理业务量的变化,快速进行自适应的扩缩容操作, 通过毫秒级的扩容,可以获得线性增长的业务处理能力。
1758 0
日均千万级消息规模,深捷旅使用函数计算释放运维压力
|
存储 运维 监控
阿里云时序数据库TSDB的优势讲解,数据写入效率提升百倍
在物联网场景中,每时每刻都会产生大量的时间序列数据(称为时间序列数据),如何对这些数据进行实时灵活的分析成为不可或缺的部分。
1139 0
阿里云时序数据库TSDB的优势讲解,数据写入效率提升百倍