云上游戏数据分析实践

简介: 数据分析和游戏的生命周期与盈利息息相关,同时数据分析对游戏的运维也起到了至关重要的作用,精确的数据分析可以延长游戏的生命和帮助其盈利。本文针对游戏行业的数据特点,结合游戏数据分析的现状,对数据分析上云的技术选型、结合数加大数据计算服务MaxCompute(原ODPS)、SLS、RDS、DPC等产品和
从游戏发展的角度来看,不管是端游、页游,还是现在发展迅猛的手游,其生命周期与盈利情况都与数据分析能力息息相关。同时数据分析对游戏的运维也起到了至关重要的作用。精确的数据分析有助于在做游戏运营时推出合理的新手引导,在及时的渠道推广和丰富的消费场景设计,这些将极大地影响游戏玩家对游戏的关注度,从而延长游戏的生命周期,并从中更好盈利。

游戏数据分析特点

分析是建立在数据上的,数据的特点决定了分析的方向和方法。游戏数据的特点主要表现在以下四个方面。
第一,数据量大。以手机游戏为例,一款中型规模手游的日均数据量增长在几十GB。在这种情景下,做常见的月活、季活等游戏指标分析所面对的就是TB级别的海量数据。
第二,数据类型丰富。从游戏数据的种类来看,分为结构化数据和非结构化数据。从数据存放的位置来看,可以分为文本数据、缓存数据库数据、关系型数据库数据等。
第三,分析维度多样。由于游戏指标不同,所以游戏分析的维度有很大差异。例如,游戏指标通常玩家指标、性能指标和过程指标三类。
  • 玩家指标,一般用于计算与收入相关的指标,如用户平均消费指标(ARPU,average revenue per user )和每日活跃用户(DAU,daily active users ),也可以用于调查人们如何与游戏系统交互,如用户游戏时间和用户的游戏内好友平均数。
  • 性能指标,针对游戏技术和软件框架性能,一般包含游戏在用户硬件平台上运行的帧速率,也被用来在观察打补丁或升级时对用户造成的操作影响。
  • 过程指标,针对游戏开发实际过程中的数据指标。
第四,实时性强。数据分析分为四个层次,数据量少实时性低,数据量少实时性高,数据量大实时性低,数据量大实时性高。这四个数据分析的层次对技术难度的要求是逐渐提高的。而游戏数据分析的特点可以划定在最后一档即数据量大实时性高,所以海量游戏数据分析对技术能力和软件需求提出了极大的挑战。

游戏数据分析现状及瓶颈

我们曾拜访了近百家游戏客户,深入了解游戏开发商如何处理和分析数据,发现目前数据分析在不同游戏行业中使用程度不同,主要表现在游戏规模越大,使用的数据分析维度越广,程度越深;中小型游戏数据分析使用程度一般。总体来说,游戏数据分析的现状如下。
  1. 不做数据分析。这种类型的游戏客户在小型页游和大厅类游戏中比较常见,只是出于备份的需要将数据从生产环境中定时批量备份出来,用单独的硬盘或者服务器做数据存储。
  2. 数据库级别执行SQL查询。大多数的游戏客户将生产数据备份出来,导入到专有的数据库中做离线数据分析,采用的方法是使用SQL语言和第三方报表工具做基本的数据查询。但基于数据库对数据量的限制,当单表记录到千万甚至上亿级别后,这种分析方法就基本行不通了。
  3. 使用成熟的数据仓库产品。在中大型游戏客户中,数据规模已达到一定的数量级别,游戏运维离不开数据分析的支撑。这种情况下,用户会选用数据仓库产品,将数据库中的数据经过ETL后导入到数据仓库中做数据分析,或者用户利用物理机集群自建大数据分析平台,例如Hadoop,Spark等分布式大数据分析框架,结合具体应用场景做大数据分析。
在数据分析中,当数据量达到海量级别后,上述三种情况都会遇到相应的瓶颈:
  • TB/PB级别的数据分析耗时太长;
  • 时间跨度大的数据分析耗时太长;
  • SQL无法满足所有数据分析需求;
  • 海量数据的存储问题。
除了海量数据处理能力问题之外,用户在自建Hadoop等分布式大数据分析框架中也会遇见技术难度高、框架维护成本高等问题。

阿里云产品和服务选型

在协助游戏客户将数据分析上云之前,我们仔细分析了目前用户的数据分析方式。他们的数据目前主要以两种形式存在,文本日志数据和数据库关系型数据。
  • 文本日志数据记录的是玩家实时战斗信息、晶钻消费信息和登录状态信息。这些数据在每个游戏服务器上都会产生,遵循用户自定义的数据格式。用户有一组专门的日志服务器和自定义程序在游戏服务器上定时批量抽取这些文本数据存放到日志服务器上。
  • 存放在数据库中的关系型数据增长速度通常会比较快。
上述两种类型的数据都会被批量导入到数据仓库中,进行数据分析。在技术选型上,客户给我们提出了两点要求。
  • 要保证上云后数据分析的效率,因为基于目前使用数据仓库分析的方式,分析日活、月活等信息时平均耗时在几十分钟级别。
  • 要提高数据分析的实时性,上云之前,对类似晶钻消费等数据做分析存在至少1个小时的延时,用户希望上云后能得到更加实时的分析结果。

面对客户的需求,我们在选择阿里云服务时,首先想到了阿里云数加-大数据计算服务MaxCompute,产品地址:https://www.aliyun.com/product/odps。然后我们选择了对文本日志数据支持较好的SLS(Simple Log Service,简单日志服务)。SLS为大量服务器日志文件的收集提取提供了一种监听实时抽取的服务,此外SLS和MaxCompute底层是打通的,所有存放在SLS服务器上的日志数据会被自动离线备份到MaxCompute中,方便用户做进一步的数据分析。除了MaxCompute和SLS服务,我们的方案中还使用了RDS(Relational Database Service,关系型数据库服务)以及DPC(Data Process Center,采云间)控制台工具。

利用上述提到的阿里云服务,游戏数据分析方案中的架构如图1所示。SLS通过安装在游戏服务器ECS上的Logtail客户端,建立一种类似心跳的方式监听文本日志文件,并按照用户指定的格式将数据抽取后以键值对的形式存放到SLS服务器。每条记录包含了时间、来源ECS IP地址和抽取的键值对信息。MaxCompute在游戏数据分析中可以被当成是一个大数据分析平台,可以将SLS和RDS数据导入到MaxCompute中,利用MaxCompute强大的数据分析能力分析游戏数据。DPC在游戏数据分析中充当IDE角色,除了应用在数据的导入导出,MaxCompute任务管理,还可以用来做最后的数据分析结果展示。

01c7c09b20d79835a1a5ff6a6f7398e0cb463fb1
接下来详细介绍上述场景中,游戏数据分析的具体步骤,参见图2。我们可以看到,游戏应用服务器在运行期间产生了大量的数据,接下来分别介绍文本数据和关系型数据导入至MaxCompute的实现步骤,然后结合数据分析的具体场景介绍在MaxCompute中做数据分析的实现方式。
e783d62205d14bf8666e517bb60285989051cf84
     第一,SLS处理文本日志详细步骤。在游戏服务器运行过程中,按照业务逻辑规划,一部分数据将直接写入到文本日志里进行保存。文本日志数据生成在本地指定目录文件中,且文件名按照时间命名,路径格式/var/log/game/$ {serverid}/${YYYYMM}/{DD}/{YYYYMMDD.HH24}.log,产生的一条日志记录如下所示:
action:CONSUME,m_uid:9085492,role_id:……,channel:20016,plat:ANDROID,udid:7ca94b77-fa76-……-2ad2ffe54ab3,server:……,role_name:monkey,ip:……,consume_time:2014-08-20 00:02:03,role_lv:22,item_id:0,amount:25,remain_amount:89,orderid:0,blue_amount:25,red_amount:0,blue_remain:89,red_remain:0。Logtail是ECS上的监听程序,可以配置监听目录和提取的日志内容,例如对上文的文本内容用自定义正则表达式提取出来,内容如图3所示。
bd64b8b3331078a175daeb79fb0e13aae8692afd 
日志被提取出来后,会按照(key:value)键值对的方式保存至SLS指定Category。日志被提取到SLS服务器后,除了每条SLS日志记录被提取的文本内容,还会记录一个时间和IP,这里时间是指数据写入文本日志的时间,IP记录了文本日志来源的游戏服务器IP地址。同时,已经保存在SLS服务器的数据会自动离线保存到MaxCompute用户指定的Project里面,如图4所示。
c89f5ae046ab45ad924933347fbdf502f6b65742
SLS Category存放的所有记录会自动离线保存到MaxCompute中,首次数据备份在6个小时内完成,以后每小时SLS的数据会被增量备份至MaxCompute。
第二,RDS处理关系型数据详细步骤。关系型数据是游戏服务器在运行过程中,对用户角色创建和用户消费行为数据的记录,直接通过业务逻辑写到RDS数据库中保存。RDS里面的数据,可以通过阿里云DPC工具,将数据批量定时地导入到MaxCompute指定Project里,如图5所示。
9399d6d1e1ecdc42374f8cfa0b43de79b39c3477 
f3a1b2e56549c1ff2f01b65d3683ad026b30d605
RDS数据导入经过基础配置、列筛选、数据筛选三个步骤后,就可以发布导入计划时间,可以分为每日、每周、每月进行数据导入。关于导入的数据筛选和导入时间的设置,完全取决于用户的使用场景。例如,用于游戏消费数据信息这种实时分析要求较高的数据建议选择每日非活跃时间段定时导入。任务发布后,可以继续通过DPC控制台对任务的执行情况进行查看。
第三, MaxCompute数据分析详细步骤。在游戏服务器产生的文本数据和关系型数据都集中导入到MaxCompute之后,接下来可以利用MaxCompute平台本身的产品特性,开始做用户自定义的数据分析。MaxCompute中常用的数据分析有以下几种方法。
6dd6c86d2566f33c85639dd7e9af9101349ef769
 
  • MaxComputeSQL语句查询,能查询满足用户绝大多数的数据分析需求,如图6所示。
  • 发布自定义UDF任务。UDF是指用户自定义函数处理,例如做一个游戏描述的大小写转换函数,用Java代码编写好函数后,打包成Jar文件发布到MaxCompute中,然后SQL语句里面就可以直接调用函数功能。
  • 发布MapReduce任务。阿里云MaxComputeMapReduce和UDF功能在Eclipse开发工具中有相应的开发插件,在插件完成安装后,创建MapReduce功能。

在创建MapReduce文件后,根据实际游戏数据分析任务,分别完成Map函数和Reduce函数的编码,然后通过Driver类设置运行资源和格式。在Eclipse中完成的MapReudce任务可以打包成为一个Jar文件发布到MaxCompute指定Project。

第四,DPC数据展示。目前DPC的图形化数据展示功能还没有开放,本节将使用表格化数据举例说明DPC数据处理结果。发布任务后,DPC控制台提供查看操作日志的功能,如图6所示。

目前,所有子任务执行成功后,数据分析的结果会以表格的形式展现,同时这些数据分析结果也可以通过DPC工具保存至RDS。在RDS中数据的交互性更强,可以利用第三方报表工具做多维度的数据展示。

总结

阿里云发展到现在已经提供了20多种云产品和服务。这些服务功能选择性多,稳定性好,性能优异,节省了用户使用成本。希望阿里云能推出更多稳定可靠的产品和服务给技术人员更多的选择。
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
数据采集 存储 数据可视化
Python数据分析从入门到实践
Python数据分析从入门到实践
|
1月前
|
数据采集 数据挖掘 数据处理
Python在数据分析中的应用实践
【2月更文挑战第12天】 本文深入探讨了Python语言在数据分析领域的应用,通过介绍Python的几个关键数据分析库(Pandas、NumPy、Matplotlib)的基本使用方法和案例实践,展示了Python处理数据的强大能力。不同于传统的摘要,本文旨在通过实际操作案例,让读者能够直观感受到Python在数据分析中的实际应用价值,从而激发读者进一步探索Python数据分析能力的兴趣。
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
Python数据分析:从入门到实践
Python数据分析:从入门到实践
|
2月前
|
数据采集 数据挖掘 大数据
Python 数据分析中的数据清洗技巧与实践
【2月更文挑战第1天】数据分析是当下热门的技术领域之一,而数据清洗作为数据分析过程中至关重要的一环,往往被人们忽视。本文将深入探讨在 Python 环境下进行数据清洗的关键技巧与实际操作,帮助读者提升数据分析的效率与准确性。
|
2月前
|
数据可视化 数据挖掘 数据处理
Python在数据分析中的应用实践
在当今数据驱动的时代,Python已成为数据分析不可或缺的工具之一。本文旨在探索Python在数据分析领域的实际应用,通过介绍Python的核心库(如Pandas、NumPy和Matplotlib)的使用,以及展示一个简单的数据分析项目实例,来阐述Python如何帮助分析师高效地处理和分析数据,从而提取有价值的信息。与传统摘要不同,我们不仅概述内容,还强调实践的重要性,旨在激发读者通过实际操作深入理解Python在数据分析中的强大功能。
24 1
|
2月前
|
数据采集 数据可视化 数据挖掘
深入浅出:Python在数据分析中的应用实践
本文旨在探讨Python语言在数据分析领域的高效应用,通过简洁的语法和强大的库支持,Python已成为数据科学家和分析师的首选工具。文章首先介绍了Python在数据处理、清洗、分析及可视化方面的基础知识,随后通过一个实际案例,展示了如何利用Pandas、NumPy、Matplotlib等库进行数据分析的完整流程。通过本文,读者将能够理解Python在数据分析中的核心价值,掌握其基本操作方法,并能够在实际项目中灵活运用。
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
Python在数据分析中的应用实践
在数字化时代,数据分析成为了驱动企业、科研等多个领域发展的关键力量。Python,作为一门高效、易学的编程语言,其在数据分析领域的应用尤为广泛。本文将深入探讨Python在数据分析中的实际应用,包括数据处理、可视化、以及机器学习等方面。我们将通过实例说明Python如何帮助分析师高效地处理和分析数据,从而洞察数据背后的信息,支持决策制定。此外,文章还将简要介绍几个常用的Python数据分析库,如Pandas、NumPy、Matplotlib和Scikit-learn,并提供一些实用的代码示例,帮助读者快速入门Python数据分析。
17 0
|
7月前
|
关系型数据库 MySQL 数据挖掘
助力游戏运营数据分析
本体验通过多产品组合构建了游戏数据运营分析平台,提供全面的游戏运营指标分析功能,并有效的分析渠道效果。更加有效地掌握游戏运营状态,也可充分利用数据分析的结果改进产品体验,提高游戏收益。
118 0
|
7月前
|
SQL 关系型数据库 MySQL
边锋 x AnalyticDB MySQL:打造一站式游戏数据分析平台
杭州边锋网络技术有限公司是国内领先的休闲游戏开发商、运营商、发行商。20余年来,边锋网络一直是中国棋牌游戏的开拓者和变革者。  边锋网络市场覆盖20余个省份,注册用户过亿,月活跃用户上千万,是国家级重点软件企业(一类)。公司大数据分析系统"反应堆"目前支持着包括雀神广东麻将、边锋斗地主、蜀山四川麻将、功夫川麻等10余款休闲游戏产品;
|
11月前
|
数据可视化 数据挖掘 Python
【Python】数据分析与可视化实践:收支日统计数据可视化的实现 Python数据分析与可视化实践:收支日统计数据可视化的实现
【Python】数据分析与可视化实践:收支日统计数据可视化的实现 Python数据分析与可视化实践:收支日统计数据可视化的实现
126 0