《R语言游戏数据分析与挖掘》一1.3 数据分析师的能力要求

简介: 本节书摘来华章计算机《R语言游戏数据分析与挖掘》一书中的第1章 ,第1.3节,谢佳标 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3 数据分析师的能力要求
因为在数据化运营中,数据分析师要深入业务背景,倾听和发现业务需求,走到业务第一线,与业务团队并肩作战,所以要求数据分析师具备很强的组织协调能力,具有项目大局观,懂得在不同阶段调用不同的资源。从这点来看,业务理解力和沟通能力的重要性甚至要超过技术层面的能力(数据处理能力、数据统计分析能力、数据挖掘能力、数据应用能力)。图1-2是游戏数据分析师需要具备的关键能力。

image

首先数据分析师要具备组织能力。这体现在项目前期调研、方案制定、项目开发和项目落地的职责和能力要求。

  • 调研:深入业务背景,发现、倾听业务需求。
  • 方案:通过前期调研,有效判别分析需求价值,根据需求能有效提供分析解决方案。
  • 开发:针对制定的解决方案,能通过技术手段进行项目开发。
  • 落地:将开发成果结合业务场景进行落地,并持续跟踪落地应用效果,修正或优化方案和模型。

数据处理能力、数据挖掘能力和数据应用能力这三大块能力需要数据分析师通过时间、项目经验去磨砺,不断成长,懂得何时运用哪种数据挖掘技术解决相应的问题。

1.3.1 数据处理能力

刚刚收集上来的raw data(原始数据)一般存在脏数据,不能达到直接建模的要求。我们不能直接利用raw data进行数据分析建模,所谓“垃圾进垃圾出”,这样得到的分析结果也不一定是可靠的。对于raw data,我们需要评估数据质量,清洗脏数据,通常包括缺失值和异常值的处理,使之达到数据分析的需求。假如现在有一份30万的用户调研数据,由于某些玩家不愿意填写自己的性别、收入等,导致这些变量存在数据缺失的情况。现在利用数据分析技术对缺失值模式进行可视化探索,如图1-3所示。
由图1-3可知,有2万位玩家没有填写性别信息,其中有609位玩家同时缺失性别、年龄信息,31位玩家同时缺失性别、年龄和收入的信息。掌握了数据缺失模式后,就知道应该运用何种技术处理这些缺失值。

image

针对异常值数据,我们同样希望能通过科学的方式甄别异常值并处理。例如,可以利用箱线图发现异常值,并在图上打印出异常值的样本号和数值,直观地对异常值进行可视化展示。比如现在有某个月日新增用户在第30日留存率的数据,通过普通曲线图很难发现是否有某些天的新增在第30日留存存在异常情况。此时可以借助箱线图的方式甄别异常值,如图1-4所示。image

由图1-4可知,这个月有三天的新增用户在第30日留存率低于正常水平,分别是5日、6日和9日。
进行数据清洗后,有时候还需要对数据进行数据整合转换,使之符合建模前的数据需求,常用的一种方式是添加衍生变量。所谓衍生变量,其实就是指数据分析师在分析(建模)过程中人为增添的一些新变量,这些新变量产生之后,可以明显提升模型的效果,或者可以有效提炼出有价值的分析结论。

1.3.2 数据挖掘能力

数据分析师在建模的过程中,需要根据业务需求和数据特点选择合适的算法,利用专业的数据挖掘工具进行建模,并评估模型效果。比如在面对用户分析的需求时,可分别分析玩家点击行为的路径和玩家购买的道具,根据不同的方向和目标选择不同的算法和工具。
如图1-5所示,在研究玩家的点击行为时,如果是单路径情况,可以使用漏斗图查看每一步的转化情况;如果是多路径的点击情况,可以使用sunburst事件路径图快速定位用户的主要点击路径,也可以利用社会网络图对玩家间的点击事件关系进行可视化。

image

在研究玩家的购买行为时,可以利用关联规则发现购买物品之间的关系,如图1-6所示。

image

1.3.3 数据应用能力

由于业务团队的数据分析意识和能力不如专业的数据分析师,他们大多不懂解读模型结果。此时需要数据分析师将模型得到的知识用朴素的业务语言表达出来,从而利用分析结果指导运营和营销活动。以图1-6为例,业务团队一般看不懂这个图传递的信息,需要帮他们解读。比如圆圈越大表示两者的关联关系越强,很多玩家都购买过超级大礼包和新手礼包这两个道具,在做运营活动时,可以将这两个礼包进行捆绑销售,提高另外一个道具的销量。

相关文章
|
13天前
|
数据可视化 数据挖掘
R语言生存分析数据分析可视化案例(下)
R语言生存分析数据分析可视化案例
|
10天前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
11天前
|
数据可视化 算法 大数据
数据分享|R语言改进Apriori关联规则挖掘研究西安PM2.5含量与天气因素关系数据可视化
数据分享|R语言改进Apriori关联规则挖掘研究西安PM2.5含量与天气因素关系数据可视化
|
4天前
|
数据可视化
R语言大学城咖啡店消费问卷调查数据报告:信度分析、主成分分析可视化
R语言大学城咖啡店消费问卷调查数据报告:信度分析、主成分分析可视化
|
4天前
|
机器学习/深度学习 数据采集 数据可视化
R语言电影数据分析:随机森林探索电影受欢迎程度因素、参数调优可视化
R语言电影数据分析:随机森林探索电影受欢迎程度因素、参数调优可视化
|
4天前
|
机器学习/深度学习 数据挖掘 计算机视觉
R语言中的神经网络预测时间序列:多层感知器(MLP)和极限学习机(ELM)数据分析报告
R语言中的神经网络预测时间序列:多层感知器(MLP)和极限学习机(ELM)数据分析报告
|
10天前
|
机器学习/深度学习 数据可视化 数据挖掘
R语言用逻辑回归预测BRFSS中风数据、方差分析anova、ROC曲线AUC、可视化探索
R语言用逻辑回归预测BRFSS中风数据、方差分析anova、ROC曲线AUC、可视化探索
|
10天前
|
前端开发 数据可视化 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(下)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
10天前
|
机器学习/深度学习 算法 数据可视化
R语言改进关联规则挖掘Apriori在超市销售数据可视化
R语言改进关联规则挖掘Apriori在超市销售数据可视化
|
11天前
|
数据可视化 算法
R语言Apriori算法关联规则对中药用药复方配伍规律药方挖掘可视化(下)
R语言Apriori算法关联规则对中药用药复方配伍规律药方挖掘可视化(下)