如何构建大数据层级体系,看这一文章就够了

简介:

我先介绍一下自己:

我之前是网易的,负责整个后台,主要是网易新闻。有三亿多的用户量,这么大量的用户肯定会有很多的数据,这些数据怎么去处理、呈现、规划,让它场景化。这就是我之前所做的工作。


今天结合我自己的工作和参考一些人资料做了一些汇总,分享给大家:


下图是我之前做过的东西

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


第一个是银河统计系统,这是我在网易负责的一个大数据的一个统计系统。不仅是能够统计网易新闻每天的安装量、使用次数,同时也接入了十几个网易研发的产品,做这一套系统是当时比较大的收获。


第二个是网易内容发布,也就是CMS。大家在网易新闻上看到的所有内容都是从这个系统发出。当时运营、编辑给我们的提议就是我们不仅要发的准,也要让大家能够看到最及时的信息,而且要快。所以这一块也是需要一定的数据挖掘和数据处理。


第三个红演圈App。负责整个产品的前端到后端,担任产品总监这样一个职位。


这一次分享的目的是让不同角色的人了解大数据时代用过什么,怎么做。


分享大纲


我个人把公司的创建大数据体系分成6大类,从低到高是逐渐升华的过程,接下来我会介绍每一层级怎么去做,怎么去建立大数据体系。


这是我的分享大纲

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


第一层,要有基础的平台;

第二层,有了数据之后我们怎么去呈现;

第三层,呈现出数据之后怎么群用;

第四层,在用的过程中怎么分门别类的去细化;

第五层,怎么将我们使用的东西推广到外面去,让别人也可以用;

第六层,也就是公司高层战略决策要用到的。



一、数据基础平台



首先,最基础的数据采集平台,这一块会牵扯到一些技术方面的内容。对于概要的内容大家有一点印象就可以。


其实大家不用知道每一块的含义是什么,如果你想知道的话可以自己去百度。我这里主要讲的是你要有数据采集,数据存储,之后怎么去处理,然后怎么去使用数据,最终让我们搜集的数据和运营出来的数据达到一个循环。


无论阿里也好腾讯也好,最底层的也是使用的这个架构。采集-->存储-->分析--->呈现


这个是腾讯的数据平台

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


下面是我14年收集的数据,什么叫大数据,从数据的量上就是很大。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


接下来是阿里这一块。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


阿里和百度有一点不同在于他所需要用到的东西指向商户,包括各种各样的小商家。


所以对于阿里来说,他对数据的应用会更细,偏向于电商领域。阿里数据数量级也是很大的。


接下来是数据基础平台的变迁

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


过去:

我们只是简单的跑一下技术报表,会一些搜索语句,导出来之后使用办公软件处理。这是最早的处理方法,简单,但是数据存储的成本很高。


现在:

更多的是会用到一些计算,把实体资源虚拟化成数据。


未来:

智能化的数据处理方式,更快、更完善。总之随着技术变迁,数据处理这一块也会不断的发展。



二、数据报表与可视化



这里先给大家一些例子,首先是阿里。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


针对数据存储的可视化的界面。


优点:

数据平台结构很清晰,用各种不同的图表去呈现现在的数据资源的存量以及数据变化的情况;其次是个人与数的据关系明确,你可以看到自己所负责的数据处理的一个情况。


缺点:

数据报表太多了,看不过来。其次就是平台访问量不高。


这是阿里数据可视化的一个呈现。具体记录各个表的存储量有多少。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


更细一点的话不仅是告诉大家存储的量有多大还要说明具体关系是什么。当我在查询的一个关键词的时候都可以呈现各个表之前的关系,适合于特别大量的数据存储。


再继续,这是针对他每一个表的详细介绍。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


下面来说说腾讯


腾讯会把自己的系统分为不同的平台。不同的平台会有不同的用处。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


从表中可以看到腾讯对数据重视度很高。他们的数据平台相对于阿里来说简单一些。


接下来说一说第三方的数据平台


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


如果有不清楚的话大家可以去查一下,一些大公司的话也会去做一些开放的数据平台,比如腾讯云分析、百度统计。阿里无线数独已经关掉了,无论大的平台还是小的都对数据的重视度很高。



三、产品运营与分析



接下来通过可视化的数据运用起来。在这里只是对这一部分工作做一些介绍,点到为止。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


现在一般我们运营,包括产品所做的工作都要对用户行为进行分析,通过不同的呈现方式得出不同的点击量来决策我们应该使用哪一种方案。


接下来是漏斗模型。就是走一个流程,从开始到最后用户流失的一个情况,以此来评价我们做的方案决策是否合适。


第三是收入效果的监控分析,主要是付费转化率、渠道效果数据。这会使用在和第三方的合作上,需要检测这个钱在花出去之后有没有用。


第四是业务长期健康分析。从用户流动模型、产品生命周期分析产品成长性和健康性。


最后一个是营销推广的一个实时反馈。运营的同学实在熟悉不过了。我们举办一个活动,最后我们要统计出来这个活动具体带来了多少用户,多少注册量。


接下来介绍一下怎么进行数据分析。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


举一个例子,在我们做了一个新功能,怎么去验证这个功能是否合理?


事前要预测好,这个东西在上线之后会带来多少的用户,事先要有一个大概的预估。


事中,需要做到的是采集哪些数据,收集数据。比如检测一个点击按钮,用户点击了多少次,有多少用户点击了。如果检测的点多了就要用到用户的行为分析,通过用户点击的一系类的点,我们大概猜出来用户要实现什么样的功能。


最后,收集了数据之后,我们就要进行分析。用户在什么时候点击了多少次,消耗了多少的流量。通过分析我们有没有得到什么结论,包括用户是不是健康,数据是否安全,流程是否好的。这就是数据收集到之后我们要想的一些问题。


下面是YY的例子

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


不同的按钮,显示不同的名字可能会有多少人去点击。这个可以在web端和PC端可以很好的去实现。


漏斗模型

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


如果我们要做漏斗模型的话就要标识出要在哪一个部分得到一个怎么样的数据,对不同的阶段做不同的数据分析。千万不要从漏斗的点到漏斗的顶去分析,这是没有意义的。


用户的运营模型

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


将我们的数据模型化,通过一定的维度将用户拆分。什么样的数据属于什么样的用户。要将这些数据用来指导我们将来的工作。


这个是腾讯的用户模型分析

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


这是腾讯对不同的钻的会员做的分析。ppt上红色的用户喜欢QQ秀的衣服,愿意消耗多少点的Q币。通过不同运营的方法走不通的分支,去采集不同分支的数据来验证分支的走势是否真确,是否受欢迎。


这是某个公司每天持续发布的报表

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


做报表的目的就是每天做监控。一种是我们自己数据的变更,还有一种就是竞品数据变更。如果可以做到这两点的话对产品的迭代是有用的。


运营日报,主要是针对产品运营的人来说。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


记录不同的活动带来的不同的数据。涉及用户留存,拉新等等。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


又是大型的公司内部就会有专门的分析团队。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


再介绍一下用的比较多的做数据分析工具,EXCEL和SPSS。我一般用EXCEL比较多一些。SPSS是面向很大数据的时候经常使用到,它数据挖掘的功能特别强大。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


对于产品经理我们应该在数据运营中定位自己是一个什么样的角色。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


从大的方面说,每一个公司对于产品经理的定位都至少要有一项基本技能,那就是数据的分析技能。但是从我的经验发现很多公司的产品经理在数据分析方面是非常非常弱的。



四、建设数据化的运营体系



接下来通过可视化的数据运用起来。在这里只是对这一部分工作做一些介绍,点到为止。


怎么去建议我们的BOSS去建立一个数据化的运营体系?


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


规范很重要,这是数据采集的一个根本东西。规范制定失败最后造成一个什么样的结果,就是A和B说的一个数据指标指向的东西不一样,比如关于活跃用户的定义,这就导致出来的数据结果不一样。


接下来是展示的平台。这需要产品知道要采集什么数据,并且把需要的数据给开发。


再往上就是数据仓库,在收集数据之后放到仓库中,去分析用户的兴趣爱好。

最后是人。专业的人做专业的事。


举一个具体的例子:腾讯

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


这还只是一个黄钻的运营体系建设,再接下来时腾讯的用户生命周期。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


不同的时间阶段,不同的用户处于不同的生命周期。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


这是营销活动运营监测的一个数据。



五、数据产品



640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


广点通,现在已经渗入微信了。在微信后面会有大量的数据处理,他会分析不同的客户。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


阿里的数据更多的涉及到商家和所买的货物。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


数据魔方,主要提供行业数据分析,店铺数据分析。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


百度预测:预测了一些流感,城市旅游,以及世界杯,准确度挺高的。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


司南:可以用来做用户画像,人群分析。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=



六、战略分析与决策



最后是对于产品经理的一些建议。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=



七、Q&A环节



1、微信有哪些是可以用于商业化变现的?

 

微信上面承载的东西很多,那就需要看他想往哪个方向发展。微信是一个平台,对于微信本身的商业化,它更多的是买流量,据我了解现在商业化的方式是微信朋友圈广告。


后续他要做商业化,可能要往电商上发展,商业号出来之后,本身不会参与到你的运营当中,可能是会收取一些租金。但是微信不可能去做微信商城的。


2、能不能通过抓取其他站点的数据来进行数据分析?


想法和实操还是有些差距的。别人的访问量高,并不一定是单纯的因为他文章写的好,可能还会有他的一些运营手段,以及他的一些人脉,这些都会导致他的站点是比较火的。


当然内容也是不可或缺的一部分。这个方案是可行的,但是在你实际的操作的过程中可能是不一样的。建议在实操的过程中多思考,不要认为别人怎么做自己就怎么做。在抓取到的数据上做一定过滤和加工。可以去监控竞争对手的内容,考虑他们为什么要这么做。


3、怎么去测试一个应聘者在数据、运营、产品上的能力?


说句不客气的话,我特别喜欢虐应聘的。一方面是基础的一些概念他一定要懂,哪怕你可以说错,但是不要没有听说过这个概念;另外一个方面就是基本的分析方法,比如做内容方面的,怎么去评价内容的好与坏,从细节处去提问应聘者。


4、如何对微信订阅号的用户做一个分析?


一个微信公众号后台有多少关注,将用户分层,什么年龄段,用什么手机。通过调查问卷,去询问我们的用户对于什么样的内容比较感兴趣以及愿意去推广什么内容。这是简单的做法,复杂的就要涉及到假设检验。


5、网易云音乐,如何运营社区良好的讨论氛围,对于社区中的不良言论该如何屏蔽与取舍?


UGC如何做到一个良性的循环。只要是有UGC的产品都是会越到这样的问题。关于如何过滤垃圾内容、提升社区质量,大家可以到我的简书(搜索申悦)上去看我翻译的十几篇连载的文章。


B站通过注册提问提高用户门槛来提升用户,知乎之前也是提高门槛来提升用户质量。增加用户投票机制,比如知乎通过反对和赞成过滤信息,或者通过屏蔽去除劣质的内容,让用户自己去帮你筛选优质信息。第三是系统提供一些功能屏蔽过滤劣质内容,最后就是去培养一些优质的用户,让他们源源不断的为社区提供优质的内容,这个就要涉及到社区激励的机制了。


6 我们在做用户画像的时候遇到大量的数据无法下手,还有就是我们应该侧重于用户的什么属性?


一方面自己做,另一方面给第三方平台做。用第三方平台做的话只需要将数据导入给他做分析;自家做的话,要根据用户的使用场景、产品的定位来分析。


不同领域的产品所做的是不一样的。对于用户做进一步的细分,简单的方式是将自身的用户给维护好,举个例子,你想知道自己的用户他们对那些板块感兴趣,那你就要将自己的用户资料给完善(比如性别,年龄),然后分析对这些板块感兴趣这一批人。

添加老师 微信 cdagood领取价值2999元数据分析资料!!

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
17天前
|
存储 大数据 数据处理
PHP 与大数据:构建高效数据处理系统
传统的数据处理系统往往难以应对大规模数据的处理需求,而PHP作为一种常用的服务器端脚本语言,在数据处理方面也有其独特的优势。本文将探讨如何利用PHP构建高效的大数据处理系统,结合实际案例分析其应用场景及优势所在。
15 2
|
4月前
|
SQL Oracle 物联网
助力工业物联网,工业大数据之数仓维度层DWS层构建【十二】
助力工业物联网,工业大数据之数仓维度层DWS层构建【十二】
45 0
|
8天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
39 1
|
1月前
|
SQL 存储 监控
构建端到端的开源现代数据平台
构建端到端的开源现代数据平台
49 4
|
1月前
|
人工智能 DataWorks 数据可视化
心动基于阿里云DataWorks构建游戏行业通用大数据模型
心动游戏在阿里云上构建云原生大数据平台,基于DataWorks构建行业通用大数据模型,如玩家、产品、SDK、事件、发行等,满足各种不同的分析型应用的要求,如AI场景、风控场景、数据分析场景等。
334 1
|
2月前
|
存储 数据可视化 JavaScript
基于Echarts构建大数据招聘岗位数据可视化大屏
基于Echarts构建大数据招聘岗位数据可视化大屏
47 0
|
4月前
|
SQL 存储 分布式计算
助力工业物联网,工业大数据之数仓事实层DWB层构建【十七】
助力工业物联网,工业大数据之数仓事实层DWB层构建【十七】
37 0
助力工业物联网,工业大数据之数仓事实层DWB层构建【十七】
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
46 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0