大数据应用之数据画像建设

简介:

大家经常听到一个词,叫做“画像”,结合具体对象就是:“用户画像”、“商品画像”、“产品画像”、“资产画像”……特别是大数据时代下,在实际企业中,利用大数据进行“画像”建设是企业经营的基础,建设企业竞争优势重要的工具之一,当然也是大数据在企业应用最价值重要的场景之一。

大家经常听到一个词,叫做“画像”,结合具体对象就是:“用户画像”、“商品画像”、“产品画像”、“资产画像”……特别是大数据时代下,在实际企业中,利用大数据进行“画像”建设是企业经营的基础,建设企业竞争优势重要的工具之一,当然也是大数据在企业应用最价值重要的场景之一。

去评价一家企业数据化运营程度,或者说数据驱动程度,或者说是否是用“数据说话”。也许尝试问下面几个问题可以进行评估:

1、是否建设了“画像”?

2、“ 画像”体系构建程度,针对什么对象进行了画像。

3、如何应用已经构建好的”画像”,已经构建画像的各种标签与指标。

4、……

画像为什么对企业那么重要,如何进行画像建设,我会后续把相关经验分享给大家,这篇文本更多从一些案例,让大家对于用户画像建设有直接的感觉。

标签是画像建设的基础

画像的建设过程分成下面几部分:

20170118021356793.jpg

在画像建设中,标签的构建是关键。本文重点来讲数据标签的建设。标签是各类数据指标结合具体的应用/业务场景来构建,如果没有应用场景构建出来的标签往往就很难“落地“。

我们下面讲二个案例来说明数据标签建设过程:

案例一:用户的商品价格偏好标签

某公司的业务团队想要了解用户的消费偏好是怎么样的。当业务团队说我们要构建用户消费偏好画像的时候,往往是指各种场景下用户是如何选择做出选择的,所以需要具体把偏爱画像拆分成几个不同数据标签:

20170118021357864.jpg

我们以价格偏好为例,也就是说用户的在购物时候偏好于哪个价格带的商品。对于价格带的偏好,构建步骤如下:

取用户历史购买消费记录,统计用户历史购买商品的价格,然后对价格进行区间划分。看用户购买的价格带主要集中在哪个区间中(价格带偏爱应该是一个相对动态的标签,更新频率可能一个月需要定期更,而且选择的时间段也应该是过去某个时间,不应该选择过长时间段。大家想想为什么?)。如何进行价格区间划分?

方法一:按统计学的方法:

1、 按分位数进行。例如:25%,50%,75%

2、 按等箱原则。划分几等分

3、 看数据的分布。

4、 ……

方法二:按业务知识经验

把价格带按业务经验,行业经验进行划分。

通过数据统计出来,我们可以看用户是否商品单价是否集中的某个区间范围内。例如,某用户购买的商品价格主要集中在30到40这个区间内,根据历史显示可以说,用户可能偏好于购买这个价格带的商品。当未来我们需要做促销商品推荐的时候,可以向该用户重点推荐打折后在这个价格区间的商品。

通过用户购买的价格区间,以及结合商品所归属的品类,可以看这个价格区间在这个品类中属于什么级别的。可以进一步给用户打上:注重品牌、注重高性价比等标签。

例如:如果某个品类商品的价格范围是(5,40],该用户购物商品主要集中(30,40]这个商品价格区间,用户在这个品类的消费上都是最高价格区间,说明这个用户在购买这个品类主要购买的高端商品。这样又可以为这个用户打上在这个品类的消费特征标签:品类高端用户。

案例二:用户流失概率标签

我们经常会听说一个数据: “养一个新客户的成本是维护一个老客户成本的5倍?在利润贡献方面,老用户更是新用户的16倍”

当然这个5倍更应该理解为期间,更应该理解为:相对争取一个新客,更应该花时间与精力在维护好一个老客上。为什么呢?(同学们一起思考一下) 做用户运营的同学对于流失用户主要痛点如下:

1、 那如何去给用户打上流失概率的标签?

2、 如何及时更新这个流失概率的标签?

3、 什么时候应该开始需要给流失用户进行营销?

4、 针对不同流失概率的用户是否要设计不一样的策略?

5、 对潜在流失用户,应该设计什么样的策略?

6、 对不同类型流失特征的用户,应该投入的成本多少?

对于老客的维护,首先应该及时知道用户的流失概率多少?随时时间的推移流失概率是否有变动,特别是流失概率高的用户要及时进行营销避免真的流失。

流失概率用大数据中机器学习的方法预测,而且根据用户产生的行为可以实时去计算用户流失概率标签(用户的流失概率应该是动态,是否需要非常高的时效性,还要结合具体开发成本)。通知运营同学根据不同的用户特征,设计好营销策略。当用户满足相应条件时间,会自动促销相应的营销策略,这才是大数据应该有的场景。

我们如何给用户的流失概率打上标签呢?如果你的公司的业务比较稳定,公司的业务有一定周期(这个周期多长,要看你公司的业务模式,是对B还是对C),我们会使用机器学习/数据挖掘的方法来去计算这个概率是比较准确的,如果业务太新,数据积累太少建模型往往不是一个好的选择。

我们还是以电商为案例背景,这个公司的CRM团队,希望知道用户流失的概率,根据流失概率定期对相关的用户进行营销,降低用户的流失率。如何构建这个模型从而打上流失概率标签,主要步骤如下:

业务理解。 与业务沟通分析流失用户特征,用户的生命周期定义。例如:多久没有和公司互动或者交易定义为休眼,多久没有交易认为是流失了。

业务分析。流失用户的可能的原因是什么,根据这些原因,相应去找到或者设计预期指标。例如:如果用户有过差评,流失可能性高。用户经常看到公司商品缺货,流失可能性高。

模型构建。 设计流失用户的预测模型。根据之前的业务流程,业务知识的梳理,围绕用户设计一系列的指标,如下图所示,会从各个方面进行指标清洗,放到模型中建模。


本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
14天前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
27天前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
24天前
|
数据采集 分布式计算 大数据
Java语言在大数据处理中的应用
传统的大数据处理往往依赖于庞大的数据中心和高性能的服务器,然而随着大数据时代的到来,Java作为一种强大的编程语言正在被广泛应用于大数据处理领域。本文将探讨Java语言在大数据处理中的优势和应用,以及其在分布式计算、数据处理和系统集成等方面的重要作用。
|
4天前
|
数据采集 搜索推荐 大数据
大数据中的人为数据
【4月更文挑战第11天】人为数据,源于人类活动,如在线行为和社交互动,是大数据的关键部分,用于理解人类行为、预测趋势和策略制定。数据具多样性、实时性和动态性,广泛应用于市场营销和社交媒体分析。然而,数据真实性、用户隐私和处理复杂性构成挑战。解决策略包括数据质量控制、采用先进技术、强化数据安全和培养专业人才,以充分发挥其潜力。
11 3
|
7天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。
|
16天前
|
NoSQL 大数据 数据挖掘
现代数据库技术与大数据应用
随着信息时代的到来,数据量呈指数级增长,对数据库技术提出了前所未有的挑战。本文将介绍现代数据库技术在处理大数据应用中的重要性,并探讨了一些流行的数据库解决方案及其在实际应用中的优势。
|
21天前
|
机器学习/深度学习 人工智能 数据可视化
基于Python的数据可视化技术在大数据分析中的应用
传统的大数据分析往往注重数据处理和计算,然而数据可视化作为一种重要的技术手段,在大数据分析中扮演着至关重要的角色。本文将介绍如何利用Python语言中丰富的数据可视化工具,结合大数据分析,实现更直观、高效的数据展示与分析。
|
28天前
|
存储 NoSQL 大数据
新型数据库技术在大数据分析中的应用与优势探究
随着大数据时代的到来,传统数据库技术已经无法满足海量数据处理的需求。本文将探讨新型数据库技术在大数据分析中的应用情况及其所带来的优势,为读者解析数据库领域的最新发展趋势。
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0