【干货分享】鲁四海:大数据技术及行业应用

简介:
2016年7月17号在北大举行的第五届中国大数据应用论坛上,中国新一代IT产业推进联盟技术分委会秘书长鲁四海做了题为《大数据技术及行业应用》的分享。他分享内容分为三个部分:第一,行业的趋势、技术发展是什么样的;第二大数据在传统行业落地的困难,大数据要用起来最终还是落在传统行业,因为IT技术的发展不能自娱自乐;第三,传统行业如何落地大数据。

大数据产业发展趋势  

首先来看,现在的大数据产业正在发生着哪些变化。第一,首席数据官开始崛起。第二,可视化是推动大数据普及的一个重要的手段。大数据的真实用户,我们认为是业务不应该是IT人员。第三,大数据还有一个趋势就是智能化嵌入,一个是终端的嵌入,一个是在服务端的嵌入。第四是机器学习迎来上扬的趋势,它已经是未来数据准备和预测分析的必要工作。第五,开源应用会持续加速。第六,数据服务逐渐形成发展规模,这个主要有三个原因:一是数据这个事我们没有必要做一些重复的工作;二是数据服务促进共享。三是拥有数据的企业找到了一种创收的方式。第七,算法市场正在兴起,数据要去解决问题,中间需要一个算法模型来支撑。第八,互联网、金融、健康保持热度,智慧城市、企业数据化、产业互联网将成为新的增长点。  

从前面的趋势我们也可以看出,传统行业将是大数据的主战场。数据对传统企业的巨大价值不用赘述,具体体现在四个方向:一是在决策模式上,在数据这个时代,以从流程为中心转向数据为中心;二是运营模式上,不再是以产品和服务为中心,转向以用户为中心;三是协作模式上面,原来是以供应链为基础的,现在是生态链为中心。四是企业组织模式上,原来是以层级为中心,现在是以员工为中心。  

传统行业落地大数据的挑战  

但是传统行业落地大数据也是有很多挑战的。比如我们之前在做咨询过程当中就遇到过这样的情况。有的IT项目交付的时候被推倒重来,大数据项目也可能出现这种情况。一个是需求之前是不准确的,二是我们这个系统建设速度跟不上需求的变化。?  

都说大数据的是驱动创新的最佳方式,其实创新还是有蛮多坑的。比如说,这两年大家都在讲小米的参与感。都去学人家微博微信的营销,然后以对人家的微博微信进行数据分,然后套到自己的产品上,结果一点成效都没有。但人家走量最多的红米首发选择了QQ空间,也得到了QQ空间的大力支持。依据数据创新最大的风险在于,认识片面性和数据片性。  

有的企业会通过投资收购方式去发展公司业务,投资者们达成明确而广泛的共识,差不多很多时候都是错的,因为大家在追逐热点,热点就有可能导致说大家都过独木桥。其实很多时候是在做重复性的研究,这个产业我们需要协作。  

其实数据是很核心的一块,我们做大数据首先解决数据的问题。数据分成两块来看,分为内部和外部。内部的数据,一个是现在还有没有数据。我们刚才听到了去哪儿网可以通过一些技术手段,收集他的数据。那么一般的组织是不是能够达到呢?再就是数据质量如何。数据的质量就要分成两块,数据的有用性和数据的可用性。?  

谈完数据就讨论技术,目前我们问三个问题,你的技术路线,走开源的还是闭源的。第二是私有部署还是使用SaaS的工具去解决你的问题。第三这点更细节,走Hadoop还是走MPP这条线,这跟企业数据特点是有很大关系的,比如说你的数据以结构化为主的,那MPP的模式就更适合你。  

技术真的只是工具,数据其实是大数据分析过程当中的材料。只有材料、只有工具这能做出产品么?不行的,还有一个东西,它需要配方、需要生产的方法,这个就是算法模型。但是算法模型有几个问题一是对于法的人要求非常高;需要做大量的训练;你开发出来一个模型之后,应用效果也需要检验。  

团队,至少有三个方向,首先是业务专家,他解决的问题是数据的可用性。然后就是IT专家,那样解决怎么存数据、获数据、管理数据。还有就是统计专家,他去开发一些模型。目前是这几种比较存在形式。还有一种是技术导向型的,再一个是以应用、业务为导向的。  

如果完全自建团队,团队建设周期需要考虑;如果是合外部服务商一起合作,那么服务商的选择就极其重要了,在大数据初级阶段,大数据企业良莠不济。  

传统行业如何落地大数据  

前面说到大数据应用的主战场是传统行业,面对这么多的挑战,如何让大数据落地,核心是三个问题:未来走到哪里,从哪里开始,演进步骤是啥。  

我们先看未来走到哪里。大数据的发展最终是智慧化,所以未来应该是以服务的方式嵌入到具体的业务中去。所以未来企业都应该有一个大数据服务平台,这个大数据服务平台通过实时的计算处理,实时响应各业务系统所需要的数据服务。大数据服务平台需要的数据、算法模型又从哪里来呢?答案就是大数据分析平台,分析平台包括数据准备、存储管理、计算处理、分析挖掘、人机交互等内容。也就是从未来的企业大数据平台包括大数据分析平台和服务平台。分析平台着重是离线数据的加工处理、算法模型的研发以及实现挖掘结果的交互;而服务平台着重在在线数据服务,直接为各业务环节提供在线的数据服务。如下图所示:

企业级大数据应用逻辑架构参考图  要实现这样的大数据架构,难度、复杂度都非常高,所以需要分步实现。有观点说先把大数据分析平台建起来,按照数据准备、存储管理、计算处理、分析挖掘、人机交互一层一层地建,然后建设数据服务平台。这种方式从技术的角度看是非常完美的,但实际操作难度大,而且容易出现平台使用率偏低的问题。原因主要有两个:一个是信心,一个数据。先说信心,这种方案前期大量的基础建设,在人、财、物上大最的投入,却看不到应用效果,同时在看不到效果的情况下要求业务部门进行大量的配合工作,都会让大家信心、动力不足。数据,这各路方案比较重视基础能力建设,但是现在是不是数据能够接入进来,取决于两个面,一企业内部数据化是不是达到一定的基础,二外部数据是不是已准备好了。我们认大数据落地应该是融入到业务场景里面去的,通过对一些企业大数据应用的调研,我们发现大数据应用可以分为这感知、探索、起步、发展、融合这五个发展阶段。如下图所示:

大数据应用5个演进阶段示意图  

感知阶段,通过引入一些外部咨询、数据服务让整个组织感知大数据对业务发展的作用,通过培训提升组织对大数据的认识。然后在内部实现一些简单的报表实际应用到业务中去。  

探索阶段,建设轻量级数据分析平台,实现核心业务数据分析,从而推动组织内部的数据化。开始数据应用、团队建设等方面的探索,可以引入外部团队进行数据战略的规划。  

起步阶段,拓宽数据分析应用范围,在织织数据化发展到一起基础的前提下,建设数据治理体系,着手建设企业级大数据分析平台。  

发展阶段,推动组织内部全面数据化,建设面向业务用户的大数据分析平台。如果说起步阶段更多是IT部门的参与,为业务部门所需要的数据服务还更多需要IT部门的配合;发展阶段业务部门将有更多的自主能力,IT部门更多进行后台支持,进行数据质量、平台的维护。  

融合阶段,是大数据应用最终目标,通过数据服务平台的建设,将数据服务融合到业务各个环节,实现用数据驱动业务。  

最后给大家几点建议:  

第一,制定数据战略。这个战略不仅仅是口号,应面巾是有相应的机制、制度出来。 

第二,建立数据化计划。首先得有数据,要把企业实现数据化之后才能更好的做数据的分析,而且在这个过程当中很重要的一点是要保证数据的质量。

第三,建立数据平台。重点考虑,这个数据放到这之后能够找得到,还有就是被读得懂;重客户参与,让业务人员参与进来。

第四,量体裁衣建立数据团队。

第五,定制好外部数据服务战略。

第六,活数据,动态模型。只有动态更新的数据才是最有价值的数据。模型上也要下功夫,数据是材料,平台是机床,而算法模型则是生产方法和工艺,是竞争的核心。  

鲁四海还是首席数据官联盟发起人,在分享中也提到他们7月14号发布《中国大数据企业排行榜》,包括有产业地图、行业分析、大数据企业评价指标体系和五十多个维度的排行榜,为各位在选择大数据技术路线、产品、服务选择以及服务商判断方面提供一些参考。




====================================分割线================================

本文转自d1net(转载)
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
13天前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
26天前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
1月前
|
存储 消息中间件 大数据
Go语言在大数据处理中的实际应用与案例分析
【2月更文挑战第22天】本文深入探讨了Go语言在大数据处理中的实际应用,通过案例分析展示了Go语言在处理大数据时的优势和实践效果。文章首先介绍了大数据处理的挑战与需求,然后详细分析了Go语言在大数据处理中的适用性和核心技术,最后通过具体案例展示了Go语言在大数据处理中的实际应用。
|
6天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
23天前
|
数据采集 分布式计算 大数据
Java语言在大数据处理中的应用
传统的大数据处理往往依赖于庞大的数据中心和高性能的服务器,然而随着大数据时代的到来,Java作为一种强大的编程语言正在被广泛应用于大数据处理领域。本文将探讨Java语言在大数据处理中的优势和应用,以及其在分布式计算、数据处理和系统集成等方面的重要作用。
|
1月前
|
存储 大数据 数据挖掘
云计算与大数据:从基础设施到实际应用
云计算与大数据:从基础设施到实际应用
93 0
|
15天前
|
NoSQL 大数据 数据挖掘
现代数据库技术与大数据应用
随着信息时代的到来,数据量呈指数级增长,对数据库技术提出了前所未有的挑战。本文将介绍现代数据库技术在处理大数据应用中的重要性,并探讨了一些流行的数据库解决方案及其在实际应用中的优势。
|
20天前
|
机器学习/深度学习 人工智能 数据可视化
基于Python的数据可视化技术在大数据分析中的应用
传统的大数据分析往往注重数据处理和计算,然而数据可视化作为一种重要的技术手段,在大数据分析中扮演着至关重要的角色。本文将介绍如何利用Python语言中丰富的数据可视化工具,结合大数据分析,实现更直观、高效的数据展示与分析。
|
27天前
|
存储 NoSQL 大数据
新型数据库技术在大数据分析中的应用与优势探究
随着大数据时代的到来,传统数据库技术已经无法满足海量数据处理的需求。本文将探讨新型数据库技术在大数据分析中的应用情况及其所带来的优势,为读者解析数据库领域的最新发展趋势。
|
28天前
|
存储 分布式计算 大数据
现代化数据库技术——面向大数据的分布式存储系统
传统的关系型数据库在面对大规模数据处理时遇到了诸多挑战,而面向大数据的分布式存储系统应运而生。本文将深入探讨现代化数据库技术中的分布式存储系统,包括其优势、工作原理以及在大数据领域的应用。