大数据时代:企业如何赢得竞争优势

简介:

本文讲的是大数据时代:企业如何赢得竞争优势,我们已经进入了“大数据时代”,2011 IDC Digital Universe报告说,数据增长的速度已经超过了摩尔定律(Moore's Law)。这种趋势表明企业处理数据模式的转变,即隔离的孤岛正在被大型集群服务器所取代,这种服务器集群将数据与计算资源保存在一起。

  从另一种角度来看这种模式转变,这种转变表明数据增长的速度和数据量需要一种新的网络计算方法。在这方面,谷歌就是一个很好的例子。早在1998年谷歌推出测试版搜索引擎时,雅虎公司占主导地位,其他竞争者还包括infoseek、Lycos等,而在短短两年内,谷歌就成为主导搜索引擎供应商。直到2003年,谷歌发布一份关于MapReduce的文件,我们才有幸窥见到谷歌的后端架构。

  谷歌的架构显示了该公司如何能够索引更多数据,以更快地获得搜索结果,以及比所有竞争对手更有效和更具成本效益地获取这些结果。谷歌做出的转变是将复杂的数据分析任务分成简单的子任务,这些子任务在并行商品服务器中执行。单独进程被用于映射Map这些数据,然后将其缩小Reduce到中期或最终结果。这种MapReduce框架最终通过Apache的Hadoop供企业使用。

  Hadoop简史

  在2003年阅读了谷歌的文件后,雅虎工程师Doug Cutting开发了基于Java的MapReduce,将其命名为Hadoop。在2006年,Hadoop成为Apache软件基金会Lucene(一种流行的全文检索库)的子项目,并在2008年成为顶级Apache项目。

  从本质上讲,Hadoop提供了对大型商品计算机集群间的捕捉、组织、存储、搜索、共享、分析和可视化不同数据源(结构化、半结构化和非结构化),并能够从几十台服务器扩展到上千台服务器,每台服务器都提供本地计算和存储。

  Hadoop包含两个基本组成部分:首先是作为主要存储系统的Hadoop分布式文件系统(HDFS),HDFS复制和分发源数据块到服务器集群的计算节点,以由一个或多个应用程序进行分析。其次是MapReduce,它创建了一个软件框架和编程模型,用于编写能够并行处理大量分布式数据的应用程序。

  Apache Hadoop的开源性质创建了一个生态系统,使其功能、性能、可靠性和易用性都不断进步。

  保持简单性和可扩展性

  在名为“数据不合理的有效性”的文章中,来自谷歌的研究人员将简单的物理方程式(例如E = mc2)与其他学科对比,并指出,“涉及人类而非基本粒子的科学更适合使用简单的数学算法”。

  事实上,简单的公式完全能够解释复杂的自然世界,以及理解难以捉摸的人类行为,这也是为什么Hadoop普及的原因。

  研究人员发现,相对简单的算法适用于大规模数据集,并能产生惊人的结果。其中一个例子就是scene completion技术,它使用一个算法来消除图片上的某物(例如汽车),然后从成千上万的图片资料库中寻找合适的照片进行“修补”,当图片资料库的照片增加到数百万时,该算法表现不佳。当拥有足够的数据,这种简单的算法表现极为出色。寻找模式以及“修补”技术是当今很多数据分析应用程序的共同主题。

  数据分析还面临着另一个固有复杂性:非结构化数据与非结构化数据的增加。非结构化数据(例如日志文件、社交媒体、视频等)的规模和重要性同时在增加,并且有些结构化在经过一些变化后也失去了结构。传统分析技术在产生结果前需要对非结构化和半结构化数据进行大量预处理,并且如果预处理存在某种缺陷的话,产生的结果可能是错误的。

  Hadoop采用简单算法来分析原始形式的非结构化、半结构化和结构化数据以及产生有意义结果的能力是前所未有的,目前来看,也是无与伦比的。MapReduce使我们能够以渐进的方式来分析数据,而必须要进行复杂的数据转换或者其他数据预处理,或提前创建任何模式或整合数据。

  数据分析的价格和性能

  Hadoop不仅提供卓越的数据分析功能和结果,还比传统数据分析工具更具成本效益。其原因是传统数据分析工具的扩展数据分析能力主要遵循80/20规则:最初的小努力和付出能够带来大收益,但随着数据集发展为大数据,这种回报会减少。

  形成鲜明对比的是,Hadoop可以线性扩展,这是有效且符合成本效益的数据分析的关键因素。随着数据集的增长,传统数据分析环境规模呈指数增长,为获取洞察力需要投入更多额外费用,这最终让人望而却步。而对于Hadoop,服务器集群能够随着数据集数量和规模的增长而直接附加存储线性地扩展规模。

  Hadoop的这些优势是其在基于web的企业和数据密集型企业快速普及的主要原因。

  然而,Hadoop部署面临的主要挑战仍然是其文件系统。HDFS是append-only(只允许在这个文件之后追加数据)存储要求数据装在Hadoop集群中,然而再输出后处理以供不支持HDFS API的其他应用程序使用。

  Hadoop在较大型企业部署的另一个障碍是需要采取使环境可靠的特殊措施。需要不断监控Hadoop以确保单点故障不会导致灾难,在数据丢失的情况下,数据会被重新加载到Hadoop集群。

  冲破障碍

  Hadoop的这些问题已经成为过去式。开源社区创造了一个充满活力的生态系统,使Hadoop不断完善。一些公司现在正在提供基于开源Hadoop的商业产品。

  越来越多商业Hadoop产品的推出推动了Hadoop的更广泛普及。这些商业产品使Hadoop更易于整合到企业,以及提供企业级的性能和可靠性。实现这些改进的方法之一是使用现有的标准通信协议作为基础,来使传统环境和Hadoop环境无缝集成。

  结束还是刚刚开始?

  数据分析模式正在转变,这为企业带来了真正的机会。Hadoop让所有企业能够通过这种模式转变所提供的洞察力优势来获得显著的竞争优势。

  Hadoop无疑是一个改变游戏规则的技术,并且随着企业级商业Hadoop产品的推出,Hadoop本身也正在发生转变。这些下一代解决方案正引领新的数据分析模式。

作者: 邹铮

来源: IT168

原文标题:大数据时代:企业如何赢得竞争优势


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
SQL 存储 监控
大数据Flume企业开发实战
大数据Flume企业开发实战
36 0
|
5天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。
|
27天前
|
存储 NoSQL 大数据
新型数据库技术在大数据分析中的应用与优势探究
随着大数据时代的到来,传统数据库技术已经无法满足海量数据处理的需求。本文将探讨新型数据库技术在大数据分析中的应用情况及其所带来的优势,为读者解析数据库领域的最新发展趋势。
|
4月前
|
分布式计算 大数据 数据处理
大数据开发企业级案例__某通信企业数据处理需求(建议收藏)
大数据开发企业级案例__某通信企业数据处理需求(建议收藏)
34 0
|
4月前
|
存储 人工智能 安全
AI大数据分析对企业安全隐私的保护非常重要
AI大数据分析在提供企业发展和决策支持的同时,也涉及到大量的企业数据和用户隐私信息。因此,保护企业安全隐私是非常重要的。
|
4月前
|
分布式计算 资源调度 大数据
【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解(图文解释)
【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解(图文解释)
142 0
|
4月前
|
存储 安全 大数据
【云计算与大数据技术】云交付模型、云部署模型、云计算优势与挑战、应用的讲解(超详细必看)
【云计算与大数据技术】云交付模型、云部署模型、云计算优势与挑战、应用的讲解(超详细必看)
341 0
|
6月前
|
存储 分布式计算 数据挖掘
maxcompute优势
MaxCompute作为阿里巴巴集团内部核心大数据平台,具有以下优势: 1. 存储及计算能力:MaxCompute具备万台服务器扩展能力和跨地域容灾能力,能够承担集团内部绝大多数的计算任务,支撑每日百万级作业规模,适用于100GB以上规模的存储及计算需求,最大可达EB级别,并支持多种计算模型如SQL、MapReduce、Graph等及MPI迭代类算法。 2. 高效的数据处理能力:MaxCompute可以快速处理海量数据,减轻企业数据处理负担。 3. 自动调整存储成本:MaxCompute可以根据数据的访问频率和重要性,自动调整存储成本,降低企业数据存储成本。 4. 实时数据分析:MaxCom
43 3
|
7月前
|
机器学习/深度学习 大数据 数据挖掘
大数据及其影响:企业如何充分利用它
大数据及其影响:企业如何充分利用它
|
11月前
|
机器学习/深度学习 SQL 分布式计算
「大数据分析」寻找数据优势:Spark和Flink终极对决
「大数据分析」寻找数据优势:Spark和Flink终极对决