大数据的未来在云端

简介:

数据正在呈几何级数增长,来自社交媒体(微信、微博)以及传感器设备的非结构化数据受到了越来越多的关注,而与传统企业交易系统的结构化数据一起,它们将有可能带来新一轮的产业变革。机器学习,自然语言处理,舆情分析等词汇几乎每天都会出现在媒体的报道当中,然而真正讲它们大规模投入应用的企业却少之又少。

大数据的未来在云端

  如今,企业CIO们几乎人人都在讨论大数据,许多人认为大数据就是搭一个Hadoop集群,把所有的数据全部存进去,再通过各种各样的API调用进行分析。然而答案并不是这么简单,大数据与IT方方面面都有联系,从基础设施到中间层再到前端的应用。Hadoop不是万能的,它只是大数据的一部分,想要真正驾驭大数据,我们需要考虑更多的事情。

  我们的数据究竟有哪些问题?

  事实上,我们要解决的大数据最基本的问题是存储和报表。我们该如何存储快速增长的数据,关键是在业务人员需要用到这些数据的时候,可以快速地访问。即席查询生成报表,对业务进行预测,充分利用大数据流中隐藏的价值。

  你的数据都有哪些类型组成?关系型数据、非结构化数据还是音频视频?你如何存储不同类型的数据,然后让企业内部的人员可以访问这些数据?答案其实在云端,云存储技术基本上可以应对大数据的存储需求,你可以存储任何类型的数据然后轻松地进行扩展。高端的SAN存储技术在大数据时代已经落伍,而且高昂的成本是企业所无法承受的。SAN存储适合的是关键业务数据,每一条记录对企业都是至关重要的。大数据正好相反,比如销售订单,这些数据是绝对不能丢失一条的,而一条微博或者日志文件怎没有这么高的要求。包括华为、亚马逊等云存储服务可以使用廉价的设备为企业提供大数据存储解决方案,实现可靠、可扩展并且性价比更高的存储。

  当然,电视的出现并未让广播电台灭亡,在大数据时代也是如此。SAN依旧有它的价值,但并不是所有数据都要存在上面。我们需要云存储是因为不同类型的数据都有着特殊的存储需求。比如读密集型的数据一般需要关系型数据库;日志文件只使用HDFS存储就可以;需要大量写操作的数据则需要NoSQL数据库;而存在大量读写操作的系统就需要强大的大数据架构来作为支撑。你的系统也许需要低延迟、高一致性、高度可靠或者需要控制存储的成本,每一种需求都意味着不同的存储解决方案。低延迟可能意味着要上SDD或内存设备,高一致性意味着要建立交易系统,高可靠意味着要使用数据库复制功能。所以,大数据已经告别了“放之四海皆准”的关系型数据库时代,Oracle+小型机+高端存储(或者说IOE)的组合已经不能处理所有的数据难题。

  那么企业到底需要什么?答案是以服务的方式提供的灵活可扩展的云存储解决方案,能够满足上述不同的存储需求。比如亚马逊的RDS,DynamoDB,华为的对象云存储等。当然,并不是所有的云存储都可以满足需求,企业需要更高的灵活性,同时出于延迟以及法规遵从等原因,这就要求能够从不同的系统中将数据快速方便地进行迁移,从内部系统到公有云,或者从一个云提供商迁移到另一个云提供商。

  商业智能与ETL的未来发展

  除了存储方案之外,我们还应该关注前端应用。传统的ETL也将经历变革。业务人员肯定不希望为了导入一点额外的数据就让IT部门更改schema,这样的工作量和成本太高了。理想的状态是有一个简单的工具,让业务人员就能够做即席查询,比如Tableau就能够解决这样的问题。然而,随着数据量的不断增长,TB甚至PB级别的数据需要进行处理,那么软件的成本就要考虑在内,这时候你该怎么办?

  ETL和BI工具的未来将运行在Web端,任何的业务人员都能够用它来生成报表。动态的HTML5用户界面可以通过拖拽就完成数据的查询与报表生成,如果你还需要对业务用户进行培训才能够使用这些工具,那么就真的OUT了。

  新一代的BI工具能够应对实时、图形化、大对象以及非结构化数据的处理,同时能够将这些数据存储在云端。每种数据可以托管在不同的云服务上,但都可以通过一个API进行访问。企业无需再关心什么样的数据用什么样的存储,云服务提供商就可以搞定。

  最后,有一点很重要。越来越多的企业开始意识到,数据分析已经成为了一种“战略武器”。下一代的商业巨头,也许就会从那些知道如何收集数据并把它们转化有价值洞察力的企业中诞生。千里之行始于足下,在构建大数据分析模型或者投入机器学习,招聘数据科学家之前,企业需要先解决好如何存储大数据,而答案就在云端。

原文发布时间为:2014-05-29
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
大数据 网络安全 数据库

热门文章

最新文章