科普IT行业中时髦词汇:大数据

简介:

似乎一夜之间,大数据(Big Data)变成一个IT行业中最时髦的词汇。首先,大数据不是什么完完全全的新生事物,Google的搜索服务就是一个典型的大数据运用,根据客户的需求,Google实时从全球海量的数字资产(或数字垃圾)中快速找出最可能的答案,呈现给你,就是一个最典型的大数据服务。只不过过去这样规模的数据量处理和有商业价值的应用太少,在IT行业没有形成成型的概念。

现在随着全球数字化、网络宽带化、互联网应用于各行各业,累积的数据量越来越大,越来越多企业、行业和国家发现,可以利用类似的技术更好地服务客户、发现新商业机会、扩大新市场以及提升效率,才逐步形成大数据这个概念。

有一个有趣的故事是关于奢侈品营销的。PRADA在纽约的旗舰店中每件衣服上都有RFID码。每当一个顾客拿起一件PRADA进试衣间,RFID会被自动识别。同时,数据会传至PRADA总部。每一件衣服在哪个城市哪个旗舰店什么时间被拿进试衣间停留多长时间,数据都被存储起来加以分析。如果有一件衣服销量很低,以往的作法是直接干掉。但如果RFID传回的数据显示这件衣服虽然销量低,但进试衣间的次数多。那就能另外说明一些问题。也许这件衣服的下场就会截然不同,也许在某个细节的微小改变就会重新创造出一件非常流行的产品。

还有一个是关于中国粮食统计的故事。中国的粮食统计是一个老大难的问题。中国的统计,虽然有组织、有流程、有法律,但中央的统计人员依靠省统计人员,省靠市,市靠县,县靠镇,镇靠村,最后真正干活或上报的是基层兼职的调查人员,由于众所周知的KPI考核导向的原因,层层加码,几乎没有人相信这个调查数据,而其中国家统计局的人是最不信的。在前两年北京的一个会议上,原国家统计局总经济师姚景源向我们讲述了他们是如何做的。他们采用遥感卫星,通过图像识别,把中国所有的耕地标识、计算出来,然后把中国的耕地网格化,对每个网格的耕地抽样进行跟踪、调查和统计,然后按照统计学的原理,计算(或者说估算)出中国整体的整体粮食数据。这种做法是典型采用大数据建模的方法,打破传统流程和组织,直接获得最终的结果。

最后是一个炒股的故事。这个故事来自于2011年好莱坞的一部高智商电影《永无止境》,讲述一位落魄的作家库珀,服用了一种可以迅速提升智力的神奇蓝色药物,然后他将这种高智商用于炒股。库珀是怎么炒股的呢?就是他能在短时间掌握无数公司资料和背景,也就是将世界上已经存在的海量数据(包括公司财报、电视、几十年前的报纸、互联网、小道消息等)挖掘出来,串联起来,甚至将Face Book、Twitter的海量社交数据挖掘得到普通大众对某种股票的感情倾向,通过海量信息的挖掘、分析,使一切内幕都不是内幕,使一切趋势都在眼前,结果在10天内他就赢得了200万美元,神奇的表现让身边的职业投资者目瞪口呆。这部电影简直是展现大数据魔力的教材性电影,推荐没有看过的IT人士看一看。

从这些案例来看,大数据并不是很神奇的事情。就如同电影《永无止境》提出的问题:人类通常只使用了20%的大脑,如果剩余80%大脑潜能被激发出来,世界会变得怎样?在企业、行业和国家的管理中,通常只有效使用了不到20%的数据(甚至更少),如果剩余80%数据的价值激发起来,世界会变得怎么样呢?特别是随着海量数据的新摩尔定律,数据爆发式增长,然后数据又得到更有效应用,世界会怎么样呢?

单个的数据并没有价值,但越来越多的数据累加,量变就会引起质变,就好像一个人的意见并不重要,但1千人、1万人的意见就比较重要,上百万人就足以掀起巨大的波澜,上亿人足以改变一切。

数据再多,但如果被屏蔽或者没有被使用,也是没有价值的。中国的航班晚点非常多,相比之下美国航班准点情况好很多。这其中,美国航空管制机构一个的好做法发挥了积极的作用,说起来也非常简单,就是美国会公布每个航空公司、每一班航空过去一年的晚点率和平均晚点时间,这样客户在购买机票的时候就很自然会选择准点率高的航班,从而通过市场手段牵引各航空公司努力提升准点率。这个简单的方法比任何管理手段(如中国政府的宏观调控手段)都直接和有效。这里多说一两句,过去一个暴政国家对内的控制主要是物理上的暴力,就是强力机构权力无限大,搞国家恐怖主义;而现在一个暴政国家,主要是就靠垄断信息、封锁信息,让民众难以获得广泛而真实的信息,从而实现国家的控制。这个信息封锁,就是对大数据的封锁。

没有整合和挖掘的数据,价值也呈现不出来。《永无止境》中的库珀如果不能把海量信息围绕某个公司的股价整合起来、串联起来,这些信息就没有价值。

因此,海量数据的产生、获取、挖掘及整合,使之展现出巨大的商业价值,这就是我理解的大数据。在互联网对一切重构的今天,这些问题都不是问题。因为,我认为大数据是互联网深入发展的下一波应用,是互联网发展的自然延伸。目前,可以说大数据的发展到了一个临界点,因此才成为IT行业中最热门的词汇之一。

本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
SQL 分布式计算 算法
传统金融IT男转型互联网大数据码农,图啥?
传统金融IT男转型互联网大数据码农,图啥?
|
存储 机器学习/深度学习 Java
入门科普:Python、R、大数据、云计算最全学习资源都在这里
本文写给有抱负的新兴数据科学家、知道各种专业知识的程序员,还有那些不懂任何编程技巧的初学者。本文提供了简单的教程和可实践的分析,而不是理论。我还试图将Python与R结合起来,为学习者提供对比的方法。
|
Web App开发 消息中间件 大数据
个人收集的IT技术网站集合,涉及web前后端,大数据,UI设计等。
IT技术网站直通车 个人收集的IT技术网站集合,涉及web前后端,大数据,UI设计等。并持续更新中…… 个人主页 https://liaocan.top 欢迎评论推荐 web后端 spring https://spring.
2468 0
|
存储 分布式计算 安全
大数据处理也要安全--关于MaxCompute的安全科普
企业从未像今天这样可以轻易地存储和使用大数据。然而,当您在使用大数据产品时,是否考虑过其中的安全问题呢?庆幸的是,阿里云产品专家和安全专家早就想你所想急你所急,先行一步将安全特性带入了大数据计算产品 MaxCompute。该产品在面世之初就具备强大的安全特性,让企业可以放心地在云上使用。
2595 0
|
分布式计算 算法 Java
IT技术人员转行大数据应该考虑哪些问题
大数据人才需求迫切,高薪资、高福利,因此转行的大数据的人也很多,那么对于一些普通技术开发人员,在进行转行大数据开发时有哪些必要的考虑因素呢? 关于从事一个行业的要求,最简单的方式莫过于从求职网站上查看信息,下面就是针对于大数据行业的一些职业要求,而这也是转行大数据人必须要考虑的。
1534 0
|
存储 分布式计算 关系型数据库