本节书摘来自华章出版社《大数据管理概论》一书中的第1章,第1.3节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看
1.3 大数据应用
人类历史上从未有哪个时代同今天一样产生如此海量的数据。数据的产生已经完全不受时间、地点的限制。从采用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历了3个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生。
1)运营式系统阶段:数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,作为运营系统的数据管理子系统。比如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录系统等。人类社会数据量第一次大的飞跃正是从运营式系统广泛使用数据库开始的。这个阶段最主要的特点是数据往往伴随着一定的运营活动而产生并记录在数据库中,比如超市每销售一件商品就会在数据库中产生一条相应的销售记录。这种数据的产生方式是被动的。
2)互联网系统阶段:互联网的诞生促使人类社会数据量出现第二次大的飞跃。但是真正的数据爆发产生于Web 2.0时代,而Web 2.0的最重要标志就是用户原创内容(User Generated Content,UGC)。这类数据近几年一直呈现爆炸性增长,主要有两个方面的原因。首先是以博客、微博为代表的新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈。其次就是以智能手机、平板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷。这种数据的产生方式是主动的。
3)感知式系统阶段:人类社会数据量第三次大的飞跃最终导致了大数据的产生,今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使用。随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备广泛地布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控。这些设备会源源不断地产生新数据,这种数据的产生方式是自动的。
简单来说,数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动产生的数据共同构成了大数据的数据来源,但其中自动式数据才是大数据产生的最根本原因。
正如谷歌公司的首席经济学家Hal Varian所说,数据是广泛可用的,所缺乏的是从中提取出知识的能力。数据收集的根本目的是根据需求从数据中提取有用的知识,并将其应用到具体的领域之中。不同领域的大数据应用有不同的特点,表1-2列举了若干具有代表性的大数据应用及其特征。
表1-2 典型大数据应用的比较
应用类型 典型用例 用户数 响应时间 数据规模 可靠性要求 数据精度
科学计算 生物信息学 少 慢 TB级 普通 极高
金融数据 高频交易 多 极快 GB级 极高 高
社交网络 Facebook等 极多 快 PB级 较高 较高
移动数据 GPS数据 多 快 TB级 较高 较高
物联网 传感器网络 极多 快 TB级 较高 高
Web数据 新闻网页等 极多 快 PB级 较高 较高
多媒体数据 视频网站 多 较快 PB级 较高 普通
正是由于大数据的广泛存在,才使得大数据问题的解决极具挑战性。而它的广泛应用,则促使越来越多的人开始关注和研究大数据问题。

如图1-1所示,大数据应用的三要素包括大数据(big data)、大知识(big knowledge)和大应用(big application)。“大数据”关联和融合凝聚成“大知识”,促使开发“大应用”。