数据存储需求不断增加 不止局限于技术上的开源

简介:

随着高清摄像机的快速普及和推广,数据呈现爆发式增长,而相关法律的出台(如《中华人民共和国反恐怖主义法》和《关于人民法院诉讼档案保管期限的规定》规定资料长周期保存)又成为有力的市场推手,加速了数据的暴增程度,对海量存储空间的需求为存储厂商带来了前所未有的良好机遇。目前物理介质存储器在存储密度、体积和成本的平衡方面已经达到瓶颈,传统的企业存储策略已无法跟上企业数据迅猛增长的节奏。数据存储技术有什么突破?我们真的需要将所有的数据都永久保存吗?或许对于数据存储,人类要做的不只是技术上的“开源”。

一、数据存储方式多样,全球数据量逐年递增

在数据量快速增长的背景下,容易生出一个疑问:这么多的数据,究竟都被存放在何处?其实回归本质看这个问题,答案非常简单,那就是“硬盘”。依此类推可知,庞大的数据的存储自然需要非常多的硬盘。比如谷歌,其早些年的数据中心就已经拥有上万块硬盘,如果按1TB(terabajt,太)的标准计量,能够达到10PB(petabajt,拍)的数量级,用于一般存储可以说绰绰有余。

而在国内,像百度云等数据存储服务则开创了10Gb TOR交换机、SSD(自制固态硬盘)等用于大规模数据存储的技术。但当数据量开始变得庞大,就需要以服务器作为主要存储方式。

服务器能够存储数据、处理数据。通过网络协议,使人们在客户端快速获取存储其中的数据,用户也可以上传文件。在上传和下载的过程中,形成了互联网频繁的数据交换,其外在体现是我们经常在一些科幻影视剧中看到的信号灯疯狂闪烁的画面。

当需要存储的数据越来越庞大时,增加硬盘、服务器和带宽都需要非常高的成本。因而对于更庞大数据的存储和处理,需要数据中心作为辅助。

数据存储需求不断增加 懂得如何取舍很重要

在上图中,每个柜子中的每一排都插入了大约20~40台机器,整个数据中心就由成千上万台这样联网在一起的机器构成。不一定有硬盘,但一定有处理器和内存。其中的硬盘每天都会有人工进行置换,由于硬盘时常损坏,所以每份数据大概会在不同的机器中至少备份三份。数据中心的地点通常在地皮、水电、制冷价格较低的郊区。

这样的技术投资自然更大,但也视情况而定。像BAT这样的巨头用户基数和数据体量极为庞大,相关产品众多,投资自然也随之增加。而一些小厂商没有庞大的数据,对数据存储方面的投入自然也少一些。

然而,全球数据量庞大已成趋势。据IDC公布的调查数据显示,未来全球数据将维持50%左右的增长率,到2020年,全球数据总量将达到44ZB(十万亿亿字节),中国将达到8.6ZB,占全球的21%。

随之而来的是大数据市场的繁盛,根据中国信息产业研究院的数据显示,去年中国大数据市场规模约为116亿元,同比增长38%,未来将以40%左右的规模高速增长。数据量的飞速增长及市场的繁盛,需要存储技术的支撑。

二、存储技术取得突破,但短期内不能实现商用

目前常用的数据存储方式有DAS(Direct Attached Storage,直接附加存储)、NAS(Network Attached Storage,网络附加存储)、SAN(Storage Area Network,局域网络存储)等。然而面对数据量的一再庞大,缩小存储介质的体积以减少占地及投入成为了重中之重。

在IBM此次研发的“孤立原子”存储方式中,运用了曾获诺贝尔奖的STM(scanning tunneling microscopes,扫描穿隧式显微镜),并与Holmium(钬原子)技术相配合,用以创造并监控这一磁体,而之后的数据读写操作则借助电流完成。此技术能极大缩减存储介质体积,意味着人们能将3500万首歌曲大小的文件存储在一个信用卡大小的硬盘中。

其实,IBM可以算得上是数据存储技术的先驱企业之一。早在1956年就研制出了世界上第一台计算机硬盘驱动器“IBM305RAMAC”。1991年,IBM推出首款采用感应式薄胶片磁阻磁头的磁盘“0663Corsair”。

不过,IBM于2003年将其数据存储部门出售给日立,结束了在磁盘领域的历程,如今IBM或许会借助新的数据存储技术重回这一领域。但该项目的研究员Chris Lutz表示,这项研究离商用的距离还有数十年。

除了运用了新技术的“孤立原子”方式,近期另一项大热的数据存储技术是利用DNA存储数据。此种技术的优势在于DNA排列极为紧凑,并且不会随时间的推移损坏或发生降解。据统计,4克DNA就能保存人类每年产生的所有数据,并且存储时长大于100年,与传统存储介质相比高出了一个数量级。

然而,与IBM新的数据存储技术一样,DNA存储技术离商用同样有着多年的距离。面对这种状况,除了努力研发和深耕技术之外,或许更应该想想:我们真的需要保存全部的数据吗?显然不是。因此,在不断研发和提升存储技术的同时,对于数据的存储量也应该适当地采取一些控制措施。

三、数据存储不能只顾“开源”,“节流”同样重要

Intel的创始人Gordon Moore曾说:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。此定律揭示了信息技术进步的速度,即著名的“摩尔定律”。

这一定律在数据存储领域同样可被借鉴。信息技术不断进步,闪存、磁盘、数据中心、DNA等各种新的存储技术不断出现。可即便如此,仍难以满足日渐庞大的数据体量的存储需求,加之IoT(物联网)行业的发展,致使数据的体量更为惊人。

不可否认,这些数据中许多都蕴含着价值,但也不能忽视数据的惊人体量。难道到2020年我们要将44ZB的数据全部记录并存储下来吗?显然是天方夜谭。物联网的发展使机器能够自行收集并保存数据,但在这些数据中,真正有价值的其实并不是全部。

比如智能设备所记载的用户数据,交通工具行驶过程中产生的数据,这类数据在当下可用性强,但当个体消失或工具报废之后,余下的数据是总结抑或是弃之不用?这些数据要存储到何时?其中需要多少费用?这些数据的价值与存储它们投入的成本是否可以成正比呢?

事实上,在这类数据中,人们只看一次的比例超过90%。因此在这个每天产生大量数据的时代,要学会优先提炼重要数据,对于边缘化的数据应适当摒弃。在数据的存储和摒弃之间找到一个平衡点,能够使数据产生更高的价值。

在信息高速发展的时代,大数据的作用愈发重要。一方面,人类在努力“开源”,研发新的数据存储技术,以便适应大数据时代的发展。但另一方面,“节流”同样重要。分清主次,找到数据存储价值的最高点,有助于提升效率,节省投入,更好地推动大数据时代的进一步发展。


原文发布时间为:2017年3月15日

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
缓存 安全 算法
CleanMyMacX2023功能优势介绍
CleanMyMac更新最新版本x4.12,完美适配新版系统macOS10.14,拥有全新的界面。CleanMyMac可以让您安全、智能地扫描和清理整个系统,删除大型未使用的文件,减少iPod库的大小,最精确的应用程序卸载,卸载不必要的应用程序或修复不能正常工作的程序,管理所有的扩展和做更多的事情-所有从一个新设计和美丽简单的界面。
124 0
|
存储 XML SQL
「数据密集型系统搭建」原理篇|用什么方式存储数据最合适
本篇来聊聊数据存储的内容,看看程序世界里数据是以什么形式存在的?为了描述数据并把它们和这个现实世界关联起来我们一般都是如何去进行表达的?最后通过我们习惯的表达方式再结合数据结构是如何存储下来的?   
178 0
「数据密集型系统搭建」原理篇|用什么方式存储数据最合适
|
存储 缓存 固态存储
传统存储介绍 | 学习笔记
快速学习 传统存储介绍
233 0
传统存储介绍 | 学习笔记
|
监控 数据可视化 搜索推荐
对数据可视化工具应当具备的核心能力和价值的几点思考
可能大家都听说过这样一句话"字不如表、表不如图",其实背后所表达出来的意思是对于复杂难懂且体量庞大的数据而言,图表的信息量要大得多,这也是数据可视化的核心价值所在。
对数据可视化工具应当具备的核心能力和价值的几点思考
|
存储 缓存 搜索推荐
从数据库底层说起,探究用户画像系统的储存该如何选型
从数据库底层说起,探究用户画像系统的储存该如何选型
313 0
从数据库底层说起,探究用户画像系统的储存该如何选型
|
存储 容灾 文件存储

热门文章

最新文章