云存储进化

简介:

大数据时代,PC互联网,移动互联网以及社交化平台的发展,让数据呈现几何化、爆炸式增长。而随着数据来源渠道的增多,网络的数据也不再是单一的数据类型,大量的非结构化数据涌现改变了数据的组成模式。如今大数据使得整个互联网科技都面临新一轮的洗牌,如何利用大数据将成为决定企业未来命运的关键!

那么大数据究竟有多大呢?可能很多人会问这个问题。2013年,世界上存储的数据预计能达到约1.2泽(约12亿TB)字节。12亿TB是个什么概念?如果把这些数据全存储于标准的光盘,这些光盘可以堆成五堆,每一堆都可以伸到月球。而如果把这些数据存储于1TB容量的硬盘中,那么将需要12亿块,这些硬盘可以分为五堆,每堆相当于长城的长度(6700公里)。

云存储是伴随云计算发展起来的一种新兴的存储模式,对于很多人来说是一个相对陌生的领域。其实云存储技术早已深入到我们的生活和工作中,只是很多人还没有意识到它的存在罢了,目前云存储技术已经在大数据解决之道方面有了一些案例。随着大数据时代的来临,云存储将担负更多的任务和使命

微软SkyDrive云存储

近日360网盘的推出以及与百度1TB竞争升级的事件相信大家都有所耳闻!没错,这些网盘其实就是最典型的云存储应用。这些云存储服务商为用户提供定量的存储空间,让用户实现通过PC、手机等终端进行访问等需求。网盘、云盘这些云存储技术是最典型也是最初级的云存储技术,如今一些企业已经将云存储技术有了更深层次的发展和创新,例如迅雷的云加速功能。

2013年互联网大会迅雷CEO邹胜龙将云存储加速带来的改变形容为:“让大数据像水一样的自由流淌。”在当时听到这句话的时候,我对这句话并不理解,据我所知,迅雷随身盘这种典型的云存储模式并没取得成功,而且即将在2013年9月1号停止支持,那么邹胜龙先生是为何在大会上反反复复强调迅雷云加速技术呢?又是如何让大数据能够自由流动呢?

迅雷对云存储技术有了更深层次的应用

带着这些不解,笔者翻看了迅雷云加速的一些业务。目前迅雷已经拥有高速通道、离线下载、迅雷云播、迅雷网游加速器、手机迅雷等多个产品,并且覆盖PC、手机、平板、TV四屏,可以说迅雷如今基本完成了对业务的全面布局。

根据笔者对这些业务的研究发现,在这些业务中,如离线下载、高速通道等很多服务都是基于云存储功能而实现的,可以说这些技术都是云存储技术的一种创新和演进。迅雷对云存储技术有了更深层次的应用,并不只是局限于传统的数据存取和数据保护,更是将云存储技术应用到下载、视频、网友等领域,是云存储技术应用到大数据方面的一个全新创新!

迅雷业务种类很多

迅雷利用云存储技术确保用户能够获得流畅、连贯的体验,而且还推出了根据账号实现云端同步的功能,可以说迅雷如今已经利用云存储实现了整个产品的布局,让大数据之间的传输更自由。那么迅雷是如何利用云存储技术的创新促进大数据之间的流动的呢?

下面我们就通过离线下载业务来看一下讲解下迅雷的云存储创新之处。

离线下载是迅雷云加速中的一个重要的功能,当下载的时候遇上冷僻的资源时,由于中国网络资源复杂,如果从原始服务器下载到本地,可能由于资源少、距离远等原因使得下载的速度不高,这样使用普通下载就会浪费大量的时间和电费。而当资源好,速度高的时候,则会影响用户正常的网络问题,造成别的任务无法完成。

迅雷离线下载每传输完一个文件,就会记录文件资源的地址,CID值,以及文件其他的特征信息。如此积累,迅雷便保存了大量文件的特征信息,当再有用户下载相同的文件时,迅雷云加速服务不再需要从资源所在的服务器下载文件,而是从迅雷云加速服务内部的资源中直接复制到用户的离线传输文件夹里,这样,一个几GB 甚至几十GB 的大文件在瞬间就传输完成了,因此很多人觉得离线下载极快,叫做‘秒杀’。

云存储后台需要什么样的支持?

“秒杀”下载并不是迅雷服务器神通广大,而是迅雷利用云存储技术的一种创新。这样能节省大量带宽用于传输迅雷云加速网络上不存在的新资源。正是利用这样的方法,迅雷不断积累资源,不断索引资源。但很长时间都没有人再下载的文件,迅雷云加速服务也会删除这个文件的索引信息,减少服务器空间占用。

离线下载业务实现了数据之间的快速传输,在大数据时代,让人们之间的数据流动性更欢快。但目前迅雷离线下载只提供给会员使用。如果你是会员用户,那么就可以依靠迅雷的服务器强大的下载功能下载文件,或者直接从迅雷服务器上直接下载别人已经下载的文件,等于复制粘贴,这样就节省了大量的时间,促进了数据间的流动。

云存储服务器需要强大的后台支持

目前迅雷每个月付费会员高达400多万,而且在400多万用户背后还有近3亿的免费用户,这些用户也可以用迅雷的离线下载业务,这必然需要强大的云存储平台支持,给用户提供离线下载业务,而且还要满足数据的文件总量的增长以及用户流量的激增的挑战。同时云存储平台需要不断的对其服务器平台进行存储容量、系统宽带,I/O的需求增加。

下面我们就来讨论下什么样的平台才能满足迅雷的需求。

要想搭建能够满足用户需求的云存储平台,我们首先需要先了解离线下载平台的原理:

(1)用户通过客户端或Web界面向服务器提交一个下载请求。

(2)服务器端接受请求,首先查询用户提交的下载链接是否被下载过。如果有,直接把已下载的数据文件(或只是文件的链接)放入用户服务器端的在线空间。如果没有,开启多线程实施下载(或用某公司自己特有的P2P方式)。

(3)下载完成后,用户在线登录到在线空间,取回下载的文件。其间也可以采用迅雷提供的P2P方式,从已下载或正在下载相同文件的用户那里取得数据。

(4)离线下载多针对冷门资源,或资源少的文件。待服务器端不是替用户下载完成后,用户还需要利用下载软件从服务器上下载文件。相比直接下载,增加了下载资源速度,节约了时间。

如何搭建离线下载支持平台?

那么需要多少服务器才能满足迅雷400万的会员以及将近3亿的普通用户需求呢?笔者开始误以为这个业务会需要很多服务器支持。但是通过对迅雷的离线下载平台进行研究后,发现支持离线下载的服务器并没有我们想象的那么多。毕竟这些用户并不可能同时下载数据,而且每个用户的下载也不可是都饱和,冷门的数据也并不是一直存储,所以对服务器的需求并没有想象的那么多。

下面我们来细分析一下这个平台的组成,可能大家就会明白为何并不需要那么的服务器就能够满足用户需求了。

离线平台需要离线下载服务器、WEB服务器、数据存储服务器三个平台共同支持。这三个平台都需要出色的性能支持,在处理器和内存方面并没有区别,主要区别是在存储硬盘方面的不同。

下面我们从性价比和需求方面来预测一下三种系统在存储方面的需求:

离线下载服务器主要提供的速度下载,所以对服务器的硬盘性能和容量要求较高。选择SAS硬盘为宜;数据存储服务器提供存储功能,对存储的容量要求高,但是对速度没有太大的需求。采用SATA硬盘为宜;Web服务器对硬盘的速度和性能要求高,但是对容量的大小没有太大的要求。采用SAS硬盘既可满足。

利用对云存储技术的改进和创新,迅雷解决了离线下载业务的支持问题。同时这种技术也能够胜任多种业务,如数据存储、数据库应用、高性能计算、计算机集群等领域。云存储技术让数据的存储更简单,灵活性更强。在大数据来临之际,云存储技术的创新与发展必将促使大数据发生新的革命,让数据真正的实现自由流动。


本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
存储 监控 安全
一文解读MMCloud在云端高性能计算中的革新
越来越多科学家们选择依赖MMCloud,以提高他们的研究效率。
|
4月前
|
存储 安全 大数据
【云计算与大数据技术】云交付模型、云部署模型、云计算优势与挑战、应用的讲解(超详细必看)
【云计算与大数据技术】云交付模型、云部署模型、云计算优势与挑战、应用的讲解(超详细必看)
344 0
|
10月前
|
运维 负载均衡 Serverless
深度 | 从0到3.0,揭秘阿里云洛神云网络的进化之路
深度 | 从0到3.0,揭秘阿里云洛神云网络的进化之路
457 0
|
10月前
|
存储 人工智能 自然语言处理
云存储,为 AI 创新提速
面向 AI 时代的云存储,必须要服务于数据全生命周期,贯穿 AI 业务全流程,在数据准备、模型训练与部署、应用与内容生成、内容分发与协作每一个关键环节,提供稳定、安全、高性能、低成本的存储能力。
8216 2
云存储,为 AI 创新提速
|
存储 监控 Cloud Native
云存储生态构建的技术基因和最佳实践
Cloud2.0 时代,数字化转型进入深水区,需要联合所有的伙伴力量,奋楫笃行,共同打通从数字技术到具体解决业务问题的各种关节。
399 0
云存储生态构建的技术基因和最佳实践
|
运维 NoSQL 前端开发
飞天加速进化
具有完整的后端开发技术以及了解一些基础的前端开发,通过云服务器上对Linux的操作,首先我在Linux上配置了redis。因为我打算做一个电商网站,考虑到电商网站的响应速度要求,通过服务器上部署redis端口,很快我就在我的后端上能够快速提取到所需要的数据,大大节省了反复查表带来的时间损耗。 通过对阿里云服务器的使用,通过这个“飞天加速计划高校学生在家实践”计划让我能够深切的感受到web开发的企业级部署上的服务器操作,体验了一番基本的服务器配置部署访问等一系列的操作。同时,通过这个计划,大大节省了我作为学生缺少足够的项目经费,能够通过“飞天加速计划高校学生在家实践”计划提供的较长体验时长,深刻
81 0
|
运维 负载均衡 Serverless
从0到3.0,揭秘阿里云洛神云网络的进化之路
从一开始的一片空白到现在的完整体系,洛神云网络中间经历了三次重大技术升级。本文将揭秘阿里云洛神云网络的起源以及如何历经三代演进到今。
1320 0
从0到3.0,揭秘阿里云洛神云网络的进化之路
|
人工智能 弹性计算 运维
云上高性能计算加速药物研发
摘要:本文整理自阿里云行业解决方案架构师朱波(默苍),在阿里云云计算情报局的分享。本篇内容主要分为四个部分: 1. 深势科技简介 2. 深势EHPC最佳实践 3. 总结
896 0
云上高性能计算加速药物研发
|
人工智能 弹性计算 运维
阿里云架构师朱波:云上高性能计算加速药物研发
资源的弹性供应能力、灵活的定价模式以及高效的运维管理。
阿里云架构师朱波:云上高性能计算加速药物研发