“云+大数据”时代 中端存储如何选择

简介:
  云计算、大数据,随着这两个技术词汇在越来越多的映入我们眼帘的同时,一方面企业级IT基础架构也在随之在潜移默化的改变着。“云+大数据”时代,在很多人看来,首先想到的是,大数据和私有云存储是一个具有雄厚技术与经济实力的大型企业才有可能实现的。其实不然,与前几年的云雾笼罩不同,云计算正在为IT经理们越来越熟悉,他们中的一些已经成功的实施部署了云计算;在存储方面,据IDG的研究表明,在新技术趋势对各不同规模大小企业所造成的挑战分析认为,中小企业更易于采用和实现新的技术趋势。而根据中小企业的数据增长情况,中端统一存储则比较符合其需求,同时也能满足其特定环境下的特殊需求。对于使用中端存储产品的企业或者部门来说,必须关注基础架构的发展趋势,以便与之相融相生。

对于中小企业而言,“大数据”更多是“企业通过各种渠道收集到的大容量的种类繁多的数据集”。这其中包括结构化数据、半结构化数据以及非结构化数据。如果采用传统的存储解决方案,这可能会使得中小企业的存储管理异常复杂,因为可能同时需要NAS和SAN设备,导致管理复杂。而同时提供NAS和SAN协议网络连接的统一存储阵列则成为中小企业用户的最佳选择,利用单一的设备和管理界面来存储企业内部的多种数据类型,无疑可大幅降低企业的存储管理复杂度。

具体来说,中端存储应该关注以下七点:

阵列的磁盘类型——要选择什么样的磁盘是一个必须要想到的问题,如果预算足够,当然是全闪存阵列。但是毕竟是中端产品,成本必须要考虑。结合闪存的速度优势和传统硬盘的价格优势。或许将来全闪存阵列会得到普及,但是现在对于中端产品来说还不是一个良好的选择。混合硬盘或许是兼顾性能和成本的合理选择。

评估产品RAID功能——中端存储产品甚至是针对SOHO的小型阵列产品都会支持RAID功能,RAID在产品IO性能、数据校验以及磁盘管理等方面都有重要的功能,用户需判断RAID级别是否适合即将部署的磁盘种类。对光纤通道磁盘和SAS磁盘而言,单奇偶校验RAID(如RAID-5)就已经足够了。而SATA磁盘比较关注存储阵列的可靠性,双奇偶校验RAID(如RAID06或RAID-DP特别版)就能在多个磁盘故障的情况下保护数据免受损坏,或在重建某个故障磁盘时保证另外一个磁盘不受损坏。

可扩展性——除了优良的性能和成本,可扩展性绝对是用户应该对选购的产品进行详细评估的一个方面。因为用户不能一次性就买一个用十年而不进行任何扩展的产品。阵列的升级成本,升级的难易程度,以及哪些存储服务等级可能会在升级过程受到破坏。例如,选择的中端阵列最好能在无需关机的情况下升级,或者在不打扰现有用户和程序的情况下配置和迁移数据。

软件方面的支持——数据保护和数据管理等方面,像灾容备份、阵列的文件系统,都需要大量的软件支持。有良好的软件支持意味着,产品有较强的易用性和更为丰富的功能。IBM等存储市场上的大厂商都会和微软、甲骨文、赛门铁克以及Vmware这些软件厂商有着良好的合作。所以,其主流的中端存储产品都会有较高的易用性,在虚拟化、操作界面、数据管理以及灾容备份等方面都表现不俗。

数据迁移过程和影响——购置、安装和配置了存储阵列还不够,因为现有存储系统中的数据需要迁移到新的存储阵列中。数据迁移过程通常十分麻烦,可能会出现意想不到的问题,影响用户和关键应用程序。中小企业的IT员工较少,这个问题尤为明显。在购买中端阵列时,花点时间和供应商相处,商讨迁移策略。

考虑后备计划——并非所有的系统升级或部署都能顺利进行。在考虑中端存储阵列时,除了迁移预案还应制定恢复预案,这一点至关重要。如果部署过程出现错误,及时了解如何“退出”安装或者撤销迁移,这样才能迅速恢复正常操作。

云存储的可能——未来企业的数据都将会被放到云端,届时可扩展性、磁盘的选型、RAID等等问题都不在企业考虑的范围之内。与其投入大量的人力物力做自己本来不擅长的存储设备选购、配置以及管理,不如采用租赁的方式,将存储问题交给存储服务的提供商。云存储应该也算是中端存储客户可以考虑的一个选项。

在所有中端存储阵列中,统一存储同时提供块和文件级网络连接这一特点,使其成为中小企业用户关注的焦点。并且,有60%的用户认为他们的大数据整合将是极具挑战性的问题,中端统一存储提供了一个交钥匙的方式来解决这些中小企业迫切需要解决的问题。由于中小企业数据增长情况,和其自身的预算、专业人员以及其他因素的共同作用,中端统一存储阵列所提供的灵活性、扩展性、易用性等优势将特别适合中小企业的需求,其灵活性将在“云+大数据”发挥出巨大的作用。

 
  者:NEO
来源:51CTO
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6月前
|
存储 分布式计算 大数据
大数据计算中,使用OSS作为外部存储
大数据计算中,使用OSS作为外部存储
45 1
|
7月前
|
存储 NoSQL 分布式数据库
Hbase+ES和MongoDB存储大数据的选用
Hbase+ES和MongoDB存储大数据的选用
232 0
|
存储 缓存 分布式计算
大数据开发笔记(十):Hbase列存储数据库总结
HBase 本质上是一个数据模型,可以提供快速随机访问海量结构化数据。利用 Hadoop 的文件系统(HDFS)提供的容错能 力。它是 Hadoop 的生态系统,使用 HBase 在 HDFS 读取消费/随机访问数据,是 Hadoop 文件系统的一部分。
895 0
大数据开发笔记(十):Hbase列存储数据库总结
|
3月前
|
存储 关系型数据库 MySQL
Mysql 存储大数据量问题
Mysql 存储大数据量问题
91 1
|
4月前
|
存储 分布式计算 大数据
开通大数据计算MaxCompute就能存储外表了吗?
开通大数据计算MaxCompute就能存储外表了吗?
28 0
|
5月前
|
存储 Cloud Native 大数据
在云原生时代,构建高效的大数据存储与分析平台
在云原生时代,构建高效的大数据存储与分析平台
143 0
|
8月前
|
存储 算法 大数据
倚天性能优化--基于倚天优化后的zstd在大数据场景应用:降低存储成本+提升重IO场景性能
倚天性能优化--基于倚天优化后的zstd在大数据场景应用:降低存储成本+提升重IO场景性能
|
存储 分布式计算 安全
大数据存储与管理(一)|学习笔记
快速学习大数据存储与管理(一)
724 0
大数据存储与管理(一)|学习笔记
|
10月前
|
存储 人工智能 达摩院
带你读《云存储应用白皮书》之29:2. 物联网大数据存储解决方案
带你读《云存储应用白皮书》之29:2. 物联网大数据存储解决方案
271 1
|
11月前
|
存储 数据采集 缓存
大数据数据采集的数据采集(收集/聚合)的Flume之基本组件的Channel:临时存储数据的管道
在Flume中,Channel是数据采集和传输过程中的一个重要组件。它负责存储从Source获取的数据,并将其转发给Sink进行处理和存储。
107 0