阿里、万国、XDC+ 数据中心建设经验分享

简介:

2016年12月20-22日,第十一届中国IDC产业年度大典隆重召开,阿里巴巴、万国数据、XDC+(江苏恒云太)分别就数据中心建设实践经验进行分享,下面就一起来看看他们是如何造就高逼格数据中心的:

阿里、万国、XDC+ 数据中心建设经验分享

阿里巴巴

阿里、万国、XDC+ 数据中心建设经验分享

阿里巴巴集团技术保障IDC高级专家 刘水旺

如今,互联网数据中心的主要特点包括规模大、变化快、高带宽、高功率、高成本、高可靠性,那么根据这些特点又该如何来建设数据中心呢?

一、数据中心规模大:

近年来,随着互联网的快速发展,尤其是移动互联网的兴起,推动了互联网数据中心规模和数量都在增加,加之互联网集中度高,"二八"效应非常明显,更促进了数据中心规模大这一特点。那么大规模数据中心该如何选择、设计及运营呢?

数据中心选址:

单个点占用资源越来越多,选址越来越难选,符合条件的非常少;怎么办?现在国内,北京已经在关注能耗,数据中心PUE要求1.5以下才能批准。在国内其他城市,更多的是靠自律。我们认为数据中心选址应尽可能少的占用资源,这是非常重要,如果我们不减少资源的占用,对于以后可持续发展是非常不利的。

数据中心设计:

数据中心架构设计合理非常关键,方案设计精细化也很重要,任何不恰当的设计都会导致巨大代价。例如阿里张北数据中心,采用新风和冷冻水系统,在张北这个地方其实是比较合适的,因为当地水资源比较紧张。

数据中心运营:

数据中心规模大之后,这么大的增量和存量靠人肉肯定不行,自动化、大数据运营、人工智能等等都很必要。

二、数据中心变化快:

现在这个时代,互联网时代一个产品或业务的"存亡"和"爆发"都会在非常短的时间内发生,用传统的响应方式已经不能适应互联网的需要。

  • IDC快速新建,快速扩容,按需建设非常重要;
  • 做到单元化、标准化和个性化、按需定制化会并存;
  • 按照周期分解建设内容,实现建设速度、建设成本和匹配需求的最佳结合;
  • 对于规模应用,整机架是非常好的选择;

三、数据中心高可靠:

互联网已经涉及到民生,对于可靠性的要求不断提高,互联网数据中心的地位应当足够重视。比如支付宝"5.27"、AWS的雷击、微信的断网等等影响都非常巨大。从技术来看,主要有三方面要求:供电、制冷、网络。

  • 供电系统:分布式供电减少影响面;加强柴发配置,减少外部依赖;
  • 制冷系统:采用不间断制冷技术及高可靠性的自控系统;
  • 网络系统:网络包括内部和外部,内部双上联/多上联;外部连接多路由;

四、数据中心高功率:

看过很多数据中心,大规模的建设都是16A、20A,这种更多考虑可能是建设的时候,利润率更高一点,或者是针对中小用户。真正从用户端来看,从互联网大规模来看,性价比一定是非常低的,我们现在选择高功率密度的机器一定是更划算的。

五、数据中心高带宽:

在云计算和大数据的推动下,网络发展速度非常快,东西流量翻倍,南北流量持续增加,短时间实现了百兆,千兆,10G,25G的跨越;用户需求和流量推动网络架构不断演进,未来会怎么样?

国外互联网巨头纷纷开启自建传输和光缆,很可能成为未来趋势,他们已经建海底光缆了,像谷歌和亚马逊,包括澳洲、欧洲和亚洲之间的互联。

六、数据中心高成本:

狭义的数据中心,建设成本一般2~4万元/KW-IT,广义的数据中心全寿命周期成本是其10倍以上,那么该如何降低成本:

  • 最有效的方式是利用率提升(比如云计算、离线在线混部、 服务器负荷率、 机柜负荷率);
  • 硬件性能提升,降低数据中心PUE,技术优化降低冗余等等也是重要方法之一;
  • 只盯着PUE一个指标往往走向误区,比如单纯的提升温度或降低数据中心冗余,这种绝对是得不偿失的。

数据中心其实就是互联网,快速变化的互联网撞上了科技密集的IT业与传统的机电行业,我们做的很多东西不一定是对的。我们在不断地摸索,经常做很多决策,不一定让大家都能够理解得了,但是我们仍然会在不断的纠结中,找到平衡点。沿用阿里的话"梦想还是要有的".

万国数据

阿里、万国、XDC+ 数据中心建设经验分享

万国数据高级副总裁 陈怡琳

会上,万国数据高级副总裁陈怡琳重点解读了高性能数据中心。因为客户的需求,因为需求的增长,因为需求的差异性,因为政府的一些指导的原则,也因为竞争的环境,也就出现了谈到的高性能数据中心,谈到高性能数据中心该如何建设?

一、高性能数据中心有五个特点:

  • 高等级:高等级有一个特色,今天客户在每一个数据中心里寻找扩展,不仅在当地,还在一个城市里寻找2到3个点的扩展,除此以外在不同城市之间寻找扩展。这就形成了数据中心集群的要求。对于高等级的要求也是有一些规格认证的要求。比如说有ISO的要求、TRA的要求、UPtime的要求,都形成一系列的高等级的定义。
  • 高密度:目前为止8000瓦变成很常见的规模,未来10到12千瓦也是很常见的需求。这对数据中心的运营和能耗都带来了一定的改变,由此在进行定制化和模块化。
  • 高能效:阿里千岛湖的数据中心年平均的密度是1.3,也是为行业树立了标杆,我们也有很多的技术手段、运营手段来实现。对于数据中心在暖通方面就提出了挑战。更宏观的是数据中心的选址,包括对国家电力的政策都有很大的依赖性。
  • 模块化与定制化:今天运行的数据中心规格在变化,除了从单机柜到楼宇的交付不一样,有很多产品规格的要求,比如一路高压直流、微模块,对制冷和电力提出了一系列设计的要求。

二、数据中心全生命周期的覆盖和改革:

  • 数据中心选址:选址非常重要也非常复杂,50%的数据中心在一线城市,为什么?是因为这里有很多客户的应用,比如滴滴打车2秒钟就要给出反馈,你的反应必须要非常快。这就影响到客户使用的体验和网络的部署。今天中国电力的稳定性和人才的问题导致你不得不选择在一线城市。
  • 数据中心设计:更多的谈一谈可靠性和性价比的平衡。数据中心有一个造价的理念,我们的每一个造价师要尽量的把成本用足,但还要平衡可靠性的因素,平衡将来发展的因素,平衡将来技术革新的因素。
  • 数据中心建设:一个改造的数据中心5、6个月可以完成,从土建开始12个月左右。跑工地你会发现中国基建的环境差异性非常大,所以建设第一点谈的就是质量控制 ,这是跟整个行业的素质有关的。二是变更管理。造的过程中需求会不断的变化,设备已经买好了但是需求发生了变化,怎么平衡好。三是成本的管控。
  • 数据中心测试验收:涉及到设备的场验,现场的场验,涉及到设备安装以后单机的调试,也涉及到所有系统安装好以后联机的调试。这些环节可以帮助我们把控好质量的环节,确保数据中心投放的时候是一个安全有保障的数据中心。
  • 数据中心运维:运维平台涉及到内部的管理,涉及到给客户提供的服务。无论是从流程还是技术方面以及人员方面都在非常紧密的耦合,在不断的优化调整,形成了我们非常强的核心竞争力。

数据中心并不是冷冰冰的,最后是以服务的形式提供给客户和合作伙伴。

XDC+(江苏恒云太)

阿里、万国、XDC+ 数据中心建设经验分享

XDC+江苏恒云太信息科技有限公司副总经理 曹晓华

从建设的阶段去做一个高可靠的数据中心。数据中心的可靠性,从我们的理解来说分几块:物理可靠性;电力可靠性;暖通可靠性;控制可靠性。

一、物理可靠性:

  • 通过将数据中心的物流、人流进行分离,通过分离人与物进入数据中心路径,保证了整体的运营安全;
  • 在物理结构上,实施全路径物理隔离,从电缆到管道保证无交错点,并用混凝土墙进行隔离;
  • 在数据中心建设上做到了全方位防入侵,从交通流的组织上面做到全面的防入侵,在将整个楼的外部墙体结构加固为防爆墙;
  • 通过对外来人员进行全路径监控,并通过自主研发的分析系统进行解析,分析数据中心是否存在危险,在通过其与报警系统联动,将分析结果通知数据中心运营人员。

二、电力可靠性:

  • 市电接入,数据中心的电力主体为10KV母线,并为其设置了两个母联开关,将其分为红色跟蓝色,放置于不同的房间内,保证单独电力维护不会影响到整体数据中心的电力设施,保障了整体的安全可靠性。
  • 柴油发电机,在数据中心柴发方面,采用N+1或者N+2的形式,通过两段母线进行引入,保障数据中心电力的高可靠性;
  • UPS,在数据中心电力运维方面,整个数据中心采用统一的UPS,以保障任何一台UPS出现故障,都会有备件的UPS来支撑数据中心业务连续性,并为每组数据中心机房模块配备独立的2NUPS,以保障电力设施的可靠性;在整个系统架构来说,通过使用传统的2NUPS代替高压直流技术,并用两组独立的2N UPS代载冷通道。

三、暖通可靠性:

  • 受墙体结构和楼房内部建筑的影响,局部热点是数据中心建设的重要问题,为了保障数据中心暖气流通性,将数据中心空间设置为无柱结构,并将顶板降低一米,保障物流和人流通道气流顺畅平稳;
  • 在末端采用2N结构空调;
  • 在管路上设计为单侧环网模式;
  • 在数据中心制冷设计方面,采用四冷冻站结构,实现各模块数据中心之间冷冻站的共用,提高了制冷系统的运行效率;
  • 数据中心冷冻站管理方面采用DCS控制系统,冷机的控制跟冷泵的控制采用了独立控制系统,将四个冷冻站进行环状连接,单体的冷冻站可为任意末端供水,提高了数据中心制冷系统的运行效率;
  • 采用数据中心独特的补水系统,通过过滤使水质达到饮用级标准;
  • 在排水系统方面,为管道做全路径漏水检测,并将其记录在XDC控制系统,与报警系统互联,及时发现问题,为机房模块设置了多环路冗余排水系统。

四、控制可靠性:

  • 控制系统分为采集系统和高频率的采集,传统的采集系统将所有的数据上传至PLC,统一存储、查找与管理,高频率的采集是将重要数据着重采集,并将数据独立存储,数据不再存储在原来工业的数据库里,而是存在MYsql的数据系统里;
  • 在配电侧采用全冗余的控制器,并拥有国家认证的IC61850标准,二次泵上采用独立的冗余器,并为数据中心做了独立的分析系统,从整体的配电系统上的仪表、脱口到暖通设备的传感器,统一对数据中心进行了全系统的波形捕捉,所有仪表支持每波63次采集的频率,收集的数据统一存储近HadOOP里,加强了配电系统数据的安全性;
  • 决策系统基于在整个配电系统之上的,决策系统会基于多个数据中心的数据分析进行决策,将所有数据中心控制系统统一管路,实现了全远程的控制;
  • 其次将数据中心所有的系统做到了标准化,每个数据中心软件是恒定的,每当总控制系统进行软件升级的时候,对它控制逻辑进行升级的时候,会同步升级到每一个数据中心的控制系统,来保障整体系统的软件版本始终是统一的。

五、网络可靠性:

  1. 在每个数据中心都去架设波分设备,而且做到了80×100G波分的技术,以完成数据中心建设免费的互联;
  2. 另外通过一些高性能的路由设备,实现全网带宽超过1.5TB的能力。通过国内运营商,以及国际运营商,建立超过20个TB带宽,来保障整体的电路可靠性。

以上整理,部分演讲内容有删减!


本文作者:佚名

来源:51CTO

相关文章
|
11月前
|
机器学习/深度学习 jstorm 人工智能
带你读《2022龙蜥社区全景白皮书》——6.2.3 龙蜥社区助力阿里数据中心大幅降低成本
带你读《2022龙蜥社区全景白皮书》——6.2.3 龙蜥社区助力阿里数据中心大幅降低成本
118 1
|
人工智能 运维 新能源
阿里公布碳中和目标 阿里云数据中心助力2030绿色云
绿电交易+绿色科技+智能平台,阿里云数据中心助力2030绿色云~
阿里公布碳中和目标  阿里云数据中心助力2030绿色云
|
运维 机器人 双11
2021双11|央视财经走进阿里数据中心,探秘“买买买”背后的绿色科技
服务器能“泡澡”散热,机器人能值班接替近30%的重复性工作。 先进技术不仅做到高效运维,还能助力节能减排。
2021双11|央视财经走进阿里数据中心,探秘“买买买”背后的绿色科技
阿里数据中心数字孪生可视化
IDC 数字孪生产品的系统性解决方案。
阿里数据中心数字孪生可视化
|
达摩院 数据中心
阿里云集齐五大超级数据中心
位于南通、杭州和乌兰察布的三座超级数据中心正式落成,将新增超百万台服务器,辐射京津冀、长三角、粤港澳三大经济带。
1315 1
阿里云集齐五大超级数据中心
|
新零售 Java 测试技术
独家揭秘!阿里大规模数据中心的性能分析
数据中心已成为支撑大规模互联网服务的标准基础设施。随着数据中心的规模越来越大,数据中心里每一次软件(如 JVM)或硬件(如 CPU)的升级改造都会带来高昂的成本。合理的性能分析有助于数据中心的优化升级和成本节约,而错误的分析可能误导决策、甚至造成巨大的成本损耗。
6146 0
|
新零售 Java 测试技术
独家解密:阿里大规模数据中心性能分析
数据中心已成为支撑大规模互联网服务的标准基础设施。随着数据中心的规模越来越大,数据中心里每一次软件(如 JVM)或硬件(如 CPU)的升级改造都会带来高昂的成本。合理的性能分析有助于数据中心的优化升级和成本节约,而错误的分析可能误导决策、甚至造成巨大的成本损耗。
3651 0
|
算法 大数据 程序员
1月14日云栖精选夜读 | 如何“神还原”数据中心? 阿里联合NTU打造了工业级精度的仿真沙盘!
阿里妹导读:如何保障数据中心的稳定运行,是多年来一直困扰业界的难题。机房环境如果发生未预期变化,可能造成难以估计的损失。所以我们希望能构建一个“变更沙盘”,在真实变更之前,操作人员可以先在沙盘中进行试变更,若变更效果在预期内,再对真实环境进行变更,从而尽可能减少变更导致的机房故障。
2969 0