1. 聚能聊>
  2. 话题详情

通过双11,看阿里如何有效的运维和管理一个全球化的数据中心网络?

通过双11,看阿里如何有效的运维和管理一个全球化的数据中心网络?

hlzkgaxg_jpg_1072w_1i_80Q_jpeg

数据中心网络对于像阿里、谷歌、亚马逊这样的超大规模云服务商来说至关重要。首先,这张网必须遍布全球,以保证无论从世界任何一个角落来访的互联网用户都能享受高质量的云服务。其次,这张网必须在各种极端情况下(比如地震、光缆中断、设备故障等)具备高可用性。最后,这张网的成本必须得到有效的控制,这包括硬件成本、带宽成本和运维成本。

以上这些需求,每个单独来看,已经是不易达成的。要能够同时把所有这些需求解决好,尤其是在像阿里这样的超大规模且高度复杂的网络环境下,是一项极富挑战性的工作。我们常常要面对各式各样的难题,例如:“如何提前预防网络故障的发生”、“如何在网络故障发生后快速的修复”、“如何在网络规模不断扩大的情况下维持较低的人力成本”

无论你是在公司还是学校,无论你是遇到过类似的问题,还是对大规模数据中心网络和SDN技术感兴趣,都欢迎来和我们一起探讨!

_我将于12月6日在2016双十一技术论坛直播中,与大家共同探讨此话题。有兴趣的朋友可提前报名>> ,并在话题中留下你的问题或看法,我们将在直播中进行探讨!~~

参与话题

奖品区域 活动规则 已 结束

  • 奖品一

    虾米VIP季卡 x 1

21个回答

4

云栖技术 已获得虾米VIP季卡 复制链接去分享

首先,在做数据中心网络运维前要做大量的准备工作。不管是新手还是老手,都需要对数据中心的网络构成、业务走向、设备互连关系等了如指掌,这些数据要熟记于心。平时多看多记,将这些数据通过表格整理好,便于随时查找,对于任何一次网络变更都要做记录,并及时更新这些数据,确保这些数据是准确的。
常用的网络操作命令要反复记忆,不同设备的命令千差万别,无任何规律可言,没有太好的办法,只能死记硬背。如果遇到了突发故障,或者领导要求紧急变更一下网络,这时还需要去查找各种网络资料,对应用配置不熟练,这不是很好的运维技术人员。

这一点说白了就是需要运维技术人员要能吃苦,要耐心,对数据中心网络环境相当熟悉。我们知道领兵打仗就要对地形非常熟悉,网络运维也是如此,要对整个数据中心网络环境非常熟悉,将整张网络都印到了脑海里,否则掌握再好的网络技术也无的放失;
其次,网络技术是一个大染缸,仅网络协议就有数百种,再加上不同网络设备实现上的差异,一个人要掌握全部协议根本不可能。所以网络运维技术人员一定要懂得抓“重点”,纵然有很多网络协议,但是因为要适应各种各样的场景,在一个特定的数据中心里一般只要两三种网络协议就够了,所以只要将自己数据中心需要的网络技术吃透、玩精通足矣。比如早期的数据中心网络基本靠OSPF、BGP、VRRP、LACP几大网络协议运转,掌握这几种协议就可以吃遍天下的数据中心。

如今,数据中心技术也在不断发展,VXLAN、TRILL、虚拟化等技术都涌现出来,掌握了这些新技术依然可以让数据中心充满活力,所以数据中心网络技术人员一定要以自己的数据中心为基础,吃透自己数据中心所用到的各种网络协议技术,不管哪种协议出了问题,都能按照自己的理解去排查问题,有一套应对的措施,而不是乱做一团,不知所措;

第三,数据中心与网络设备商关系非常重要,数据中心运维技术人员对网络技术再精通,也无法了解到网络设备内部的实现,很多时候都需要设备商来分析问题,给出答案,所以要善于与网络设备商打交道。作为甲方,运维技术人员有权力向网络设备商获取关于设备内部各种功能实现、配置手册、操作手册等资料,有了设备和资料,一定要认真学习,有疑问的地方及时向设备商人员咨询。

当然设备商也会考虑自己的利益,服务也是要占用成本支出的,为了能获得更好的服务,数据中心也应该适当地购买一些服务,比如设备巡检服务、维保服务、原厂工程师驻地服务等,购买这些服务的好处就是可以得到及时的技术交流。
在出现一些重大网络问题时,可以得到设备原厂工程师的积极响应,并帮助数据中心迅速恢复业务;最后,数据中心网络不是静止的,一成不变的,网络技术也在不断地更新与发展。现在的网络设备和电脑一样,过不了三年就面临着淘汰,所以数据中心要想不断进步,就需要掌握新技术,学习新知识。

作为网络技术人员,要有全球化的视野,掌握世界最新数据中心网络技术动态,每一个数据中心都有着自己这样那样的问题,很多问题都要未来的新技术来解决。为了提升数据中心的竞争力,引入新的网络技术是一个重要手段,所以网络技术人员应该多出去走走,向周围优秀的数据中心学习,与数据中心运维技术人员进行多交流,虽然可能不是同一个数据中心的,但时常也会面临相同的问题。

张铭 回复

随着厂商能力逐步开放以及自动化技术发展,传统的人肉方式运维会逐渐被淘汰,取而代之的是智能化的控制系统,来管控分布在全球的网络设备,从网络规划、设计、建设、运营等方面,对全网设备进行接管,减轻了对人的依赖。同时将自动化管控系统和供应链、资源、流程等系统打通,形成了一整套闭环机制,更高效的对设备生命周期进行管理。
这位同学思考的非常仔细,能否留一个邮箱,方便后续的交流:)

云栖技术 回复

@张铭 wangerhui_jinyi@163.com

评论
1

我的中国 复制链接去分享

接入汇聚冗余特别是大型网络是怎么去完成的,其实很想知道这方面阿里如何去做的?
另外学校选课相信都知道,网络阻塞很严重,这方面的资金也是一大方面,链路聚合各种解决网络资源紧缺的方式也能缓解,不知道阿里在设备选择和网络拓扑上是怎样的?可以介绍一下这方面的经验吗

张铭 回复

基本上是采用clos + ecmp, qos + rate limiting。
关于具体实施细节,欢迎来到阿里和我们一起学习交流,可以关注"基础架构事业群-网络软件开发专家"职位哈~

评论
2

初码 复制链接去分享

不太懂网络,说点我了解的东西,我理解的SDN就是一种网络架构中软件驱动的管理方式,试图在网络核心和网络节点相关硬件的底层支持下, 抽象出网络管理接口来,通过可编程的方式对大型数据中心网络进行设计和管理,试图通过硬件能力之外的逻辑管理方式去调度网络,以解决大型网络环境下,比如交换无阻塞等最基本的网络诉求,而在这种过程,可能会定义各种新的上层通讯协议或者也有可能设计一些新的拓扑结构,在这种网络管理方式下,例如流量统计、故障定位、即时排错等传统网络问题可能会演变出更多新的管理方式和管理思路,以至于形成了一门新的学术分支。哈哈不知道这样理解的对不对

1

waqs 复制链接去分享

你们阿里有 类似Google sre 这样职位吗? 阿里运维管理都智能化了? 那还太谈论什么,

0

霜影 复制链接去分享

工作6年了,一直都在想以后能做什么,感觉都是在想却没有付诸实际。

有点懒没写 回复

有同感!

评论
1

111abclaoer 复制链接去分享

传统的南北流量在网络中占据大比例,数据中心中的东西向流量也很大,分布式,微服务,去中心化都会对SDN提出严峻挑战,基于隧道的vxlan技术也不一定能够包治百病,希望能看到阿里云有特点的解决方案(^_^)

0

eastboy 复制链接去分享

阿里运维好像有很多模块,包括神农,华佗,杜康,鹰眼,alimonitor,ARMS,这些是什么关系,傻傻分不清楚;
个人理解神农负责监控,偏硬件OS中间件;华佗是故障处理,偏VM,网络,硬盘的故障处理;鹰眼是调用链;但这些系统之间什么关系,如何使用并不清楚;

0

村村哥 复制链接去分享

我最关心的是大型数据中心的基础建设如何保证我们的云服务运转正常。无法避免的就是任何一个地方都可能出现故障,阿里在建设大型数据中心有什么心得么?

0

1755980826295941 复制链接去分享

接入汇聚冗余特别是大型网络是怎么去完成的,其实很想知道这方面阿里如何去做的?
另外学校选课相信都知道,网络阻塞很严重,这方面的资金也是一大方面,链路聚合各种解决网络资源紧缺的方式也能缓解,不知道阿里在设备选择和网络拓扑上是怎样的?可以介绍一下这方面的经验吗

0

leitingliu 复制链接去分享

台上一分钟,台下十年功。

0

1069980332956221 复制链接去分享

想学习技术就是不知道从哪下手

0

1293758265274416 复制链接去分享

对大数据不怎么了解,但蛮有兴趣的

0

时空穿梭1 复制链接去分享

全球化网络,大赞一个!

0

每车 复制链接去分享

人才和技术,思路决定未来

0

hsf523 复制链接去分享

高端技术平民化很重要

0

1417279859284727 复制链接去分享

亿人瞩目背后必定万分努力,每一个环节不容闪失。

0

1692079844256093 复制链接去分享

我们应该在年底多努力,为明年打下一个好的基础。

0

aaronww 复制链接去分享

最重要的还是机房足够多

0

gdxfew 复制链接去分享

如果數據中心被人強行武力劫持,那不就是GG思密達

0

1638697619333966 复制链接去分享

网络设备辐射比较大