网络稳定的第二道屏障: 带外网络DHCP异常排查方案

  1. 云栖社区>
  2. 阿里云SRE技术社区>
  3. 博客>
  4. 正文

网络稳定的第二道屏障: 带外网络DHCP异常排查方案

阿里云SRE团队小编 2020-06-02 10:54:12 浏览318

网络管理通常可分为带外管理(out-of-band)和带内管理(in-band)两种管理模式,带外网络是通过独立于数据网络之外的专用管理通道对机房网络设备(路由器、交换机、防火墙等)、服务器设备(小型机、服务器、工作站)以及机房电源系统进行集中化整合管理的网络集中管理系统。当企业网络建成后,网络上会传输各种企业的业务数据,如果业务网络出现问题,就需要通过带外网络来进行故障的排查,保障系统的稳定。

1 带外网络结构简介

image

图1:带外网络拓扑图

NC--①--OASW--②--OSW--③--OMR--④--DHCP_SERVER

1.1 角色介绍

  • NC:平台的物理服务器节点(或者交换机节点)。
  • OASW:带外接入交换机。
  • OSW:带外汇聚交换机。
  • OMR:带外核心交换机。
  • DHCP_SERVER:DHCP服务器,OPS_OOB容器提供。

1.2 故障场景

  • ①之间的连接有问题,将影响指定NC的DHCP地址获取。
  • ②之间的连接有问题,将影响该OASW所有NC的DHCP地址获取。
  • ③之间的连接有问题,将影响OSW下挂所有OASW下所有NC的DHCP地址获取。
  • ④之间的连接有问题,将影响整个环境所有带外DHCP地址获取。

2 带外问题排查步骤

image

图2:带外网络排查图

  • 排查Client连接带外网络的网卡工作是否正常(硬件厂商提供从系统层面校验的方法,或者现场观察带外网卡状态指示灯是否正常)
  • 排查OOB上的DHCP服务是否正常,到带外网关链路是否正常(打出最新的lease信息,看是否有新的交互请求,PING带外网关看是否通,都OK说明DHCP服务正常)
  • 排查问题NC所接的OASW与上行交换机OSW的连接是否正常
  • 抓包分析DHCP报文的交互情况

李纪伟

阿里云智能GTS-SRE团队高级网络工程师

现就职于阿里云智能GTS-SRE团队,负责大数据和网络相关的技术支持。先后参与过ISP城域网、WLAN无线、政府及企业ICT、网络安全产品、分保涉密网络等项目,获得H3CTE、H3CSE、CCNP、H3CS-WLAN、NSEM、360企业安全等专项认证。

我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。

image