当流量尖峰到达时,在 Linux 内核中解决网络问题

简介:

当流量尖峰到达时,在 Linux 内核中解决网络问题

几周前,我们开始注意位于华盛顿的追踪API的服务器网络流量有很大的变化。从一个相当稳定的日常模式下,我们开始看到300-400 Mbps尖峰流量,但我们的合法的流量(事件和人为更新)是不变的。

突然,我们的网络流量开始飙升像疯了似的。

找到虚假的流量来源是当务之急,因为这些尖峰流量正触发我们的上游路由器启动DDOS减灾模式来阻止流量。

有一些很好的内置的Linux工具帮助诊断网络问题。

  • ifconfig 会显示你的网络接口和多少数据包通过他们

  • ethtool -S 会显示你的数据包流的一些更详细的信息,象在网卡级丢弃的数据包的数量。

  • iptables -L -v -n 将显示你的各种防火墙规则处理数据包数。

  • netstat -s 会告诉由内核网络协议栈维护的一大堆的计数器值,例如ACK的数量,重发的数量等。

  • sysctl -a | grep net.ip 将显示你所有kernel中网络相关的设置。

  • tcpdump 将显示进出包的内容。

解决问题的线索是使用netstat -s命令的输出。 不幸的是,当你检查这个命令的输出的时候,还很难告诉这些数字意味着什么,应该是什么,以及它们是如何改变的。为了检查他们是如何变化的,我们创建了一个小程序来显示连续运行命令的输出,这让我们了解各种计数器变化的快慢。有一行输出看起来特别令人担忧。

此计数器的通常速率在未受影响的服务器上一般是 30-40 /秒,所以我们知道肯定是哪里出问题了。计数器表明我们正拒绝大量的包,因为这些包含有无效的 TCP 时间戳。临时的快速解决方案是用下面的命令关闭 TCP 时间戳:

 
 
  1. sysctl -w net.ipv4.tcp_timestamps=0

这立即导致了包风暴停止。但是这不是一个永久性的解决方案,因为 TCP 时间戳是用于测量往返时间和分配数据包流中的延迟包到正确位置。在高速连接的时候这将成为一个问题,TCP 序列号可能在数秒间隔内缠绕。关于 TCP 的时间戳和性能的详细信息,请看 RFC 1323

在 Mixpanel,每当我们看到异常流量模式的时候,我们一般也运行 tcpdump,这样我们能够分析流量,然后试图确定根本原因。我们发现大量的 TCP ACK 数据包在我们的 API 服务器和一个特定的 IP 地址之间来回发送。结果我们的服务器陷入到向另一台服务器来来回回发送 TCP ACK 包的无限循环里面。一个主机持续地发出 TCP 时间戳,但是另一主机却不能识别这是有效的时间戳。

这时,我们意识到我们正在处理一个只能在 Linux 内核的 TCP 协议栈才能解决问题。所以我们的 CTO求助于 linux-netdev 看看是否能找到一个解决方案。值得庆幸的是我们发现这个问题已经遇到过的,并且有一个解决方案。原来,这种类型的包风暴可以由一些硬件故障或第三方改变 TCP SEQ,ACK,或连接中的主机认为对方发送过期的数据包所触发。避免让这种情况变成一个包风暴的方法是限制速度,设置 Linux 发送重复的 ACK 数据包速度为每秒一个或两个。这里有一个非常好的解释。

我们将接受这个补丁而且将之移植到当前正在使用的Ubuntu(Trusty)内核当中。感谢Ubuntu让这一切变得非常简单,重新编译修补过的内核仅仅只需要运行下面的命令,安装生成的.deb包并重启系统。

 
 
  1. # 下载内核源代码并构建依赖
  2. apt-get build-dep linux-image-3.13.0-45-generic
  3. apt-get source linux-image-3.13.0-45-generic
  4. # 应用补丁
  5. cd linux-lts-trusty-3.13.0/
  6. patch -p1 < Mitigate-TCP-ACK-Loops.patch
  7. # 构建内核
  8. fakeroot ./debian/rules clean
  9. fakeroot ./debian/rules binary-headers binary-generic

原文发布时间:2015-04-07

本文来自云栖合作伙伴“linux中国”
相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
云原生实践公开课
课程大纲 开篇:如何学习并实践云原生技术 基础篇: 5 步上手 Kubernetes 进阶篇:生产环境下的 K8s 实践 相关的阿里云产品:容器服务&nbsp;ACK 容器服务&nbsp;Kubernetes&nbsp;版(简称&nbsp;ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情:&nbsp;https://www.aliyun.com/product/kubernetes
目录
相关文章
|
13天前
|
Linux C语言
Linux内核队列queue.h
Linux内核队列queue.h
|
13天前
|
安全 Linux 虚拟化
网络名称空间在Linux虚拟化技术中的位置
网络名称空间(Network Namespaces)是Linux内核特性之一,提供了隔离网络环境的能力,使得每个网络名称空间都拥有独立的网络设备、IP地址、路由表、端口号范围以及iptables规则等。这一特性在Linux虚拟化技术中占据了核心位置🌟,它不仅为构建轻量级虚拟化解决方案(如容器📦)提供了基础支持,也在传统的虚拟机技术中发挥作用,实现资源隔离和网络虚拟化。
网络名称空间在Linux虚拟化技术中的位置
|
13天前
|
网络协议 安全 Linux
Linux网络名称空间之独立网络资源管理
Linux网络名称空间是一种强大的虚拟化技术🛠️,它允许用户创建隔离的网络环境🌐,每个环境拥有独立的网络资源和配置。这项技术对于云计算☁️、容器化应用📦和网络安全🔒等领域至关重要。本文将详细介绍在Linux网络名称空间中可以拥有的独立网络资源,并指出应用开发人员在使用时应注意的重点。
|
13天前
|
安全 网络协议 Linux
Linux网络名称空间概述
Linux网络名称空间是操作系统级别的一种虚拟化技术🔄,它允许创建隔离的网络环境🌐,使得每个环境拥有自己独立的网络资源,如IP地址📍、路由表🗺️、防火墙规则🔥等。这种技术是Linux内核功能的一部分,为不同的用户空间进程提供了一种创建和使用独立网络协议栈的方式。本文旨在全方面、多维度解释Linux网络名称空间的概念、必要性和作用。
Linux网络名称空间概述
|
11天前
|
存储 算法 Linux
【实战项目】网络编程:在Linux环境下基于opencv和socket的人脸识别系统--C++实现
【实战项目】网络编程:在Linux环境下基于opencv和socket的人脸识别系统--C++实现
32 6
|
1天前
|
Ubuntu 网络协议 Linux
Linux(20) Ubuntu 20.04 网络接口自动切换路由配置
Linux(20) Ubuntu 20.04 网络接口自动切换路由配置
9 0
|
2天前
|
机器学习/深度学习 缓存 监控
linux查看CPU、内存、网络、磁盘IO命令
`Linux`系统中,使用`top`命令查看CPU状态,要查看CPU详细信息,可利用`cat /proc/cpuinfo`相关命令。`free`命令用于查看内存使用情况。网络相关命令包括`ifconfig`(查看网卡状态)、`ifdown/ifup`(禁用/启用网卡)、`netstat`(列出网络连接,如`-tuln`组合)以及`nslookup`、`ping`、`telnet`、`traceroute`等。磁盘IO方面,`iostat`(如`-k -p ALL`)显示磁盘IO统计,`iotop`(如`-o -d 1`)则用于查看磁盘IO瓶颈。
|
6天前
|
算法 Linux 调度
深入理解Linux内核的进程调度机制
【4月更文挑战第17天】在多任务操作系统中,进程调度是核心功能之一,它决定了处理机资源的分配。本文旨在剖析Linux操作系统内核的进程调度机制,详细讨论其调度策略、调度算法及实现原理,并探讨了其对系统性能的影响。通过分析CFS(完全公平调度器)和实时调度策略,揭示了Linux如何在保证响应速度与公平性之间取得平衡。文章还将评估最新的调度技术趋势,如容器化和云计算环境下的调度优化。
|
11天前
|
算法 Linux 调度
深度解析:Linux内核的进程调度机制
【4月更文挑战第12天】 在多任务操作系统如Linux中,进程调度机制是系统的核心组成部分之一,它决定了处理器资源如何分配给多个竞争的进程。本文深入探讨了Linux内核中的进程调度策略和相关算法,包括其设计哲学、实现原理及对系统性能的影响。通过分析进程调度器的工作原理,我们能够理解操作系统如何平衡效率、公平性和响应性,进而优化系统表现和用户体验。
19 3
|
1月前
|
运维 网络协议 安全
【Shell 命令集合 网络通讯 】Linux 网络抓包工具 tcpdump命令 使用指南
【Shell 命令集合 网络通讯 】Linux 网络抓包工具 tcpdump命令 使用指南
44 0