当 K8s 集群达到万级规模,阿里巴巴如何解决系统各组件性能问题?

  1. 云栖社区>
  2. 阿里巴巴云原生>
  3. 博客>
  4. 正文

当 K8s 集群达到万级规模,阿里巴巴如何解决系统各组件性能问题?

阿里巴巴云原生小助手 2019-09-23 10:41:18 浏览3048
展开阅读全文

作者 | 阿里云容器平台高级技术专家 曾凡松(逐灵)

本文主要介绍阿里巴巴在大规模生产环境中落地 Kubernetes 的过程中,在集群规模上遇到的典型问题以及对应的解决方案,内容包含对 etcd、kube-apiserver、kube-controller 的若干性能及稳定性增强,这些关键的增强是阿里巴巴内部上万节点的 Kubernetes 集群能够平稳支撑 2019 年天猫 618 大促的关键所在。

背景


从阿里巴巴最早期的 AI 系统(2013)开始,集群管理系统经历了多轮的架构演进,到 2018 年全面的应用 Kubernetes ,这期间的故事是非常精彩的,有机会可以单独给大家做一个分享。这里忽略系统演进的过程,不去讨论为什么 Kubernetes 能够在社区和公司内部全面的胜出,而是将焦点关注到应用 Kubernetes 中

网友评论

登录后评论
0/500
评论