阿里云Elasticsearch智能运维系统最佳实践

  1. 云栖社区>
  2. Elasticsearch技术团队>
  3. 博客>
  4. 正文

阿里云Elasticsearch智能运维系统最佳实践

工程师甲 2018-10-24 16:09:28 浏览2083
展开阅读全文

摘要:

随着业务的增长与发展,不同的Elasticsearch集群承担着多厚多样的功能需求。尤其是当集群规模增长、业务庞大时,需要耗费大量的精力运维集群。阿里云Elasticsearch研发了一套智能运维系统,可通多专家经验与数据驱动两个重要抓手帮助用户运维集群、提升业务的稳定性。本篇文章将结合运维常见问题展开阿里云Elasticsearch智能运维系统最佳实践的介绍。

一、诊断集群异常

最坏的情况,Elasticsearch集群(后简称ES集群)崩溃,无法正常承担各项业务。导致ES集群崩溃的大多数原因是master节点、数据节点的宕机,而出现这些情况绝不是“空穴来风”,智能运维系统要帮助用户做的便是“有迹可寻”,从而“有则改之,无则加勉”。
 

Case 1:节点负载过高,导致节点失联

以ES集群的数据节点与master节点为例,当有任何一

网友评论

登录后评论
0/500
评论
工程师甲
+ 关注
所属云栖号: Elasticsearch技术团队