备案控制台

开发者社区

开发者社区微服务文章正文

计算节点宕机了怎么办？- 每天5分钟玩转 OpenStack（43）

2016-06-06 942

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Rebuild 可以恢复损坏的 instance。那如果是宿主机坏了怎么办呢？比如硬件故障或者断电造成整台计算节点无法工作，该节点上运行的 instance 如何恢复呢？用 Shelve 或者 Migrate 可不可以？很不幸，这两个操作都要求 instance 所在计算节点的 nova-compute 服务正常运行。

Rebuild 可以恢复损坏的 instance。

那如果是宿主机坏了怎么办呢？比如硬件故障或者断电造成整台计算节点无法工作，该节点上运行的 instance 如何恢复呢？

用 Shelve 或者 Migrate 可不可以？很不幸，这两个操作都要求 instance 所在计算节点的 nova-compute 服务正常运行。幸运的是，还有 Evacuate 操作。

Evacuate 可在 nova-compute 无法工作的情况下将节点上的 instance 迁移到其他计算节点上。但有个前提： Instance 的镜像文件必须放在共享存储上。

下面是 Evacuate instance 的流程图

向 nova-api 发送请求
nova-api 发送消息
nova-scheduler 执行调度
nova-scheduler 发送消息
nova-compute 执行操作

下面我们详细讨论每一个步骤。

向 nova-api 发送请求

我们的实验场景如下： Instance c2 运行在 devstack-compute1 上。

通过断电模拟计算节点故障，然后执行 Evacuate 操作恢复 instance c2。目前 Evacuate 只能通过 CLI 执行。

这里需要指定 --on-shared-storage 这个参数

查看日志 /opt/stack/logs/n-api.log

nova-api 发送消息

nova-api 向 Messaging（RabbitMQ）发送了一条消息：“Evacuate 这个 Instance” 查看源代码 /opt/stack/nova/nova/compute/api.py，方法是 evacuate。

大家注意到没有，evacuate 实际上是通过 rebuild 操作实现的。这是可以理解的，因为 evacuate 是用共享存储上 instance 的镜像文件重新创建虚机

nova-scheduler 执行调度

nova-scheduler 收到消息后，会为 instance 选择合适的计算节点。查看日志 /opt/stack/logs/n-sch.log。

nova-scheduler 最后选择在 devstack-controller 计算节点上重建 instance。

nova-scheduler 发送消息

nova-scheduler 发送消息，通知计算节点可以创建 instance 了。源代码在 /opt/stack/nova/nova/scheduler/filter_scheduler.py 第 95 行，方法为 select_destinations。

nova-compute 执行操作

计算节点上的工作是用共享存储上的镜像文件重建 instance。日志在 devstack-controller:/opt/stack/logs/n-cpu.log。

为instance分配资源

使用共享存储上的镜像文件

启动 instance

Evacuate 操作完成后，instance 在 devstack-controller 上运行。

以上是 Evacuate 操作的详细分析。
至此，我们已经学习完 Nova 所有的操作，下一节将用一张图总结这些操作的用途和使用场景。

文章标签：

存储

消息中间件

调度

cloudman6

目录

相关文章

chen2ha

|

存储

etcd 受损节点重新加入集群

etcd 受损节点重新加入集群

chen2ha

515 0 0

jianz123

|

15天前

|

Kubernetes 应用服务中间件 nginx

使用kubeadm搭建生产环境的多master节点k8s高可用集群

使用kubeadm搭建生产环境的多master节点k8s高可用集群

jianz123

57 0 0

晚风_END

|

4月前

|

Kubernetes Cloud Native 虚拟化

云原生|kubernetes|找回丢失的etcd集群节点---etcd节点重新添加，扩容和重新初始化k8s的master节点

云原生|kubernetes|找回丢失的etcd集群节点---etcd节点重新添加，扩容和重新初始化k8s的master节点

晚风_END

95 0 0

远方并不远。

|

7月前

|

Kubernetes API 调度

在K8S集群中,如何正确选择工作节点资源大小?1

在K8S集群中,如何正确选择工作节点资源大小?

远方并不远。

328 0 0

远方并不远。

|

7月前

|

存储 Kubernetes API

在K8S集群中,如何正确选择工作节点资源大小? 2

在K8S集群中,如何正确选择工作节点资源大小?

远方并不远。

136 1 1

初扬

|

Kubernetes 调度 C++

kubernetes的节点与节点池概念 vs karpenter的去节点池理念在调度上的思考

kubernetes的节点与节点池概念 vs karpenter的去节点池理念。 k8s在给定的节点资源或集群资源上调度并运行应用，其先决条件是资源某种程度上既定（即资源总量某种程度上是一定的，虽然有弹性扩容，但资源的规格是固定的，并且一旦扩容完成后再在此资源总量上执行调度决策，这仍然可以看做是资源总量固定），然后在该资源范围上做调度决策。调度的碎片化不可避免。 karpenter的逻辑是去节点

初扬

421 0 0

仙士可

|

Kubernetes Ubuntu 应用服务中间件

k8s学习四-部署节点加入集群

k8s学习四-部署节点加入集群

仙士可

262 0 0

k8s学习四-部署节点加入集群

游客i7utw2bukjwjg

|

存储 NoSQL

Cassandra集群删除宕机节点

Cassandra集群删除宕机节点

游客i7utw2bukjwjg

213 0 0

Cassandra集群删除宕机节点

指剑

Openstack-M版(双节点)热迁移记录

Openstack-M版(双节点)热迁移记录

指剑

149 0 0

Openstack-M版(双节点)热迁移记录

天飞

|

存储 Kubernetes API

Kubernetes Master节点灾备恢复操作指南

本文档简述了Kubernetes主节点灾备恢复的相关步骤，供在发生k8s master崩溃时操作。就算是在k8s里部署了etcd群集, 主节点控制组件的高可用节点，灾备恢复也是必须要实现的操作，才能形成完备的企业级服务方案。

天飞

9412 0 2

热门文章

最新文章

疑犯追踪第一季/全集Person Of Interest迅雷下载

【直播系列之一】1篇文章看懂峰值带宽、流量、转码、连麦、截图五大直播计费方式

理解事务的4种隔离级别

阿里云网站域名备案流程全过程讲解(图文)

在服务器的raid1中安装windows server系统（踩坑记录）

如何用Vue实现简易的富文本编辑器，并支持Markdown语法

怎么才能快速提高小程序留存率！

程序员请放下浮躁的心

如何解决域中普通用户只限于10台客户机加入域的数量问题

博客园模板样式优化

未来技术纵横谈：区块链、物联网与虚拟现实的融合与创新

软件体系结构 - 缓存技术（9）缓存穿透

提升Android应用性能的实用技巧

工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断（下）

软件体系结构 - 缓存技术（8）缓存雪崩

软件体系结构 - 缓存技术（7）Redis持久化方法

Python用KShape对时间序列进行聚类和肘方法确定最优聚类数k可视化

软件体系结构 - 缓存技术（6）淘汰策略

基于R语言股票市场收益的统计可视化分析

软件体系结构 - 数据分片（2）一致性哈希分片

相关课程

更多

高性能集群负载

如何发现Kubernetes中服务和工作负载的异常

相关电子书

更多

OpenStack Swift 海量小文件性能优化之路

基于etcd的超大规模生产级弹性键值存储实践与优化

运用新技术解决有状态应用的冷热迁移挑战迁移策略+新容器运行时

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）