老练的集群管理员告诉你:珍惜生命,使用 E-HPC 批量执行命令

简介:   笔者曾经是一个苦逼的HPC集群管理员,上百个节点的集群安装、配置,机器多了,什么鸟事都遇到,加班加点想起来就一把辛酸泪。直到我用上 E-HPC,一键创建集群,10分钟无人值守自动安装完成,从此生活惬意多了。

  笔者曾经是一个苦逼的HPC集群管理员,上百个节点的集群安装、配置,机器多了,什么鸟事都遇到,加班加点想起来就一把辛酸泪。直到我用上 E-HPC,一键创建集群,10分钟无人值守自动安装完成,从此生活惬意多了。需要扩容机器也只用点点鼠标,泡杯枸杞的功夫,新节点已经安装好并且自动加入调度系统了,齐活。

  最近 E-HPC 新出了一个批量执行命令的功能,我试了下发现很管用,可以省我不少时间。作为集群管理员,平时我也并不轻闲,运维一个HPC集群杂七杂八的事情挺多的,一旦集群规模上去了,看起来简单的任务,真做起来也不简单。打比方说,现在需要在所有计算节点上,安装上telnet软件。

  如果一个年轻的管理员来干,说不定想要 ssh 登录到每一台机器上,然后复制粘贴安装命令。集群规模达到几十台节点,估计就得放弃另想办法了。不过作为一个老练的集群管理员,这点事还难不倒我,以前自然是用 pssh 搞定:

  • 生成一份计算节点列表(别忘了最近扩容过,最好经常更新这个表)

20180902201347.png

  • 运行 pssh 安装软件,加上输出回显并且重定向,这样如果出错可以看日志

    pssh -h hostfile -i -A yum install -y telnet | tee install.log
  • 往回翻日志,或者批量运行另一条检查结果的命令

20180902201854.png

  如果使用 E-HPC 的批量执行命令功能,这个工作就很容易了:E-HPC 控制台上,进入“执行命令”界面,选择“批量执行”功能,勾上计算节点,输入每台节点上要执行的命令,回车,搞定。

20180902181903.png

  “历史命令”页里,每台节点上执行的日志一目了然,不会混在一起:

20180902182521.png

  整个过程没发觉有什么需要特别操心的,节点数量没有限制,超时时间可以自己设置。

  不论是不熟悉系统运维的年轻管理员,还是像笔者一样老练的管理员,都试试 E-HPC 吧,有限的生命,不用再挣扎在繁杂的命令行和机械的操作中了。


  弹性高性能计算(E-HPC)是面向教育科研,企事业单位和个人的一站式公有云HPC服务。E-HPC提供批量执行命令(Clusterun)功能,让用户在web终端上就可以管理大规模HPC集群,完成日常运维工作。
  除了安装软件,您还可以用它修改系统配置、查杀僵尸进程、管理在线用户等等,无限制定制您需要的功能。以前需要登录机器完成的工作,现在都可以在 E-HPC 控制台上,一个命令完成,欢迎试用 https://ehpc.console.aliyun.com

ehpc-console-noname.gif

目录
相关文章
|
人工智能 运维 Prometheus
搞定监控!我全靠这个超牛逼的告警管理平台
你可能也遇到过这样的场景: 在一个惬意的周六夜里,运维郭哥正在梦里神游,正美着呢,然而领导突然一通电话打过来,说服务器崩了,给你5分钟时间马上恢复! 毫无疑问,服务器出问题了,但郭哥没收到告警,错过了黄金抢救时间!还被领导先发现了问题! 于是郭哥背了锅,开始修复问题,时间一点一滴地逝去,领导时不时催一下进度,一个愉快的周末就这样没了! 试想一下,如果郭哥及时收到告警会怎么样?也许可以把故障影响降到最低,甚至可以在故障没发生前把服务器重启一下,神不知鬼不觉,然后悠闲地度过周末!
|
运维 监控 Linux
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(二)
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(二)
115 0
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(二)
|
运维 监控 安全
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(三)
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(三)
99 0
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(三)
|
运维 监控 前端开发
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(一)
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(一)
208 0
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(一)
|
运维 NoSQL 关系型数据库
运维朱工大脚本集合(常见服务一键部署,系统资源一键查看)
目前正在写一个大脚本,之所以称之为大,其实只是想写一个综合性的脚本。目前写的是第一版本(v1),主要是功能实现,里面还有许多优化的地方,希望一起学习探讨。
118 0
|
数据库 数据安全/隐私保护
JSP+Servlet培训班作业管理系统[14]–人员删除功能的实现
本文目录 1. 本章任务 2. 添加删除按钮 3. 执行删除动作 4. 测试
140 0
|
SQL Java 应用服务中间件
JSP+Servlet培训班作业管理系统[13]–人员修改功能的实现
本文目录 1. 本章任务 2. 添加修改按钮 3. 在RouteServlet中添加用户编辑页面跳转 4. 新增用户编辑页面 5. 处理编辑提交请求 6. 测试验证
146 0
JSP+Servlet培训班作业管理系统[13]–人员修改功能的实现
|
Java 数据库 数据安全/隐私保护
JSP+Servlet培训班作业管理系统[12]–人员新增功能的实现
本文目录 1. 本章任务 2. 增加新增按钮 3. 添加新增页面 4. 通过UserServlet保存新增用户 5. 测试
125 0
JSP+Servlet培训班作业管理系统[12]–人员新增功能的实现
|
边缘计算 Kubernetes 自动驾驶
去指挥你的舰队吧!体验使用 Fleet 批量管理 K8S 集群
体验 Fleet 是怎么管理海量 Kubernetes 集群的。
2742 0

热门文章

最新文章