日常环境莫名宕机的处理

简介: ## 背景 11.21 早上 pd 给讲法务评审的时候,操作日常环境,莫名就 down 机了,而且 pd 反馈经常会这样。(ps : pd 反馈系统请求时间过长,性能很差,后续也会排查解决) 于是排查了一下系统 down 机的原因 ## 原因 查看内存 setenv.sh 设置 if [ $memTotal -le 2048 ]; then SERVICE_OPTS="${SE

背景

11.21 早上 pd 给讲法务评审的时候,操作日常环境,莫名就 down 机了,而且 pd 反馈经常会这样。(ps : pd 反馈系统请求时间过长,性能很差,后续也会排查解决)
于是排查了一下系统 down 机的原因

原因

查看内存 setenv.sh 设置
if [ $memTotal -le 2048 ]; then
SERVICE_OPTS="${SERVICE_OPTS} -Xms1536m -Xmx1536m"
SERVICE_OPTS="${SERVICE_OPTS} -Xmn768m"
else
SERVICE_OPTS="${SERVICE_OPTS} -Xms4g -Xmx4g"
SERVICE_OPTS="${SERVICE_OPTS} -Xmn2g"
fi

查看日常机器内存
$cat /proc/meminfo | grep MemTotal
MemTotal: 4194304 kB
image.png

看出问题了吧,我们设置的最大内存是4G,而我们的linux 机器是不会把4G 内存全部分配给应用的。应用在运行过程中,一直会消耗内存,当快达到4G 的时候,应用认为还有可用内存,并不一定会及时 GC。导致内存不足,内存被撑满了,我们的应用也就 down 机了

处理方法

两种方法:

1. 设置jvm 参数为自适应

2. 申请8G 机器

这里我选择方法一

1.拉取新的分支,修改 setenv.sh

Plain Text

# if os memory <= 4G
if [ $memTotal -le 4195 ]; then
  SERVICE_OPTS="${SERVICE_OPTS} -Xms3536m -Xmx3536m"
  SERVICE_OPTS="${SERVICE_OPTS} -Xmn1536m"
else
  SERVICE_OPTS="${SERVICE_OPTS} -Xms4g -Xmx4g"
  SERVICE_OPTS="${SERVICE_OPTS} -Xmn2g"
fi

这里根据我们的环境设置,因为日常其实是4G,线上机器是8G,所以修改只会修改日常环境。

拉取新的镜像

image.png

2、填写刚修改并提交的分支

feature/20181121_3189553_fix_down_1

image.png

3、构建成功后,修改四个环境的镜像地址,达到镜像统一

image.png

FROM reg.docker.alibaba-inc.com/aone-base/logan_down:20181121210347

3、提交代码,日常部署

查看日常、预发机器的内存分配情况
日常已修改成功
image.png

预发

image.png

对预发和线上并无影响

todo
后续观察日常机器是否还会经常 down机
线上和日常环境机器都是8G内存,而我们对系统的设置是4G内存,内存并无合理利用。后续可以考虑调整。

目录
相关文章
|
8月前
|
运维 监控 负载均衡
震惊!线上四台机器同一时间全部 OOM,到底发生了什么?
震惊!线上四台机器同一时间全部 OOM,到底发生了什么?
|
存储 缓存 NoSQL
Redis持久化锦囊在手,再也不会担心数据丢失了
大家好,我是小羽。Redis 的读写都是在内存中进行的,所以它的性能高。而当我们的服务器断开或者重启的时候,数据就会消失,那么我们该怎么解决这个问题呢?其实 Redis 已经为我们提供了一...
224 0
Redis持久化锦囊在手,再也不会担心数据丢失了
|
存储 SQL Web App开发
你们的系统真的安全吗?你们系统是不是也有这种诡异的情况呢?
这个文章来源灵感是公司的项目在安全检查的时候,发现了很多 SQL 注入的一些问题还有一些 XSS 攻击问题,SQL 注入我们都是比较了解的,那么什么是 XSS 攻击呢?测试反馈给我的时候我是一脸懵逼呀,现在我们就来说一下什么是 XSS 攻击,以及我们怎么防止它的出现。
|
安全
放假期间网站被挂马的解决办法
青岛峰会期间本来想给自己放几天假的,因为网站的挂马给泡汤了,打开网站首页,使用浏览器的源代码功能,发现自己网站的首页多了很多木马代码,于是我连接FTP查看网站首页的代码中发现了这个挂马代码,下面我把代码贴出来 :
1707 0
|
安全 搜索推荐 数据安全/隐私保护
网站被挂马实用如何解决的办法
最近单位网站在百度搜索点击打开都是黄色的,而直接输入网址反而没问题,在百度搜索中被提示为网站被黑的可能,很多客户搜索我们网站都进入了黄色网站,给公司的形象造成了很大的影响,作为公司的网站技术人员,以前也算是搞了5年的老站长了,什么事没惊着,从头开始分析网站被黑的原因。
1732 0
|
Windows 网络协议 安全
对电脑假死现象的修复
解决电脑假死现象 操作步骤 1.先升级机子上的杀毒程序,进行全盘查杀,确保无病毒因素的干扰。 2.点击开始--运行,输入msconfig,进入系统配置界面,把不必要的服务以及启动项关闭,然后重启电脑。
1223 0
|
API Windows 关系型数据库
一个Bug 差点让服务器的文件系统崩溃
昨天,公司的美国客户发邮件给我,说我的软件出问题了,我查来查去,发现居然是服务器上一个目录无法删除,一删除就报 cannot read from the source file or disk. 如果用命令行方式删除,则报  cannot find the specified path。
891 0