日常环境莫名宕机的处理

简介: ## 背景 11.21 早上 pd 给讲法务评审的时候,操作日常环境,莫名就 down 机了,而且 pd 反馈经常会这样。(ps : pd 反馈系统请求时间过长,性能很差,后续也会排查解决) 于是排查了一下系统 down 机的原因 ## 原因 查看内存 setenv.sh 设置 if [ $memTotal -le 2048 ]; then SERVICE_OPTS="${SE

背景

11.21 早上 pd 给讲法务评审的时候,操作日常环境,莫名就 down 机了,而且 pd 反馈经常会这样。(ps : pd 反馈系统请求时间过长,性能很差,后续也会排查解决)
于是排查了一下系统 down 机的原因

原因

查看内存 setenv.sh 设置
if [ $memTotal -le 2048 ]; then
SERVICE_OPTS="${SERVICE_OPTS} -Xms1536m -Xmx1536m"
SERVICE_OPTS="${SERVICE_OPTS} -Xmn768m"
else
SERVICE_OPTS="${SERVICE_OPTS} -Xms4g -Xmx4g"
SERVICE_OPTS="${SERVICE_OPTS} -Xmn2g"
fi

查看日常机器内存
$cat /proc/meminfo | grep MemTotal
MemTotal: 4194304 kB
image.png

看出问题了吧,我们设置的最大内存是4G,而我们的linux 机器是不会把4G 内存全部分配给应用的。应用在运行过程中,一直会消耗内存,当快达到4G 的时候,应用认为还有可用内存,并不一定会及时 GC。导致内存不足,内存被撑满了,我们的应用也就 down 机了

处理方法

两种方法:

1. 设置jvm 参数为自适应

2. 申请8G 机器

这里我选择方法一

1.拉取新的分支,修改 setenv.sh

Plain Text

# if os memory <= 4G
if [ $memTotal -le 4195 ]; then
  SERVICE_OPTS="${SERVICE_OPTS} -Xms3536m -Xmx3536m"
  SERVICE_OPTS="${SERVICE_OPTS} -Xmn1536m"
else
  SERVICE_OPTS="${SERVICE_OPTS} -Xms4g -Xmx4g"
  SERVICE_OPTS="${SERVICE_OPTS} -Xmn2g"
fi

这里根据我们的环境设置,因为日常其实是4G,线上机器是8G,所以修改只会修改日常环境。

拉取新的镜像

image.png

2、填写刚修改并提交的分支

feature/20181121_3189553_fix_down_1

image.png

3、构建成功后,修改四个环境的镜像地址,达到镜像统一

image.png

FROM reg.docker.alibaba-inc.com/aone-base/logan_down:20181121210347

3、提交代码,日常部署

查看日常、预发机器的内存分配情况
日常已修改成功
image.png

预发

image.png

对预发和线上并无影响

todo
后续观察日常机器是否还会经常 down机
线上和日常环境机器都是8G内存,而我们对系统的设置是4G内存,内存并无合理利用。后续可以考虑调整。

目录
相关文章
|
11月前
|
Python
“高中物理题有关圆周运动的最高点压力”的问题解决方法
“高中物理题有关圆周运动的最高点压力”的问题解决方法
71 0
|
Arthas NoSQL IDE
redis服务又出现卡死,又是一次不当使用,这个锅你背定了
首先说下问题现象:内网sandbox环境API持续1周出现应用卡死,所有api无响应。刚开始当测试抱怨环境响应慢的时候 ,我们重启一下应用,应用恢复正常,于是没做处理。但是后来问题出现频率越来越频繁,越来越多的同事开始抱怨,于是感觉代码可能有问题,开始排查。首先发现开发的本地ide没有发现问题,应用卡死时候数据库,redis都正常,并且无特殊错误日志。开始怀疑是sandbox环境机器问题,测试环境本身就很脆!_!于是ssh上了服务器 执行以下命令top
436 0
redis服务又出现卡死,又是一次不当使用,这个锅你背定了
|
存储 缓存 NoSQL
Redis持久化锦囊在手,再也不会担心数据丢失了
大家好,我是小羽。Redis 的读写都是在内存中进行的,所以它的性能高。而当我们的服务器断开或者重启的时候,数据就会消失,那么我们该怎么解决这个问题呢?其实 Redis 已经为我们提供了一...
225 0
Redis持久化锦囊在手,再也不会担心数据丢失了
|
存储 SQL Web App开发
你们的系统真的安全吗?你们系统是不是也有这种诡异的情况呢?
这个文章来源灵感是公司的项目在安全检查的时候,发现了很多 SQL 注入的一些问题还有一些 XSS 攻击问题,SQL 注入我们都是比较了解的,那么什么是 XSS 攻击呢?测试反馈给我的时候我是一脸懵逼呀,现在我们就来说一下什么是 XSS 攻击,以及我们怎么防止它的出现。
|
Linux
Linux服务器宕机案例第二则
邮件告警发现海外工厂一Linux服务器连接不上,DPA(Database Performance Analyzer)系统也发现其出现问题,ping这台服务器发现网络不通,联系不到当地系统管理员,邮件咨询后,这个系统管理员也发现有问题,直接重启了,事后检查发现日志message里面,从10:1...
1537 0
|
索引 安全 搜索推荐
服务器宕机可能的原因以及服务器宕机解决办法
服务器宕机可能的原因以及服务器宕机解决办法 服务器宕机是指服务器因为某些原因而导致服务器无法运转,造成网络无法正常使用。 对于网站来说,服务器宕机所造成影响很大,它不但造成访客无妨对网站进行访问,甚至还可能影响到网站在搜索引擎上的收录和排名, 因而在租用服务器时,建议站长选择想美国服务器这种出现宕机概率比较低的服务器。
3777 0
|
安全
放假期间网站被挂马的解决办法
青岛峰会期间本来想给自己放几天假的,因为网站的挂马给泡汤了,打开网站首页,使用浏览器的源代码功能,发现自己网站的首页多了很多木马代码,于是我连接FTP查看网站首页的代码中发现了这个挂马代码,下面我把代码贴出来 :
1709 0
|
安全 搜索推荐 数据安全/隐私保护
网站被挂马实用如何解决的办法
最近单位网站在百度搜索点击打开都是黄色的,而直接输入网址反而没问题,在百度搜索中被提示为网站被黑的可能,很多客户搜索我们网站都进入了黄色网站,给公司的形象造成了很大的影响,作为公司的网站技术人员,以前也算是搞了5年的老站长了,什么事没惊着,从头开始分析网站被黑的原因。
1738 0
|
安全 搜索推荐 数据安全/隐私保护
网站被挂马实用怎么解决的办法之一
 最近单位网站在百度搜索点击打开都是黄色的,而直接输入网址反而没问题,在百度搜索中被提示为网站被黑的可能,很多客户搜索我们网站都进入了黄色网站,给公司的形象造成了很大的影响,作为公司的网站技术人员,以前也算是搞了5年的老站长了,什么事没惊着,从头开始分析网站被黑的原因。
1517 0