1. 聚能聊>
  2. 话题详情

如何快速提高云上应用可用性?限时接入AHAS赠送《码出高效 Java开发手册》

活动概要:

11月2号~11月11号之间,成功首次开通应用高可用服务并安装应用高可用探针 ( http://tb.cn/lwt9hKw ),奖励《码出高效 Java开发手册》。

1a8a321ba94e6b66bf7f2ba874266778020c1f79

活动细则:

a) 活动期间首次开通应用高可用服务并安装应用高可用探针
b) 将概览页截图和收件地址发送到中间件小姐姐微信号
c) 截图中服务器数+已防护应用数≥5的同学就可以获得《码出高效 Java开发手册》图书一本

截图示例:
image
image

话题讨论:

1.有哪些常见的限流和降级的场景?
2.k8s有哪些常见的稳定性的坑?
3.使用的云服务有遇到过哪些故障?

参与话题

奖品区域 活动规则 已 结束

  • 奖品一

    福禄寿淘公仔 x 1

  • 奖品二

    阿里云代金券 x 4

  • 奖品三

    云栖帽衫 x 1

12个回答

2

北方的郎 已获得云栖帽衫 复制链接去分享

1.有哪些常见的限流和降级的场景?
主要是秒杀,或者有放一些系有资源的时候,很多人抢,超过系统承载能力。

2.k8s有哪些常见的稳定性的坑?
高并发情况下,请求处理不过来,个别服务很容易导致检测请求的超时(504),立马被认为未就绪,于是流量被转移到其它服务,进而让本来就高负荷的其它服务出现同样情况,恶性循环,很快,所有服务都被认为是未就绪,结果产生全面瘫痪现象。

3.使用的云服务有遇到过哪些故障?
到现在还没有碰到什么特别大的故障

1

微wx笑 已获得阿里云代金券 复制链接去分享

1.有哪些常见的限流和降级的场景?
秒杀,恶意攻击,蜘蛛,固定带宽支出

2.k8s有哪些常见的稳定性的坑?
没踩过。

3.使用的云服务有遇到过哪些故障?
个人目前还没遇到较大的问题。

0

sharetrip 已获得阿里云代金券 复制链接去分享

有哪些常见的限流和降级的场景?

一般出现在高并发的场景:秒杀,拼团,砍价等。
限流的方式
    限制瞬间并发数
        比如在入口曾(nginx,http)来限制同一个IP来源的连接数,方式恶意攻击访问的情况
    限制总并发数
        通过配置数据库连接池,线程池大小来约束并发数
    限制时间窗口的平均速率
        在街口层面,通过限制访问速率来控制街口的并发请求
    其他方式
        限制远程街口的调用速率,限制MQ的消费速率
常用的限流算法
    滑动窗口算法
        一种常见的流量控制技术,用来改善吞吐量的技术
漏桶
    漏桶算法能强行限制数据的传输速率

令牌桶
    令牌桶用于控制速率类型的限流算法

计数器
    最简单的一种,通过控制时间段内的请求次数
    

k8s有哪些常见的稳定性的坑?

Kubernetes(k8s)是自动化容器操作的开源平台。这些容器操作包括:部署,调度和节点集群间扩展。
常见问题:
1、 滚动升级更新太慢
2、就绪检测是把双利剑,用不好,反而容易出大问题,比如服务全面瘫痪。
3、自动扩展POD虽然好用,但如果扩展的指标(CPU、内存等)设置的过高,如:50%以上,那么,当突然有翻倍的流量过来时,根本来不及扩展POD,服务直接就超时或挂掉。
4、集群节点移除

使用的云服务有遇到过哪些故障?

1、宕机迁移导致的服务不可用
云服务器是部署在物理机上的,底层物理机性能出现异常或者其他原因都会导致物理机宕机,当检测到云服务器所在的物理机机发生故障,系统会启动保护性迁移,将您的服务器迁移到性能正常的宿主机上,一旦发生宕机迁移,您的服务器就会被重启,如果您希望您的服务器重启以后应用服务器自动恢复,需要您把应用程序设置成开机自动启动,如果应用服务连接的数据库,需要在程序中设置成自动重连机制。
2、linux系统自己编译内核
亿恩云系统内核都是经过特殊开发的,集成了阿里云的虚拟化驱动,如果自行编译内核会导致系统出现不可预测问题,请不要对内核进行任何的操作。
3、linux系统是开启SELINUX服务
亿恩云linux系统的服务器不支持开启Selinux服务,如果开启了selinux服务,会导致系统异常并无法启动。
4、linux系统开启NetWorkManager服务
linux系统请不要开启NetWorkManager服务,该服务会跟系统内部网络服务出现冲突,导致网络异常。
5、linux系统下目录权限修改
请不要随意更改/分区下目录的权限,尤其是/etc/sbin/bin/boot/dev/usr/lib等目录权限,如果权限更改不当会导致出现异常。
6、重置以及更换系统务
重置以及更换系统会导致被操作磁盘数据跟快照丢失并不可找回,如有重要数据一定要提前备份,谨慎操作。
7、windows系统常见的误操作
(1)administrator账户删除
administrator账户为系统默认的管理员账号,通过管理控制台中修改服务器的登入密码是针对administration帐号操作的,如果重命名或删除了该帐号,会导致通过控制台修改密码失效。
(2)PV Dirvers 程序删除
Dirvers程序为我方服务器虚拟化驱动,请不要针对该程序进行任何操作,如果删除会导致服务器出现异常。
(3)shutdown.exe进程结束
shutdown.exe进程是系统重要进程,如果结束该进程会导在控制台上下发的指令不能成功执行。
(4)windows更改计算机名
windows系统修改了计算机名一定要同步注册表中的相关健值,要不然修改不成功的,计算机名修改不成功,会导致有些第三方程序无法安装,注册表中需要修改的健值如下;
HKEY_LOCAL_MACHINE\SYSTEM\ControlSet001\Control\ComputerName\ActiveComputerName
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\ComputerName\ComputerName
1

天字号猪 复制链接去分享

先设想一个场景,你开发了一个企业中非常核心的一个服务,日常情况下会有上百个应用调用,如果对服务的调用不加限制的使用,可能会因为某个应用开发的bug 或不合理的设计给服务造成非常大的压力,直接导致所有服务节点全部被请求占满,使得原本非常核心的应用因为访问服务超时而产生了很大的生成事故。从现象来说,所有服务节点看起来运行很繁忙,但从应用方的角度来看,因为服务响应时间过长,实际上该服务并没有提供有效服务。从设置上来说,服务就是给其他应用提供服务的,用户怎么调用服务很难控制,所以必须从服务自身做好保护,否则可能因为一个小的问题造成平台级的故障。

另一个是活动大促的场景,准备好的50台机器资源可以应对预估的100万参与人数,但实际情况是瞬间来了1000万用户,远远超过服务处理能力的访问请求,会使后端的服务器直接满负荷运算,并伴随着大量的资源抢占和上下文切换,使平台处理能力下降到一个极低的程度,影响业务请求的响应时间。类似的还有因为一个社会热点,应用端出现用户请求陡增的情况。

二、限流的作用和前期准备

限流的作用相当于电路上的保险丝,当过载的时候掐掉一点流量,让系统有能力集中资源以较快的深度处理 平台处理能力范围内 的业务请求。也就是让上面提到的大促场景中,仅让1000万用户中的100万用户进入后端的处理流程中,将其余900万用户的请求通过队列或直接阻挡在平台处理单元之外的方式,保障平台在处理能力范围内对100万的用户请求进行处理。

0

浮生递归 复制链接去分享

大哥,书几十元一本,要书先买5台服务器,这成本有点高啊……

1.有哪些常见的限流和降级的场景?
报名的时候吧,出现峰值的话,就会特别高,适当限流下,能大幅降低服务器需求。

2.k8s有哪些常见的稳定性的坑?
docker版本必须符合k8s的要求(当前是1.12)
在xfs文件系统上使用docker overlay storage 请用下述命令重新格式化分区:mkfs.xfs -n ftype=1
除非硬件和网络性能足够,否则不要使用分布式存储,比如:glusterfs、ceph,否则,分布式存储的延迟和多节点数据不同步会严重影响k8s集群的稳定
k8s的配置错误或者冲突也会造成集群的不稳定,但这方面的问题往往比较隐蔽、不容易找出。
kube-controller-manager的node-monitor-grace-period 不能过短,否则k8s node会不断出现NotReady的错误

3.使用的云服务有遇到过哪些故障?
连不上是最常见的吧,然后原因各种各样,有很简单的,也有超级难的,要跟客服技术小哥一起排查很久,在某个小角落里找出故障点。有的至今还没解决,现象也就是连不上云服务器……

0

1736135941062177 复制链接去分享

好好
1304324d956a4e1a828f0a63ba73059e_3fc52f0f9f734179abca8a6e0db2985d.jpg

0

aoteman675 复制链接去分享

1.有哪些常见的限流和降级的场景?
瞬间大量流量涌入导致服务器负载过高,服务响应变慢。在电商活动期间经常出现,在规定时间内拼团、购买、秒杀倒计时等。

2.k8s有哪些常见的稳定性的坑?
爆发性攻击都会出现多米若骨牌效应,稳定只是相对于一定的流量处理阈值。

3.使用的云服务有遇到过哪些故障?
使用windows服务器经常出现睡眠,重启就好了。服务器插件安装经常需要手动安装,能优化一下控制台批量安装。

0

1478736418581535 复制链接去分享

tomcat里怎么接入呢

0

德索萨 复制链接去分享

什么是高可用

0

1673908482562001 复制链接去分享

秒杀吧

0

0131.100413 复制链接去分享

3543534354343

0

1263640290325218 复制链接去分享

新手光看一看新手光看一看新手光看一看

2437
浏览
0
收藏
邀请他人互动
关注
21
粉丝
1475
话题
18

简介:

阿里中间件(Aliware)官方账号

专利:

2013年 3月 网页检索的方法及装置

著作:

2017年 1月 尽在双11
基于云安全大数据能力实现,通过防御SQL注入、XSS跨站脚本、常见Web服务器插件漏洞、木马上传、非授权核心资源...

用配置管理(Application Configuration Management,简称 ACM),其前身为淘...

充分利用阿里云现有资源管理和服务体系,引入中间件成熟的整套分布式计算框架,以应用为中心,帮助企业级客户轻松构建并...

为您提供简单高效、处理能力可弹性伸缩的计算服务,帮助您快速构建更稳定、安全的应用,提升运维效率,降低 IT 成本...
报名 | Apache Dubbo™ 开发者沙龙@广州

报名 | Apache Dubbo™ 开发者沙龙@广州