1. 聚能聊>
  2. 话题详情

你有把鸡蛋砸在一个篮子里的经历吗?

_2

首先插播几条一个多月内的新闻:

2月28号,著名云计算服务提供商 AWS 旗下基础业务 S3 数据存储人工操作故障导致宕机,长达 4 个小时,直接造成用户的应用不可服。

3月16号,著名云计算服务提供商 Azure 出现全球性故障,全球28个节点26个出现故障,受到影响。多家SaaS 服务商因此无法提供服务。

在刚刚过去的2016年,Azure 的服务故障宕机时间达到了270分钟,AWS到达了108分钟,也没有达到我们想象之中的那么完美。

云的灵活性、可扩展性及低成本,使其成为业务技术选型的最好选择。然而鸡蛋不能放到一个篮子里,即使是最可靠的云服务提供商也可能遇到倒霉的一天。为了保证业务的连续性,企业是不是该选择跨地区、混合云容灾等解决方案来创造数据灾备中心?当业务依赖的区域出现故障时,是否可以将业务快速切换到容灾中心,实现秒级业务恢复?

所以大家来聊聊,

你的业务有没有遇到因为单点故障而导致数据服务不可用的经历呢?

你是如何快速恢复因单点故障导致的业务停服呢?

参与话题

奖品区域 活动规则 已 结束

  • 奖品一

    阿里云代金券 x 1

  • 奖品二

    优酷VIP月卡 x 1

  • 奖品三

    云栖大会订制T恤 x 2

324个回答

3

caidongdong 已获得云栖大会订制T恤 复制链接去分享

有遇到过啊,以前公司的业务全部部署在阿里云的上海,然后有一次业务突然瘫痪了,经排查是因为运营商部分骨干网链路光缆出现中断导致业务访问异常。这次故障对公司业务影响极大,公司领导很重视,要求业务要解决这种网络访问异常的服务可用性问题。
为了达到领导的要求,我们后来做了异地灾备,选择阿里云的北京地区部署了一套业务灾备,应用程序保持两地版本一致,两地的数据库通过阿里云的数据传输服务DTS进行实时同步。上海地区正常时,由上海业务中心提供服务,当上海业务中心出现问题后,将业务流量切换到北京业务中心,经过容灾演练确认,这套异地容灾架构,能够在上海业务中心宕服后,秒级切换到北京业务中心,完全满足业务要求,哈哈!

lyrewu 回复

最真实的业务场景

斑駁々記憶 回复

貌似只支持RDS的MYSQL

评论
1

张维-IT·教育 已获得优酷VIP月卡 复制链接去分享

说下Hadoop中的单点解决方案
在正式介绍单点故障解决方案之前,先简要回顾一下这三个系统(三个系统均采用简单的master/slaves架构,其中master是单点故障)。
(1) HDFS:仿照google GFS实现的分布式存储系统,由NameNode和DataNode两种服务组成,其中NameNode是存储了元数据信息(fsimage)和操作日志(edits),由于它是唯一的,其可用性直接决定了整个存储系统的可用性;
(2)YARN:Hadoop 2.0中新引入的资源管理系统,它的引入使得Hadoop不再局限于MapReduce一类计算,而是支持多样化的计算框架。它由两类服务组成,分别是ResourceManager和NodeManager,其中,ResourceManager作为整个系统的唯一组件,存在单点故障问题;
(3)MapReduce:目前存在两种MapReduce实现,分别是可独立运行的MapReduce,它由两类服务组成,分别是JobTracker和TaskTraker,其中JobTracker存在单点故障问题,另一个是MapReduce On YARN,在这种实现中,每个作业独立使用一个作业跟踪器(ApplicationMaster),彼此之间不再相互影响,不存在单点故障问题。本文提到的单点故障实际上是第一种实现中JobTracker的单点故障。

先说当前Hadoop单点故障的解决进度,截止本文发布时,HDFS单点故障已经解决,且提供了两套可行方案;MapReduce单点故障(JobTracker)由CDH4(CDH4同时打包了MRv1和MRv2,这里的单点故障指的是MRv1的单点问题)解决,且已经发布;YARN单点故障尚未解决,但方案已经提出,由于解决方案借鉴了HDFS HA和MapReduce HA的实现,因为将会很快得到解决。
总体上说,Hadoop中的HDFS、MapReduce和YARN的单点故障解决方案架构是完全一致的,分为手动模式和自动模式,其中手动模式是指由管理员通过命令进行主备切换,这通常在服务升级时有用,自动模式可降低运维成本,但存在潜在危险。

在Hadoop HA中,主要由以下几个组件构成:
(1)MasterHADaemon:与Master服务运行在同一个进程中,可接收外部RPC命令,以控制Master服务的启动和停止;
(2)SharedStorage:共享存储系统,active master将信息写入共享存储系统,而standby master则读取该信息以保持与active master的同步,从而减少切换时间。常用的共享存储系统有zookeeper(被YARN HA采用)、NFS(被HDFS HA采用)、HDFS(被MapReduce HA采用)和类bookeeper系统(被HDFS HA采用)。
(3)ZKFailoverController:基于Zookeeper实现的切换控制器,主要由两个核心组件构成:ActiveStandbyElector和HealthMonitor,其中,ActiveStandbyElector负责与zookeeper集群交互,通过尝试获取全局锁,以判断所管理的master进入active还是standby状态;HealthMonitor负责监控各个活动master的状态,以根据它们状态进行状态切换。。
(4)Zookeeper集群:核心功能通过维护一把全局锁控制整个集群有且仅有一个active master。当然,如果ShardStorge采用了zookeeper,则还会记录一些其他状态和运行时信息。

总体上讲,HA解决的难度取决于Master自身记录信息的多少和信息可重构性,如果记录的信息非常庞大且不可动态重构,比如NameNode,则需要一个可靠性与性能均很高的共享存储系统,而如果Master保存有很多信息,但绝大多数可通过Slave动态重构,则HA解决方法则容易得多,典型代表是MapReduce和YARN。从另外一个角度看,由于计算框架对信息丢失不是非常敏感,比如一个已经完成的任务信息丢失,只需重算即可获取,使得计算框架的HA设计难度远低于存储类系统。

聚小编 回复

非常专业,赞!

lyrewu 回复

期待真实的业务场景案例~

评论
2

点点豆豆123 已获得云栖大会订制T恤 复制链接去分享

小白过来巴拉巴拉,分区域管理数据并且要记住分区所在位置,可以把所有的数据都放在一个公有云上,但是需要在不同的区域进行完整的数据备份,并了解各区域数据所在的位置。如果某一区域的云服务发生中断,可以在其他区域快速恢复数据,并且在服务中断期间保证业务的正常运营。还有底线就是,主要数据在本地一定要有个副本。这就类比:为什么github相对于svn更可靠,一个是全量备份,一个是备份修改信息,损失了存储空间,赢得了可靠性。

0

keller.zhou 已获得阿里云代金券 复制链接去分享

首先也是最重要的是,每个域至少要有2个域控制器。如能负担费用,我建议准备3个,留有一个作为额外的保护层。
第二,域控制器不要放在同一个物理位置。准备至少2个机房。一旦有机房被人为破坏,起火或遭其他损害时,其他机房仍可以使用。
第三,部属多个AD依赖的系统。最主要的是DNS系统。确保在每个域中备份或准备两个DNS服务器。
第四,需考虑连接线。是否每个网络与域控制器间只有一条连接线?在每个域中部署至少2个网卡,这样可以通过多种途径进行访问。
显然这些建议会增加部署、维护AD基础设施的费用。但当问题发生时,这些防护费绝对比维修费(如相关责任)来得便宜,而且物有所值。

lyrewu 回复

这应该算是物理层的灾备

评论
0

jimmy0818 复制链接去分享

666

锋讯科技 回复

经历过,机房停电,下决心做分布式,刚在另一家放进去服务器,分布式还没布署完,这家又断网一个多小时,真日了狗了!!!

lyrewu 回复

经历过之后,是怎么避免的?

wwwww111222333 回复

okokok

评论
0

恐高鸟 复制链接去分享

作为一个普通云用户来讲,没有享受过这样的产品服务。但从经济学角度来说,不把鸡蛋放在一个篮子里是最为合理的选择!请求大神赐我一件阿里云LOGO的T恤。万分感谢

lyrewu 回复

我也想赐给你啊,就怕小编打我,哈哈哈

聚小编 回复

小编默默飘过...

恐高鸟 回复
回复@lyrewu:

分明是不想给我,还让小编背锅

恐高鸟 回复

这个锅背不背?

评论
0

1736091750376493 复制链接去分享

阿里云可以嘛?

lyrewu 回复

阿里云目前是有数据传输产品提供灾备服务的

斑駁々記憶 回复

只能RDS的MYSQL

评论
1

挨踢小小鸟 复制链接去分享

曾经实施过一个电商网站,因为突然停电了,服务器重启后,发现系统的数据库启动不了,客户电话不断,都是问网站怎么登不了,由于系统和数据库分布式部署在不同的服务器,导致系统启动了,数据库没有启动

聚小编 回复

后来有什么措施没?

评论
1

1587991627066507 复制链接去分享

数据容灾是云供商必备之技

wwwww111222333 回复

wwwwwww

评论
2

似水的流年 复制链接去分享

以前把数据库和web服务装在一起,用了一台服务器,然后服务器被人攻击了,服务器瘫痪了,然后进步了数据库,那些数据都没了。现在把各个组件都分开部署,就不会有这种情况发生了。

0

叶子0324 复制链接去分享

确实有,机房会出现断电,过热的情况,导致服务宕机

lyrewu 回复

有解决方案吗?

评论
1

arsalt 复制链接去分享

传统it有大量的单点架构,可能是因为客户的应用确实不太重要,也可能是因为客户还没来得及对重要应用进行高可用加固。

1

万城 复制链接去分享

这么说吧!阿里云就是篮子,可是现在我没那么多的鸡蛋

1

sea-line 复制链接去分享

资料必须要有备份,不然一旦丢失就不能恢复,这对带来的影响实在太大,一定要有多重备份。

0

你的一切 复制链接去分享

硬盘坏了,里面的数据都没了

青婊 回复

关键是还没有raid

评论
1

海若男 复制链接去分享

云上存放的是客户数据,一定是高可用、多中心,关键还要在于自维护、操作方便!

1

1215391615935830 复制链接去分享

把资料都放在一个硬盘里,然后盘就挂了。。。

1

小小课堂 复制链接去分享

故障肯定是遇到过。。还是客户说你网站咋上不去了。。。一般小网站 应该不会顾及单点故障吧。想解决这个问题还得多花钱,对于网站收益不高的站长而已,还是算了吧。

1

蛮游伊娃 复制链接去分享

公司网络的异常问题,我的网络断线,同事网络可以使用,但是又不知道哪里出问题,只能等网络自己恢复。

1

50273790 复制链接去分享

云存储必须有一主一备,通过快速切换,实现主备倒换,降低宕机伤害,保证信息完整和安全!

3