支撑百度搜索引擎99.995%可靠名字服务架构设计

简介: 百度搜索引擎是全球最大的中文搜索引擎,致力于向人们提供"简单,可依赖"的信息获取方式。百度网页搜索部架构师郑然为我们分享支撑百度搜索引擎的可靠名字服务架构设计。

_

内容来源:2016年12月16日,郑然在“GIAC 全球互联网架构大会”进行《支撑百度搜索引擎99.995%可靠名字服务架构设计》演讲分享。IT大咖说作为独家视频合作方,经主办方和讲者审阅授权发布。
阅读字数:2783 | 4分钟阅读

点击观看嘉宾演讲视频

搜索引擎的挑战

机器数量多,服务数量大:我们有数万台服务器,数十万个服务,分布在多个IDC。

服务变更多,变更数据大:每天几十万次变更,每周10P量级的文件更新,千余人并行开发上百个模块。

检索流量大,稳定性要高:每秒数万次请求,满足99.995%的可用性,极短时间的故障都可能引发大量的拒绝。

服务发现的原理

什么是服务发现

服务上游如何找到下游;服务上游如何负载均衡;下游挂了上游如何感知。

客户端服务发现

所有服务下游自行向服务注册表中进行注册,同时服务上游集成注册表的客户端,查询注册表以获取服务下游列表。服务上游集成负载均衡器,实施负载均衡。

服务端服务发现

服务端服务发现和客户端服务发现的区别就在于,服务端服务发现所有服务上游的请求都是通过网关去查询。

服务发现组件

服务发现主要由服务注册表、注册表客户端和负载均衡组成。

服务注册表是分布式的存储,持久化服务地址和自定义属性,服务名字全局唯一。

注册表客户端支持对注册表的增删改查,支持高并发高吞吐,对延迟的要求不太高,读多写少。

负载均衡对于整个服务系统来说是一个不可或缺的组件。它根据负载选择某个服务,剔除和探活故障服务。

关键技术与实践难点

Eden架构蓝图

1

Eden是百度网页搜索部自行研发的基于百度matrix集群操作系统的PaaS平台。它主要负责服务的部署、扩缩容、故障恢复等一系列服务治理的相关工作。底层是基础设施层,包括监控、故障检测以及matrix集群操作系统。

Eden由三部分组成,第一部分是总控服务,分为InstanceMgr和NamingService。底层有多个agent来执行总控下发的命令。所有的源数据保存在zookeeper上,并提供了命令行、web之类的接口来使用。还有一个机器维修仲裁的组件,根据故障类型、服务状态来决策机器的维修,同时提供了日志的收集分析,和一个仿真的测试平台。

在这之上是job engine层,提供了封装日常服务变更的操作,包括升级、数据的变更、服务扩容、故障实例的迁移等,在这层上做了抽象。

最上面是一些托管的服务,有网页图片搜索服务、度秘服务、和信息流。

服务发现组件

2

对于一个IDC来说,我们会部署一套NamingService,agent复用的是Eden的agent。

服务发现不可避免的是要支持跨机房的服务发现机制,必须要有跨机房查询的功能,我们就做了一套远程的跨机房查询,上层提供了SDK接口把这些过程封装起来。

为了支持跨机房一定要APP的ID或者名字必须要全局唯一。

技术难点

我觉得一个真正能够在线上稳定运行的服务发现系统必须要解决以下六个问题:

调用时机:谁来向服务注册表注册和注销服务?

健康检查:上游如何感知下游的健康情况?

无损升级:如何无损的进行服务升级?

变更分级:连接关系变更如何分级?

感知变化:上游服务如何感知下游服务列表的变化?

避免单点:如何避免服务注册表局部故障?

调用时机

第一种方式是服务自己,在启动或停止的时候注册或注销自己。这种方式服务的启停对注册表有很强的依赖,服务需要植入SDK,会产生植入成本,容易干扰运维的可预期性,影响过载保护策略。

第二种方式就是采用第三方组件,有一个代理模块去实施服务的注册和注销。我们使用这种方法的时候是利用agent通过SDK去操作。它的优点就是只需在服务添加删除时修改注册表,不用植入SDK,对注册表的依赖很弱,更容易进行运维效果监控,降低注册表的负载。

健康检查

健康检查有服务端健康检查和客户端健康检查两种做法。

服务端健康检查是服务自己做健康检查,把健康结果反馈给服务注册表。但这种方式对注册表的依赖性很强,而且它自己的健康不一定是上游看到的健康,所以结果未必准确,感知周期也很长。

客户端健康检查则是客户端和服务端建立心跳和探活机制。它的优点是对注册表的依赖性弱,感知周期短,准确性更高了。

无损升级

升级就意味着同时重启的数量要比平时更多。对于上游来说,不可访问的服务也比日常要多,这就意味着失败概率会变大。

重试虽然可以在一定程度上解决问题,但重试的副作用大,通常重试的次数会被严格限制。

而健康检查虽然可以探测到不可用的下游服务,但是健康检测存在周期性。

后来我们又有了一个更好的做法::我们采取的方法是下游服务退出过程中,先不会关闭服务读写端口,而仅仅关闭心跳端口,使服务处于"跛脚鸭"状态,等上游检测到下游心跳异常之后,将流量调度到其他服务实例,然后下游服务实例再关闭读写端口退出,从而实现完全可控的无损服务升级。

变更分级

基于分布式锁的个数,控制上游变更的服务,但上游分级方式具有随机性,出错情况损失偏大。

给下游实例打tag,标记是否被上游可见。

其实这种分级方式并不是很好,因为变更连接关系高危变更,一旦错误,损失很大。更好的方法是通过权重来控制下游服务的流量比例。

感知变化

我们在实践中发现zookeeper的通知机制不可靠,对注册表依赖过重,发生局部故障,影响服务可用性。

而轮询是一种比较可靠的机制。由agent周期性轮询服务注册表,引入版本节点,只有版本变化时,才获取全量数据,增强了运维的可预期性。

避免单点

对于IDC来说,它不希望由于服务发现系统局部故障而影响服务。

历史上我们发生过多次zookeeper的局部故障,比如网络抖动导致大量session超时所引起的通知机制。

把这些“不可靠”作为设计思路,我们把上游持久化缓存下游服务列表,作为容灾手段。采用的是轮询机制。

健康检查是通过上游服务探测下游服务健康状态。

应用范围

目前的服务发现系统应用到了万级的服务数量,支持了十万级的服务实例数量,覆盖了百度搜索引擎规模最大的indexer服务,数千个实例扩缩容的索引分布调整,分钟级完成连接变更。

应用案例

3

相关对策

原有方案无论是ssdb、proxy还是master,都大量应用了对于zk通知的机制,同时还依赖zk的session机制做探活。

这个方案在实际应用中很容易出现网络抖动session超时的故障,zk通知机制也容易丢消息,zk故障会导致服务整体不可用,平均1~2个月就会发生故障。

所以我们把它迁移到了NamingService,以解决上述问题。

总结和思考

4

总结

使用第三方组件进行注册和注销;

上游探测下游服务健康状态;

通过服务分组实现无损升级;

连接关系变更一定要有分级机制;

使用轮询而不使用通知;

以服务注册不可靠作为假设条件。

思考

我们打算引入类似k8s的endpoint机制;通过控制流量比例更好的实现分级;提升易用性,成为通用的中间件。

以上就是我今天的分享,谢谢大家!

相关推荐

Mars在移动网络的探索和实践
京东小程序的三生三世

相关实践学习
部署高可用架构
本场景主要介绍如何使用云服务器ECS、负载均衡SLB、云数据库RDS和数据传输服务产品来部署多可用区高可用架构。
负载均衡入门与产品使用指南
负载均衡(Server Load Balancer)是对多台云服务器进行流量分发的负载均衡服务,可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。 本课程主要介绍负载均衡的相关技术以及阿里云负载均衡产品的使用方法。
目录
相关文章
|
2月前
|
运维 网络协议 安全
长连接网关技术专题(十):百度基于Go的千万级统一长连接服务架构实践
本文将介绍百度基于golang实现的统一长连接服务,从统一长连接功能实现和性能优化等角度,描述了其在设计、开发和维护过程中面临的问题和挑战,并重点介绍了解决相关问题和挑战的方案和实践经验。
86 1
|
3月前
|
机器学习/深度学习 数据处理 数据安全/隐私保护
|
3月前
|
Ubuntu
百度搜索:蓝易云【Ubuntu开机自启服务systemd.service配置教程】
现在,你的服务将在Ubuntu开机时自动启动,并在之后的启动中持续运行。记得根据你的实际需求修改 `your_service_name.service`文件中的相关信息。
58 2
|
4月前
|
Ubuntu 安全 数据安全/隐私保护
百度搜索:蓝易云【Ubuntu配置Samba服务教程】
现在,你已经成功在Ubuntu上配置了Samba服务。其他计算机可以通过网络访问你共享的文件夹。在访问时,需要输入Samba用户的用户名和密码。注意,为了安全起见,建议配置Samba的访问权限和加密选项。
55 1
|
4月前
|
缓存 Ubuntu 数据库
百度搜索:蓝易云【Ubuntu系统目录架构详解】
这是Ubuntu系统目录架构的主要部分,每个目录都有其特定的用途,合理使用目录结构可以使系统更加有序和易于管理。
51 2
|
4月前
|
存储 边缘计算 人工智能
云计算与分布式系统架构:驱动数字化时代的创新引擎
本文将探讨云计算与分布式系统架构在数字化时代中的重要性,介绍其基本概念和原理,并探讨其在推动技术创新、提升企业效率和满足用户需求方面的作用。同时,还将提出未来发展的趋势和挑战,为读者提供对云计算与分布式系统架构的深入理解。
|
4月前
|
网络协议 Linux 网络安全
百度搜索:蓝易云【Linux下的samba服务配置详解】
以上是对Samba服务配置的详解。通过配置Samba,你可以在Linux和Windows之间实现文件共享和打印机共享,方便进行跨平台的文件传输和共享操作。请根据具体需求和环境,进行相应的配置和调整。
34 0
百度搜索:蓝易云【Linux下的samba服务配置详解】
|
4月前
|
安全 应用服务中间件 Linux
百度搜索:蓝易云【CentOS7使用Nginx、Supervisor部署Go/Golang服务教程】
这些是在CentOS 7 x64上使用Nginx和Supervisor部署Go/Golang服务的基本步骤。根据您的需求和具体环境,可能还需要进行其他配置和调整。请确保在进行任何与网络连接和安全相关的操作之前,详细了解您的网络环境和安全需求,并采取适当的安全措施。
61 0
|
5月前
|
SQL 关系型数据库 MySQL
Presto【基础 01】简介+架构+数据源+数据模型+特点(一篇即可入门支持到PB字节的分布式SQL查询引擎Presto)
Presto【基础 01】简介+架构+数据源+数据模型+特点(一篇即可入门支持到PB字节的分布式SQL查询引擎Presto)
59 0
|
5月前
|
网络协议 Linux
百度搜索:蓝易云【【http服务】使用命令来查看和停止端口教程。】
通过按照上述步骤使用命令来查看和停止端口,您可以轻松地管理正在运行的服务。请确保在停止端口上的服务时,选择正确的端口号,并谨慎操作以避免影响其他正常运行的服务。
33 0