用Mesos分布式架构进行工作

本文涉及的产品
云原生网关 MSE Higress,422元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
任务调度 XXL-JOB 版免费试用,400 元额度,开发版规格
简介: 2010年,一个旨在解决扩容问题的项目诞生——Apache Mesos,它在某种程度上对CPU、内存、磁盘资源进行抽象,从而允许整个数据中心如同单台大服务器般运转。无需虚拟机和操作系统,Mesos创造了一个单独底层的集群为应用提供所需资源。

引言:2010年,一个旨在解决扩容问题的项目诞生——Apache Mesos,它在某种程度上对CPU、内存、磁盘资源进行抽象,从而允许整个数据中心如同单台大服务器般运转。无需虚拟机和操作系统,Mesos创造了一个单独底层的集群为应用提供所需资源。
本文将向您简单介绍Mesos分布式架构,详细讨论请见《Mesos 实战》一书。

  Mesos通过引入一层抽象,提供了一种像管理单台大服务器般的方法来管理整个数据中心。你可以认为Mesos与当今虚拟化解决方案类似:像hypervisor一样抽象物理CPU、内存、磁盘资源,之后以虚拟机形式呈现。Mesos做相同的事情,但其将资源直接提供给应用。
  除了提升整体资源的利用率外,Mesos还一开始就支持分布式、高可用及容错。通过使用容器技术,如Linux control groups (cgroups)和Docker,Mesos实现了进程间隔离,允许多个应用运行在同一机器上。你也许曾搭建过三个集群,分别运行着Memcached、Jenkins CI和Ruby on Rails应用,现在你只需部署一个Mesos集群就可以运行所有的应用了。
  为了提供规模化服务,Mesos提供了一套分布式、容错性架构来完成资源的细粒度分配。这套架构包括三个组件:master、slave及运行在其上的应用本身(通常称为framework)。Mesos依赖于Apache ZooKeeper,一个分布式的数据存储系统,专用于集群内的协调同步leader投票选举,以及Mesos master、slave和framework间的leader发现。
  在下图中,你能够看见这些架构组件如何在一起工作,从而提供一个稳定的平台来部署应用。
                图片描述
                Mesos架构图,包括一个或多个master、slave和framework

masters

  Mesos master的职责是管理集群中在每台机器上运行的Mesos slave守护进程。通过ZooKeeper和master之间协调哪个节点是主master,哪些节点作为备用存在,它们将在主master离线时接管服务。
  主master节点使用可插拔的分配模块或调度算法来分发资源供给至各种调度器,从而决定将什么资源提供给某一特定的framework。调度器依据其上是否有任务需要执行来决定接收或拒绝资源供给。
  Mesos集群至少要求有一个master节点。在生产环境为了保证高可用性,推荐采用三个甚至更多的master节点。你可以将ZooKeeper在与master相同的机器上运行,或者使用独立ZooKeeper集群。

slaves

  在集群中负责执行framework任务的服务器被称为Mesos slave节点,它们访问ZooKeeper来确定主master节点,将CPU、内存、存储资源以资源供给的形式宣告给主master。当调度器从主master接收资源供给后,在slave节点上启动一个或多个执行器,执行器负责运行framework的任务。
  Mesos slave也能够基于属性与资源进行配置,从而允许它们定制特定环境。属性配置是键值对形式,可以包含类似于节点所在机房位置信息。资源配置可以替代Mesos自动探测发现slave节点的有效资源,并由用户指定具体的CPU、内存、磁盘资源信息。属性配置与资源配置的示例信息如下:

--attributes='datacenter:pdx1;rack:1-1;os:rhel7'
--resources='cpu:24;mem:24576;disk:409600'

  在属性配置中对Mesos节点的数据中心、节点位置、操作系统进行了说明,在资源配置中用户指定了该节点提供的CPU、内存和磁盘资源。在日常维护中,这些信息对保证应用在线运行不受影响特别有用。使用这些配置信息,数据中心的运维人员可以在整个机柜甚至整排机柜离线日常维护时不影响用户。

frameworks

  framework是表示Mesos应用的术语,它负责在集群上调度与执行任务。framework由两个组件组成:调度器与执行器。

1 . 调度器

  调度器是典型的长运行态服务,负责与Mesos Master连接,接收或拒绝资源供给。Mesos将调度的职责委派给了framework,而不是试着由自己调度所有的任务执行。调度器基于当下是否有任务需要运行来决定是否接受或拒绝资源供给。调度器通过与ZooKeeper通信来探测主master的存在,之后将其自己注册到master中。

2 . 执行器

  执行器是在Mesos slave上启动的一个进程,负责运行framework的任务。在本书写作之时,Mesos内建的执行器允许framework执行shell脚本、Docker容器等。Mesos支持多种编程语言执行器,新的执行器可以与framework绑定在一起,当任务需要它时由Mesos slave从framework获取。
  如你所看到的,Mesos提供了一个分布式、高可用的架构,master负责整个集群的调度工作,slave将有效资源通知调度器,并在集群中执行任务。
  本文选自《Mesos 实战》,点此链接可在博文视点官网查看此书。
                      图片描述
  想及时获得更多精彩文章,可在微信中搜索“博文视点”或者扫描下方二维码并关注。
                         图片描述

相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
相关文章
|
2月前
|
存储 缓存 NoSQL
分布式系统架构8:分布式缓存
本文介绍了分布式缓存的理论知识及Redis集群的应用,探讨了AP与CP的区别,Redis作为AP系统具备高性能和高可用性但不保证强一致性。文章还讲解了透明多级缓存(TMC)的概念及其优缺点,并详细分析了memcached和Redis的分布式实现方案。此外,针对缓存穿透、击穿、雪崩和污染等常见问题提供了应对策略,强调了Cache Aside模式在解决数据一致性方面的作用。最后指出,面试中关于缓存的问题多围绕Redis展开,建议深入学习相关知识点。
247 8
|
5天前
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
22 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
|
13天前
|
人工智能 运维 监控
领先AI企业经验谈:探究AI分布式推理网络架构实践
当前,AI行业正处于快速发展的关键时期。继DeepSeek大放异彩之后,又一款备受瞩目的AI智能体产品Manus横空出世。Manus具备独立思考、规划和执行复杂任务的能力,其多智能体架构能够自主调用工具。在GAIA基准测试中,Manus的性能超越了OpenAI同层次的大模型,展现出卓越的技术实力。
|
6月前
|
安全 应用服务中间件 API
微服务分布式系统架构之zookeeper与dubbo-2
微服务分布式系统架构之zookeeper与dubbo-2
|
6月前
|
负载均衡 Java 应用服务中间件
微服务分布式系统架构之zookeeper与dubbor-1
微服务分布式系统架构之zookeeper与dubbor-1
|
2月前
|
存储 Prometheus Cloud Native
分布式系统架构6:链路追踪
本文深入探讨了分布式系统中的链路追踪理论,涵盖追踪与跨度的概念、追踪系统的模块划分及数据收集的三种方式。链路追踪旨在解决复杂分布式系统中请求流转路径不清晰的问题,帮助快速定位故障和性能瓶颈。文中介绍了基于日志、服务探针和边车代理的数据收集方法,并简述了OpenTracing、OpenCensus和OpenTelemetry等链路追踪协议的发展历程及其特点。通过理解这些概念,可以更好地掌握开源链路追踪框架的使用。
128 41
|
6月前
|
存储 JSON 数据库
Elasticsearch 分布式架构解析
【9月更文第2天】Elasticsearch 是一个分布式的搜索和分析引擎,以其高可扩展性和实时性著称。它基于 Lucene 开发,但提供了更高级别的抽象,使得开发者能够轻松地构建复杂的搜索应用。本文将深入探讨 Elasticsearch 的分布式存储和检索机制,解释其背后的原理及其优势。
501 5
|
2月前
|
存储 缓存 安全
分布式系统架构7:本地缓存
这是小卷关于分布式系统架构学习的第10篇文章,主要介绍本地缓存的基础理论。文章分析了引入缓存的利弊,解释了缓存对CPU和I/O压力的缓解作用,并讨论了缓存的吞吐量、命中率、淘汰策略等属性。同时,对比了几种常见的本地缓存工具(如ConcurrentHashMap、Ehcache、Guava Cache和Caffeine),详细介绍了它们的访问控制、淘汰策略及扩展功能。
97 6
|
2月前
|
存储 关系型数据库 分布式数据库
[PolarDB实操课] 01.PolarDB分布式版架构介绍
《PolarDB实操课》之“PolarDB分布式版架构介绍”由阿里云架构师王江颖主讲。课程涵盖PolarDB-X的分布式架构、典型业务场景(如实时交易、海量数据存储等)、分布式焦点问题(如业务连续性、一致性保障等)及技术架构详解。PolarDB-X基于Share-Nothing架构,支持HTAP能力,具备高可用性和容错性,适用于多种分布式改造和迁移场景。课程链接:[https://developer.aliyun.com/live/253957](https://developer.aliyun.com/live/253957)。更多内容可访问阿里云培训中心。
[PolarDB实操课] 01.PolarDB分布式版架构介绍
|
3月前
|
设计模式 存储 算法
分布式系统架构5:限流设计模式
本文是小卷关于分布式系统架构学习的第5篇,重点介绍限流器及4种常见的限流设计模式:流量计数器、滑动窗口、漏桶和令牌桶。限流旨在保护系统免受超额流量冲击,确保资源合理分配。流量计数器简单但存在边界问题;滑动窗口更精细地控制流量;漏桶平滑流量但配置复杂;令牌桶允许突发流量。此外,还简要介绍了分布式限流的概念及实现方式,强调了限流的代价与收益权衡。
119 11

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等