曙光TC2600高性能集群助力中国医科院

简介:

本文讲的是曙光TC2600高性能集群助力中国医科院,随着社会经济的发展,各行各业对信息化的需求已经越来越白热化,特别是生物医疗行业对高性能计算的迫切需求变得日益突出。近年来随着国家对医疗卫生事业的重视,国内相关医疗企业和机构对高性能计算的应用也日渐重视。SARS、H1N1等流行性疾病的肆虐更是加大了相关机构的重视程度,对于疾病控制的要求也日益紧迫。在此背景下,广大医疗机构纷纷加大了研究范围以及研究力度。

  随着中国医学研究领域的不断深化,原有研究运算系统的运算速度与运算质量已经不能满足日益增加的研究项目的需求,特别是对高性能计算、网络计算和虚拟机技术等方面的需求急剧增加。因此,我国有关医疗系统也在逐步加快各医疗尖端设备的购置投入。其中尤以中国医学科学院最为突出。

  长期以来,中国医学科学院作为生物医疗的龙头代表,一直走在行业应用的最前端。面对瞬息万变的医疗需求,同时为了更好的服务民众,中国医学科学院病原生物学研究所重点加强了防御传染病领域的研究力量,以应对传染病对人类健康可能造成的挑战和影响。

  随着医疗医学研究项目的深入和用户的不断增加,以及海量信息处理、信息开发和科学研究对高性能计算服务的需求,中国医学科学院对各类疾病病原体进行快速高效研究分析等的高性能计算方面的需求,存储系统空间已经严重不足,数字化医学研究系统已不堪重负。

  因此中国医学科学院迫切需要一系列在高性能计算方面具有高速度、高效率、易管理的大型超级计算系统来支持其日益严格的科学研究。

  一、 曙光构建病原生物学研究所大型计算平台

  经过反复论证、多方比较,中国医科院最终选择了曙光公司提供的一套具有高度适应性的高性能计算平台。该系统使用32片曙光刀片服务器作为计算节点,1台8路SMP共享内存小机作为胖节点,1片曙光双路刀片服务器作为登陆管理节点,7片曙光刀片服务器作为I/O节点,并通过千兆交换网络及高速Infiniband网络进行网络互联

  在满足用户需求的前提下,最大限度地整合资源。综合配备的系统实现了物尽其用,能够最大程度地满足中国医科院科研工作以及医疗行业对高性能计算能力及存储的需求。以下是该系统的拓扑图:

  二、曙光TC2600刀片服务器的特点

  TC2600 系列刀片服务器是曙光公司研发的第三代双核/四核刀片服务器产品,它在众多方面超越了传统机架式服务器,是高稳定、高可用、高扩展、高密度、高性能的新一代服务器产品。与传统的服务器相比,TC2600刀片服务器可提供更有竞争力的整体解决方案,是满足更高计算性能需求和运行关键应用程序的理想平台。

  除了以上的优势特点外,曙光TC2600还具有以下的突出的6个技术特点:

  1、高效的BladeEngine智能平台:刀片服务器最大的特点就是高密度的机箱设计,合理先进的机箱构造是衡量一款刀片服务器性能的重要指标。曙光BladeEngine刀片机箱在7U机架空间的刀片机箱最多容纳10个刀片的超高密机构设计,使整个机箱能够增加42.8%的计算密度,可最大限度地提升数据中心和高性能计算中心的处理能力;全模块化的设计能节省86%以上的电缆,从而节省安装部署的时间和电缆花费。

  2、冷静自若的线形预补偿散热模块(LPCM):刀片服务器设计最大障碍为散热问题,大部分的刀片服务器项目的失败主要是由于散热无法过关。曙光刀片服务器首先在确定科学的系统架构基础之上,保证系统散热和计算密度达到平衡。曙光TC2600特有的线形预补偿散热模块(LPCM)是曙光最新研发的散热技术,配备6个冗余风扇,能够根据温度变化,线性平滑调整风扇转速,减弱噪音,降低不必要的功耗;同时LPCM还能根据温度变化,预测下一阶段温度变化趋势,提前进行转速调整补偿,保证风扇转速和噪声平稳,保障刀片服务器在任务变换时的散热效果,延长风扇的使用寿命。

  3、自动智能调节电源模块SRPM:刀片服务器是一种高密度集中的结构设计,在有限的空间里满足高性能计算应用的需求,电源供电系统的重要性不言而喻,TC2600刀片服务器配备了6个1000W具有负载均衡和故障切换功能的热插拔电源模块,支持“4+1”和“4+2”两种电源冗余方式,可选两种工作模式:手动优化和自动智能调节;SPRM可以根据功耗变化,自动智能调节电源系统的管理略,能够始终保持电源模块工作在效率曲线的高点,减少不必要的功耗损失,大幅增加电源的使用寿命;除此之外SRPM还支持实时状态监控、远程电源控制和实时的电源负载测量和显示。

  4、全视角管理模块:承担高性能计算任务的刀片服务器,需要管理人员随时把握系统的运行状况,调节系统的运行状态,因此在管理维护方面尤为重要,TC2600内置曙光刀片服务器管理软件,能够通过WEB页面的形式管理系统的运行,可提供所有组件的最新状态及图形标示的详细信息,支持实时状态监控、故障预警,动态优化调整资源配给和工作策略;提供多种错误故障报警方式,日志、审计和报表可供查询;允许加密的远程控制,可从任何位置控制操作及监控整体运行状况。

  5、高效的IB高速交换模块:高性能计算应用需要不断的与外界交换数据,庞大的数据交换工作,对于服务器系统的I/O交换是一个巨大的挑战。曙光TC2600刀片服务器采用第三代 Infiniband Switch芯片,提供高达800Gb/s的交换带宽,远远超过市场同类产品;除此之外,高带宽、低延迟、全互联的Infiniband交换模块,能够提供10个传输速率为20Gb/s外联端口,支持铜缆和光纤接头的转换;并且支持VL(Virtual Lane)划分,让数据中心的数据交换工作轻松自如。

  6、创新的I/O扩展模块: I/O扩展能力一直以来都是刀片服务器的一大诟病,刀片服务器产品在需要扩展其它插件的时候,一般都借助于主板子卡的扩展形式,而且只能进行单一功能的扩展。曙光TC2600创新性的I/O扩展模块打破了一直以来刀片服务器I/O扩展方式的限制。TC2600为每个刀片独立配置了PCI-E扩展插槽,能够兼容网卡、FC HBA、iSCSI HBA、Infiniband HCA等业界绝大部分PCI-E板卡,为刀片服务器系统的I/O扩展提供了更为灵活的选择。

  三、曙光高性能集群系统配置设备

  由于医疗研究行业的特殊应用需求,随着行业的发展,因此对硬件平台、OS平台、应用环境平台高效率的集群系统要求极高。此系统的建设必须具备精准计算、高校运算、庞大的存储空间以及预留升级空间等优势特点。曙光公司深谙此理,因此选择了注重效率设计思路的曙光4000A,它能贯穿到每一个细节,在每个层面上都做到性能最优,尤其是OS平台以及应用环境平台。

  Intel xeon 双路四核刀片服务器CB60-G属于TC2600高性能集群系统,它采用了Intel 5500系列高端芯片组,7U空间里可容纳80个计算核心,其高效能的配置足以支撑医疗行业用户的高速计算需求。同时在扩展方面为升级提供了很大的空间,能够满足日后发展壮大的需求。

  曙光刀片平台良好的兼容性能够在满足医疗用户需求的前提下,最大限度地整合资源,节约空间,减少布线,降低成本。同时,曙光刀片网络,Infiniband设备的模块化设计也为用户最大限度提高了性能,节约了成本。

  四、曙光TC2600集群系统为医科院研究分析工作提供有力支持

  目前,曙光病原生物学大型计算平台正在助力中国医科院加快对现代医学信息化建设的研究和科研工作,该高科技平台带来的不仅仅是运行效率的显著提升,同时也完全满足了类似病原所等研究机构对更高计算性能和更低成本的追求。让用户在最大程度上感受到高性能计算技术的真实价值,从而实现稳定、高品质的服务,也将在更深层次上推动我国医学研究行业高性能计算系统的建设,让中国的医疗事业发展在高性能计算平台上扬帆起航,为我国的医学研究工作提供了有力的支撑。

作者:  孟庆

来源: IT168

原文标题:曙光TC2600高性能集群助力中国医科院

相关文章
|
7月前
|
人工智能 Kubernetes Cloud Native
阿里云易立:以云原生之力,实现大模型时代基础设施能力跃升 | KubeCon 主论坛分享
阿里云易立:以云原生之力,实现大模型时代基础设施能力跃升 | KubeCon 主论坛分享
|
10月前
|
运维 Cloud Native 安全
阿里云发布“金融级云原生”,持续推动金融机构IT架构升级
阿里云发布“金融级云原生”,持续推动金融机构IT架构升级
384 0
|
11月前
|
云安全 弹性计算 人工智能
重磅发布 | 云服务:支撑中国数字经济新比较优势形成
编者按 当前,我国经济发展的外部环境和内部动力正加速调整,数字经济的增长引擎作用逐步凸显。新型云计算服务体系已经成为现代化基础设施的关键支撑,能够助力我国构建新的比较优势。阿里云研究院联合外部专家,对云服务促进经济发展的机理进行深入研究。
120 0
|
存储 人工智能 运维
大型数据中心内的网络“甜点”——阿里巴巴自研DAC之路
大型数据中心内的网络“甜点”——阿里巴巴自研DAC之路
大型数据中心内的网络“甜点”——阿里巴巴自研DAC之路
|
云安全 弹性计算 负载均衡
第二届云网络峰会丨孙成浩:生而为云,连接增长——洛神云网络3.0持续演进
12月1日,第二届中国云网络峰会在线举办,在「云网融合」分论坛上,阿里云智能 云网络产品线副总经理 孙成浩(梵叶)发表《云网络:生而为云,连接增长——洛神云网络3.0持续演进》主题演讲,孙成浩结合产业发展趋势和应用场景需求,深度剖析了阿里云飞天洛神云网络的技术演进与产品迭代。
492 0
第二届云网络峰会丨孙成浩:生而为云,连接增长——洛神云网络3.0持续演进
|
运维 Kubernetes Cloud Native
阿里云原生助力天河元镜架构升级
微服务引擎MSE面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持Nacos/ZooKeeper/Eureka)、云原生网关(原生支持Ingress/Envoy)、微服务治理(原生支持Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。
阿里云原生助力天河元镜架构升级
|
运维 Kubernetes Cloud Native
阿里云联合中国信通院发布《云计算开放应用架构》标准,加速云原生应用规模化落地进程
2021 年 5 月 26 日,由阿里云计算有限公司、中国信息通信研究院等 10 余家单位联合发起的《云计算开放应用架构》标准文件在“云原生产业大会”现场发布。该架构以阿里云、微软云联合发起的开源项目“开放应用架构模型(Open Application Model,以下简称 OAM)”为实现基础,旨在为云端应用管理者提供统一的应用描述规范及开放应用程序能力管理框架,以期推动简洁、高效、可控的云原生应用管理与交付方式在更多行业和企业中的大规模落地。
阿里云联合中国信通院发布《云计算开放应用架构》标准,加速云原生应用规模化落地进程
|
消息中间件 Cloud Native 中间件
重塑技术引擎 阿里落地全球最大规模云原生实践支撑双11
4982亿,2020年天猫双11再创消费新纪录。58.3万笔/秒,双11交易峰值再创新高,阿里云又一次扛住全球最大规模流量洪峰。这一切背后支撑的“技术引擎”又是如何为近十亿全球购物者的狂欢提供着“无感知护航”?
36273 0
重塑技术引擎  阿里落地全球最大规模云原生实践支撑双11
|
Cloud Native 双11 云计算
核心系统全面云原生化 阿里 2020 双11 再次跨越技术高峰
史上最大流量洪峰来袭,阿里云如何成功应对?一图带你看懂阿里 2020 双11 核心系统全面云原生化!
23768 0
核心系统全面云原生化  阿里 2020 双11 再次跨越技术高峰
|
云计算
支持自研技术!河南省引入阿里巴巴飞天云平台
8月22日,河南省人民政府、郑州市人民政府与阿里巴巴集团宣布达成战略合作。双方将在云计算、互联网金融、新零售等领域深入合作,借助阿里巴巴自研飞天云平台、人工智能、信息安全等领域的科技优势,打造中国数字经济强省。
2124 0