前言
随着计算机科学技术与国民经济的快速发展,高性能计算已经逐渐成为科学研究所必需的辅助工具,在各个基础学科领域发挥出巨大的作用。如在气象气候、地震预报、石油物探、航空航天、工程计算、密码研究、新药设计、生物基因、船舶工程、地质勘探、海洋工程、城市建设、武器研究、材料工程、环境科学等领域,研究工作的计算任务往往公式复杂、计算难度大、计算时间极长,用一般计算方式难于完成,因此高性能计算系统就成为必不可少的工具。
高性能计算集群(HPCC-High Performance Computing Cluster)是计算机科学的一个分支,以解决复杂的科学计算或数值计算问题为目的,是由多台节点机(服务器)构成的一种松散耦合的计算节点集合。为用户提供高性能计算、网络请求响应或专业的应用程序(包括并行计算、数据库、Web)等服务。
相比起传统的小型机,集群系统有极强的伸缩性,可通过在集群中增加或删减节点的方式,在不影响原有应用与计算任务的情况下,随时增加和降低系统的处理能力。还可以通过人为分配的方式,将一个大型集群系统分割为多个小型集群分给多个用户使用,运行不同的业务与应用。
集群系统中的多台节点服务器系统通过相应的硬件及高速网络互连,由软件控制着,将复杂的问题分解开来,分配到各个计算节点上去,每个集群节点独立运行自己的进程,这些进程之间可以彼此通信(通常是利用MPI-消息传递接口),共同读取统一的数据资源,协同完成整个计算任务,以多台计算节点共同运算的模式来换取较小的计算时间。
根据不同的计算模式与规模,构成集群系统的节点数可以从几个到上千个。对于以国家政府、军方及大型组织机构来讲,节点数目可以达到数千甚至上万。而随着HPCC应用的普及,中小规模的高性能计算集群也慢慢走进中小型用户的视野,高性能计算集群系统的部署,极大地满足了此类用户对复杂运算的能力的需求,大大拓展了其业务范围,为中小型用户的成长提供支持。
本次方案研究适合于中小规模用户的典型系统:基于16-32个以内计算节点和InfiniBand高速网络的Linux/windows集群。
一、设计原则
l 先进性
并行计算系统是目前业界较为先进的计算体系,是融合了计算、存储、网络与软件的综合体,在构架整个系统的过程中,要保证架构的每个环节采用业界先进且成熟的产品与技术,要均衡各环节之间的关系,消除系统构架的瓶颈,保证整个系统的高效率运行,可以满足未来数年技术和应用发展的需要,保护用户投资。
l 高性能
集群系统的重量考核指标是整体性能,即计算、存储、I/O能力与智能管理的体现。系统中所有节点均配置了基于最新多核处理器,保证充足的计算能力;节点间使用40Gb的Infiniband高速互连,保证了通信密集型并行应用对互连网络的性能要求;存储采用光纤SAN结构,并且根据存储量与I/O带宽的关系配置并行文件系统,可以较好满足应用对IO的性能要求。
l 可扩展性
集群系统区别于传统SMP/MPP计算体系的独特优势就是优异的扩展性,用户可以根据自己的需求随时增减系统中节点的数量,在将来计算能力需要扩充的时候,只需要增加一定数量的节点数目,即可在不影响当前应用的情况下,扩展整个系统的计算与存储能力。
l 环保节能
集群系统是由多个服务器节点、大容量存储及复杂网络构成的大规模应用系统,是一个巨大的耗电/发热体,除了本身的能耗,随之配备的空调系统也是耗电大户。因此,在系统设计之时除了性能效率之外,必须考虑节能与环保的问题以减少对社会环境资源我过多占用与破坏。HP刀片服务器的高密度、能量智控、气流导向有效散热与自动管理特性可以使整个系统保持在较低的功耗,减少对电力的消耗、保护社会环境资源。
二、方案描述
此次方案中,高性能计算集群系统的节点由 HP BladeSystem刀片服务器搭建,节点间通过InfiniBand高速网络相连,管理、登录和存储节点由HP ProLiant机架式/刀片式服务器构成,存储节点通过SAN交换机外挂磁盘阵列来存储大容量数据。
系统采用HP公司的16台BL460c刀片服务器作为计算节点,放置在1套C7000刀片机箱,用作并行计算的计算节点。每台刀片服务器配置2颗处理器,128GB内存和2块300GB 热拔插SAS硬盘。每刀片机箱中,单台刀片机箱可放置16台刀片服务器分两层放置,上层8台,下层8台(见产品描述刀片服务器部分详情)。计算节点集中在刀片机箱中,易于用户进行管理,网络设备模块化,电源集中供电,自动负载均衡,是当前业界最佳高性能集群平台方案。
系统拓朴图:
系统节点功能描述:
l 计算节点用于科学计算,运行并行计算程序,是高性能集群计算系统的主体。占有最大的采购成本,也是系统耗电的主体
l 管理节点安装有集群管理软件,做为主节点对整个集群进行监控、管理和作业调度等工作,还负责在集群安装的初期对所有的节点服务器进行操作系统及应用软件的大规模快速部署功能,为多台服务器一次安装OS和软件提供极大的便利
l 登录节点用来承接用户接入集群系统,运行并行计算的主程序体,对程序进行编译和调试,划分任务与数据,按照一定的规则分配到计算节点,最后对计算任务的回收与整理
l 存储节点用来连接后台的大容量数据存储设备,将存储空间共共享给所有的节点服务器,整个集群通过此存储节点来进行数据的统一大规模存取与调用
系统网络类型描述:
l InfiniBand高速计算网络
由于并行集群计算系统对网络间的数据交换要求极高,因此在此集群系统中配置了高带宽低延迟的InfiniBand网络用来提高并行计算中的消息传递。此套系统中,刀片机箱中都配置了InfiniBand交换机,通过两个刀片机箱中的交换机相连的方式将所有计算节点连接成高带宽、低延迟的计算网络,用来运行并行计算中的进程间消息传递。
l 千兆管理网络
除了高速低延迟的InfiniBand网络,此集群系统中还配置了兼容性极高的千兆以太网络,用来运行基于TCP/IP协议的数据传输,做为集群管理网络,用来进行节点操作系统系统的布署,软件的安装,还可以做为另一套计算网络来运行。
l 监控网络
在每个HP刀片机箱上和HP机架式服务器上,都配置有HP统一技术的iLO远程监控模块。系统再配置一套以太网交换机,用来与iLO百兆端口监控整个集群的运行状态和对集群进行远程开关机等操作。
以上描述的网络都是在刀片机箱中实现,包括各种交换机都是以模块化形式插在刀片机箱后面的插槽里。 系统网络结构的正面视图及背部连接图如下:
三、系统构成
(具体配置详见附件-配置清单与报价)
惠普高性能计算集群系统硬件部分:
计算节点: 14台HP BL460c刀片服务器(放置在1套HP C7000刀片机箱中)
管理/登录节点:1台HP BL460c刀片服务器
存储节点: 1台HP BL460c刀片服务器
存储设备: 1台HP 3PAR磁盘阵列柜
计算网络: InfiniBand(40/56Gb/s)高速计算网络
管理网络: 1/10Gb以太网
监控网络: 千兆以太网
控制系统: HP机架式17”TFT液晶显示器/键盘/鼠标及8端口切换器系统
基础设施: HP机柜、供电模块、系统布线、线缆插座和相关附件
惠普linux高性能计算集群系统软件部分:
操作系统: Redhat 企业级Linux
集群管理: HP Cluster Management Utility集群管理软件
作业调度: OpenPBS /Maui 作业调度系统
编译环境: GNU C++/Fortran 编译器 /GDB调试器
并行环境: MPICH / OpenMP
数学函数库: Goto、BLAS、Lapack等
四、linux集群系统的管理
HP CMU集群管理软件:
HPC集群能以非常低的价格达到只有昂贵的大规模并行处理(MPP)才能实现的性能。尽管HPC集群架构解决方案在性价比方面比较突出,但是管理几百台系统的配置并非易事。为了支持不同客户的不同集群实施,惠普开发了HP CMU(集群管理工具),为主要任务提供了独立于Linux、MPI或其它软件组件之外的管理工具。对于使用多个开源和/或第三方软件组件实施集群解决方案,并需要简单的HPC集群安装和管理界面的客户来说,HP CMU是一个理想选择。
HP CMU支持HP ProLiants服务器和Integrity服务器(从1U双路CPU机架安装式服务器到4U 4路CPU服务器),以及Superdome和HP刀片服务器。
集群管理工具特性
集群管理工具旨在管理大量的计算节点,具有单一系统视图GUI(图形用户界面)。HP CMU带有完整的Java图形用户界面(GUI),可以根据您的需要和集群中任意数量的节点进行定制。HP CMU符合HP SIM(系统集成管理器)1级集成标准。HP CMU针对日常管理和克隆(cloning)任务提供了命令行界面(CLI)。通过其用户友好图形界面,HP CMU为集权管理员提供以下3个主要特性:
管理
通过HP CMU,您可以暂停、启动、重启或关闭选定的任何节点。您还可以连接到集群中的多个节点,并通过一次键盘输入以广播的方式向其发出命令。HP CMU也可以帮助您管理来自集群的事件,如节点的增加或减少等。
克隆
对于初次安装或者未来更新,集群管理员能够向集群中所有或部分计算节点传送系统配置映像。CMU是唯一一款经实际检验能高效管理1000个以上计算节点的管理工具。
监控
凭借其新的监控特性,整个集群的环境和性能信息可作为一个系统向系统管理员呈现。管理员能够对整个系统的表现一目了然,而无需对单独计算节点的性能进行复杂的分析。
HP CMU支持所有的集群平台产品系列(CP3000、CP4000 CP4000BL、CP6000)、所有的ISS Proliant刀片服务器产品系列、所有的Integrity集群以及Linux发行套件,如RedHat、SuSE、Debian等。
五、为什么选用Linux
Linux作为一个新兴的操作系统,以它为平台来构建多节点的集群系统有很多优点:
1. 低成本:与Windows以及其它商品化Unix操作系统相比,Linux的一个显而易见的优势就是廉价。硬件的花销加上很少的软件费用就可以拥有一个服务器集群,这方面显然是其它操作系统无法比拟的。而且Linux对于硬件的要求比Windows要低得多。一般的用户也可以利用Linux来构造一个高性能的集群来进行科学计算、实验,在很大程度上它可以替代以往昂贵的大型计算机。
2. 自由开放:自由开放是Linux的一个最迷人的特点。 Linux的开发者从Linus 等寥寥几人发展到全世界将近1000万的庞大用户群,其扩张速度令人刮目。Linux并不仅仅是给用户提供了更多的选择,更重要的是它宽阔的胸怀征服了那些好奇、上进、富于创造精神和协作精神的电脑爱好者。 而开放源码为提高性能提供了更加广阔的空间。开发者可以看到这个系统是怎样跑起来的,然后在操作系统一级进一步提高性能便成为可能。而在Windows或者AIX这样的操作系统中,得到它们的源码已是很不容易,要想从操作系统着手来优化上层的大型应用更是难上加难。
3.丰富的软件资源:如果采用Linux为操作系统,用户则可以在全球上千个Linux公共资源网站上获取自己想要的各种工具软件或中间件软件,这些软件全部是免费的,也可以根据用户的要求去编写适合自己的特殊程序。随着越来越多的技术人员加入研究Linux的队伍,丰富的软件成为Linux用户的一大优势资源。
4. 高效:目前,由于还比较缺乏对Linux的性能和功能评价的系统科学研究,在同等硬件配置和应用环境下,Linux与其他操作系统相比孰优孰劣还不太明了。但是,已经有不少数据说明,作为工作站或小型服务器,Linux已经可以与它的对手一较高低了,尤其是它的网络性能以及可靠性都备受称赞,而这些正是一个高效集群不可缺少的。
六、HP与高性能计算
惠普公司作为高性能科学计算集群技术的领导者,可提供最强大的、易于管理的一系列现有的Linux/HP-UX集群解决方案。惠普结合了Linux的优势、业界最佳应用软件、高速内部互连、工业标准的计算机平台、惠普集群技术专家、出色的支持和服务,以经济的成本向用户提供具有增加容量和能力的高性能计算集群系统。
惠普公司可向用户提供基于惠普集群管理软件(CMU)的Linux集群系统解决方案。该系统可由惠普公司集群技术部门进行设计和配置,由惠普专业集群系统工程师进行安装、集成和调试。致力于为用户提供基于相对低成本的PC Server(刀片服务器)的高性能计算系统,并让用户充分利用Linux这种开放的平台以及丰富的开源软件,组建起一套成本经济的、性能强大的、标准开放的集群计算系统,提高计算能力,加快问题求解速度,以解决困扰用户的棘手的计算难题。
做为全球No.1的IT公司,惠普以推动高性能计算在中国的发展和应用为己任,为中国的高性能计算用户提供全面的服务,全力扶植用户的应用,帮助用户提供全面、个性化的培训,帮助用户把高性能计算系统用好,发挥出真正的作用和效益,真正解决实际问题,促进用户单位的信息化建设,确立在其行业内信息技术方面的高精尖地位。
原创文章请注明转载自技术小站本文地址:http://www.i5i6.net/post/172.html,标题:惠普高性能集群方案