高性能运算之刀片解决方案
前言
1、 方案提供商:IBM
2、 方案所在行业: 石油,教育,科研,生物,制药,医疗,媒体娱乐,政府
3、 方案优势:
l 该方案是IBM公司将X-架构技术及高性能运算方面长期的技术集累的有机接合
l 该方案得到众多投产系统的验证,是一套非常成熟的系统
l 该方案是业界CPU最密集,最省电,集成度最高,扩展能力最强的系统
l IBM Linux集群系统是以IBM独有的X-架构技术为基础,提供企业级的处理能力可扩展性、可用性和服务。
l 高度集成的管理系统,为系统提供高可用性,易用性,稳定性和可靠性
4、 客户群
中石油,中石化,大学,研究院,医疗,政府行业。(所有需要大量并行运算的客户)
一、高性能运算解决方案
众所周知,IBM公司长期以来在高性能运算方面投入了大量的精力,并取得了很好的成绩。在高性能运算 TOP 500名中,IBM公司占有很大的份额。IBM的大规模并行处理机SP系统已广泛地运用在各个领域,该机(深蓝)曾在1997年中的“人机大战”中因战胜棋王卡斯帕罗夫而享誉全球。作为后起之秀的Linux 集群系统,吸取了SP大规模并行机的诸多优势,并且将SP上的优秀的系统管理软件和并行处理方面的程序移植到Linux 集群系统上。正是利用自己在集群UNIX计算机领域的广泛经验,IBM开发了IBM Linux集群系统,旨在帮助客户应对面临的挑战。
IBM eServer Cluster 1350正在将运算技术中两个最流行的概念――Linux群集和刀片服务器融合到一个标准的系统之中,用于企业和研究机构。Cluster 1350将是多种系统的集合,包括IBM BladeCenter系统、eServer x335以及eServer x345系统。IBM将在工厂对群集进行测试和集成之后,在运输到客户现场,这些系统将更容易安装和管理。
[IBM的Linux集群系统的先进技术]
|
刀片服务器的优势 |
|
|
更密集 |
7U高,支持14个刀片。内置各种模块,42U的机柜中,最多可以放入84个刀片服务器。刀片服务器支持热插拔与热添加 |
|
冗余的管理模块 |
14个刀片服务器可以共享一个鼠标/键盘/显示器 |
|
冗余的4口千兆以太网交换机模块
|
每个交换机模块有4个千兆接口,可以提供1G~4G的带宽。也可以通过对冗余交换机的Teaming,实现8G带宽。在当前的应用中,使用一个口即可。 |
|
冗余的光纤交换机模块
|
可以直接连接各种光纤存储设备,提供1GB的传输带宽 |
|
冗余的电源/风扇
|
提供不间断的电源与制冷,对于故障部件,可以通过热插拔进行更换。 |
|
冗余的中间板 |
中间板同时连接刀片服务器和所有共享模块。冗余的设计为刀片服务器的高可用性提供保证 |
|
冗余的刀片接口 |
与背板的接口互为冗余,不会因接口的故障,导致刀片服务器无法正常使用。 |
|
管理工具IBM Director 4.x |
带有对刀片服务器及机架的图形管理功能,还综合了远程管理功能/部署/配置功能 |
|
IBM Linux 集群采用的先进技术 |
|
服务处理器
(Service Processor) |
IBM Service Process 是固化在主板上的专用服务处理芯片,在相应软件的配合下(如CSM,xCAT 等系统管理软件),监视每台服务器的硬件运行状况,系统管理员能够根据其提供的信息,快速作出反应,帮助及时发现和解决问题。
Ø 可以采集到CPU、内存、硬盘、电源、风扇和稳压模块等硬件的信息,实时发出预警信息,实现预故障分析;
Ø 能够远程控制节点的部分硬件(如通过命令实现对节点的远程开机、关机和重新启动等操作)。 |
|
Chipkill™内存技术
|
使内存的校验位增长到4位,从而大大提高了可靠性。
|
|
xCAT管理软件 |
由IBM专业技术人员开发的用于IBM xSeries服务器上的Linux集群系统管理软件,供用户使用,其功能主要有现如下几点:
Ø 系统并行安装和配置;
Ø 通过命令实现对节点的远程开机、关机和重新启动等操作;
Ø 监视和控制硬件状态,尤其是提供予故障的分析,对硬件的监视可以到CPU、内存、硬盘、稳压模块、风扇和电源等具体配件;
Ø 支持运行远程命令(dsh,ssh);
Ø 支持用户帐户的统一管理;
Ø 方便的软硬件错误诊断及错误自动记录;
Ø 管理和同步所有节点的配置文件;
Ø 管理节点和节点组的信息;
Ø 实时应用的支持。 |
|
通用并行文件系统GPFS
(General Parallel File System) |
GPFS也是从IBM大规模并行机SP上继承下来的,用于提高文件访存的效率,提高I/O访问的性能。 |
总体而言,我们有很强的技术实力,依靠“整体”的系统解决方案保证系统的可用性和可靠性,将Linux集群推广应用到“实际生产处理”系统中。
[系统的稳定性和可靠性]
IBM的x系列服务器中采用了如下先进技术来最大限度地保证系统的稳定性和可靠性:
Ø 软件恢复(Software Rejuvenation)
Ø Chipkill 内存
Ø 预测性故障分析(PFA): 处理器、VRM、内存、硬盘、电源和风扇
Ø 系统管理处理器(Service Processor)
Ø Capacity Manager
Ø 热插拔电源
Ø 热插拔风扇
其次,在系统的维护和修复方面,IBM还提供如下的技术来
缩短宕机时间,以保证系统最大限度的使用率:
Ø 实时诊断
Ø 电源恢复
Ø 服务器自动重启动
Ø 远程管理适配器
另外,IBM 先进的管理工具还为集群系统的高可用性和高可靠性提供了有效的保证。
[集群系统管理的优势]
IBM提供的集群系统管理软件xCAT,它是一个高级的集群管理软件,允许通过一个单点控制和管理一个Linux集群系统。它在简化集群管理的同时,还使集群能够方便地实现快速扩展,从而提高了系统管理员的工作效率。
同时,提供予警分析报告,帮助用户防患于未然,最大限度地保证系统的生产运行时间。同时,即使在硬件出现故障时,服务器也能提供快捷、方便的诊断工具,帮助快速查处问题所在,及时解决问题。
二、IBM高性能运算解决方案架构图(刀片服务器)
说明:
1、计算网络:配置3个满机柜,每个机柜6个抽屉,每个抽屉14个双CPU的BLADE节点。一个抽屉共享4个千兆电口,接到CISCO6513上;
2、管理网络:配置八个x335和一个x345,每个x335配置一个千兆光纤卡,接2109 FC交换机,然后接8个1TB的SAN磁盘。为增加x335 网络带宽,把集成的两个绑定在一起。X345作为管理节点。每个抽屉有一个管理百兆网口。 |
在方案中计算节点一共配置了252个,使用了18个BladeCenter,每个BC内可以放置14个刀片服务器。每个刀片服务器内配置2个3.0GHz/533MHZ的 Xeon CPU和2GB内存。每个刀片中心配置1个4口千兆交换模块,采用4个1000M口与CISCO 4506进行连接,每个刀片中心配置冗于电源,采用爆炸式冷却系统。为了减少噪音,在每个BC配置了一个消音模块。
我们采用8个I/O节点,每个I/O节点使用IBM X335 1U服务器来承担。每个计算节点配置一个2GB的HBA卡与光交换机相连接入SAN网络,另外,每个计算节点通过100M以太网卡接入管理网络。
管理节点主要是负责整套刀片集群系统的安装、维护、诊断、作业的调度、资源分配管理等,还负责绘图数据的链路。因此采用IBM X345 2U节点来完成。为了使用远程监控功能还配置了Remote监控接口。X345上有两个10/100/1000Mbase-TX接口,一个连接到计算网段,一个连接到管理网段,此外还配置一个1000Mbase-SX光纤接口用于实现与用户网段的CISCO 2950连接,实现与用户终端通讯。
三、成功案例