硬件
HP Integrity rx2600
HP MSA1000存储产品
操作系统
Redhat Ad
vance Server 2.1
结论
华中科技大学采用48台HP Integrity rx2600服务器作为节点、以1台Integrity rx2600服务器作为管理节点、通过高速互连设备组成高性能计算集群正式投入使用。该系统拥有高达每秒5000亿次的峰值浮点运算能力,是国内大学院校中第一个达到如此高速计算能力的高性能集群系统,目前也成为了全国网格计算的重要组成部分。
华中科技大牵头中国网格计划
目前,中国教育部已全面启动中国教育科研网格ChinaGrid计划,构建下一代中国高等教育网格计算平台。这一计划是教育部"十五"211工程公共服务体系建设的重大专项,受国家高技术研究发展计划(863计划)项目支持。中国教育科研网格的目标是将广泛分布在中国教育科研网CERNET和高校中的异构海量资源集成起来,实现CERNET环境下资源的有效共享,消除资源孤岛,提供有效的服务,形成为国家科研教学服务的大平台。
在中国教育科研网格计划中,华中科技大学是牵头单位,是头一批参与这一计划的12家院校之一。该计划要求各个院校整合计算平台,但由于我国目前网络条件所限,因此要求各个节点拥有一个比较大的计算节点,加入此计划的第一批大学院校要求具有5000亿次计算能力的超级计算节点。
挑战:庞大工作负载需要高性能解决方案
在传统意义上,高性能计算应用是属于CPU和内存密集型的应用,它对所运行的计算机体系结构(超级计算机体系结构)提出了几个主要要求:
强大的浮点计算能力(特别是64位双精度浮点运算)
超大的内存带宽
超大的内存容量
完整的体系框架。
在高性能计算中,这些因素是相互关联的。由于高性能计算需要采用各种数学方程式来建立模型和模拟物理现象,而随着各种模型越来越大和越来越复杂,数据集的规模也急剧增长。
无论是采用分布式内存还是共享式内存,要将此数据传输至内存中并进行计算,都需要高带宽、高容量、低延迟的体系结构和更加强大的CPU。因此,用于处理如此庞大工作负载的超级计算机需要采用更快的CPU、更高性能的内存和I/O子系统,以实现最高的运算速度;采用多级别并行处理技术,能够利用几十个甚至几千个处理器来处理一项任务;采用高性能的互连设备和系统设计,以实现最高的性能。
关键选择标准:高性能集群,超大内存高速硬盘,高带宽以及开放系统
华中科技大学原来也有一些超级计算机系统,但计算能力达不到要求,因此将需要重点锁定为计算能力。
基于以上思考,华中科技大学的网格计算解决方案对高性能计算环境提出了如下需求:
多台高性能SMP计算节点和管理节点组成的高性能计算集群
每个计算节点配置2G 内存
每个计算节点内部系统和文件系统配置高速硬盘
计算节点间采用高带宽低延迟的互联设备,安全高效的网络互联
开放通用的Linux操作系统;通用高效率的并行模式,支持OpenMP、MPI等;多层次任务调度管理系统
支持工业标准的语言环境,包括C、C++和Fortran等
针对高性能计算应用的通用和扩展数学库,包含基本线性代数、矩阵运算、快速傅立叶变换等科学运算程序库的相关软件
HP建议:采用动能服务器建立高性能网格计算平台
HP认为:高性能计算应用是属于CPU和内存密集型的应用,它对所运行的计算机体系结构(超级计算机体系结构)提出了几个主要要求:浮点计算能力(特别是64位双精度浮点运算)、内存带宽和内存容量以及体系框架。在高性能计算中,这些因素是相互关联的。由于高性能计算需要采用各种数学方程式来建立模型和模拟物理现象,而随着各种模型越来越大和越来越复杂,数据集的规模也急剧增长。
在高性能计算系统应用中,不仅需要高运算能力,同时对存储有着很高的要求,因为高性能计算应用经常需要短时读写大批量的数据,这对存储系统的性能特别是多道并行作业同时存取大量数据时的I/O性能提出很高要求。目前,在高性能计算领域中,当节点数量比较少时,可以采用SAN 存储技术,建立一个单独的SAN存储网络。但由于目前SAN的建设成本还比较高,而且所支持的最大端口数仅为200~300个节点(不同厂商的具体数量不同),所以当节点数量比较多时,通常都采用网络存储技术。
HP方案:以动能服务器打造每秒5000亿次的峰值浮点运算能力的高性能集群
华中科技大学主机系统采用48台rx2600服务器作为计算节点,1台rx2600服务器作为管理节点,每个计算节点服务器配置一个千兆以太网作为计算网络,和一个100Mbps以太网作为管理网络。2路HP Integrity rx2600动能服务器配备了含6M三级高速缓存的1.5 GHz Intel安腾2处理器,或者含3M三级高速缓存的1.3 GHz Intel安腾2处理器以及高达24 GB的内存,采用HP zx1芯片组,这一芯片组能够通过降低内存延迟并提高内存与I/O子系统的可扩展性,充分展现Intel安腾2处理器的强大动力,使rx2600动能服务器能够实现行业领先的性能和内存的可扩展性,处理更多的模拟数据,更快地运行复杂模型,并提供高品质图像,而在成本和复杂性方面却更低。
rx2600 动能服务器用于集群解决方案,可进一步增强安腾处理器和zx1芯片组的性能。由于每台HP动能rx2600服务器只有3.5英寸高(2U),在一个工业标准机柜中可以集群多达20个rx2600动能服务器--密集配置通过I/O、带宽、内存、海量存储和计算容量等系统资源的整合,提供更高的效率和高可用性,从而能够进一步挖掘并增强rx2600价值和性能的巨大发展潜力。
在管理方面,方案采用了HP提供的集群管理软件,使用效果比较好。华中科技大学原来自己也开发过管理软件,但HP这套管理软件更加稳定可靠,使得整个系统的安装和维护也更加方便。
方案采用了Redhat Advance Server 2.1操作系统和Linux Beowulf集群技术,它与通常意义上的网络工作站(Network of Workstation)的最大区别在于两个方面,一是集群系统提供两个功能独立的网络,有一个单独的计算网络,独立于管理网络,客户与集群系统的通信是通过管理网络来实现;二是整个集群系统共享一个进程ID号,简化了节点之间的通信。在存储产品方面,华中科技大学采用一款低成本、可扩展的高性能存储系统HP MSA1000作为存储系统,存储容量为5TB。
用户利益一览
华中科技大学网格计算平台不仅在芯片、操作系统和互联等方面全面符合业界技术发展,而且能够很好地满足用户处理能力的实际需要。通过采用处理器中浮点运算性能最高、最先进的安腾2处理器,使各种高性能应用程序都可以得到最高的性能。目前在计算能力上达到了5000亿次以上。华中科技大学从而也成为12个节点中第一个完成这一指标的院校。
目前,华中科技大学已经在这个超级计算机上运行图像处理应用,三维虚拟人的重建,运行效果非常好,而且,流体力学和物理方面的应用也开始在这个超级计算机上运行。该超级计算机已成为华中科技大学的公共计算平台,为整个学校的教育和科研提供服务。
文章来源于领测软件测试网 https://www.ltesting.net/
版权所有(C) 2003-2010 TestAge(领测软件测试网)|领测国际科技(北京)有限公司|软件测试工程师培训网 All Rights Reserved
北京市海淀区中关村南大街9号北京理工科技大厦1402室 京ICP备10010545号-5
技术支持和业务联系:info@testage.com.cn 电话:010-51297073