上个十年的大部分时间里,高性能计算(HPC)开发方面的主要进展都集中在商业群集( commodity clusters )方面,也就是平常所说的Beowulf群集。这些群集使用市场上普通的硬件,构建出的系统性能在很多应用中却能和那些传统的超级计算机相媲美,甚至有过之而无不及。所需的成本也大约只有后者的十分之一甚至更少。并不是每一种应用都适用群集,但大部分的科学应用都可以通过小的改动而采用群集系统。
在几个需要超级计算能力的用户的驱动下, Aerospace 公司2001年决定放弃继续购买小型群集和SMP系统的方案,转而建立一个整合的计算群集,并最终命名为Fellowship。这个决定主要是出于缩减管理成本和更有效地利用现有计算资源的考虑。用户需求的多样性也导致了我们的设计和大多数群集都有较大差异,尤其是在操作系统的选择(FreeBSD)和配置管理方面(完全网络启动节点)。
Fellowship正被用于解决一些重要的现实问题并运作良好。目前为止,浮点运算的最好的测试成绩为183 GFlops。这一成绩可在2002年群集系统Top 500中跻身前100位。
这篇文章中,我们先对群集的配置作一个概述。包括基本的硬件和软件,系统的物理和逻辑结构以及基本操作。然后我们详细讨论设计过程中遇到的主要问题以及对相应解决方案的选择,并讨论这些选择的结果;第三,我们讨论这个过程中的教训以及我们希望整个并行计算社区需要注意的相应的事项;第四,我们谈一下未来的方向,比如如何进行进一步的改善和群集计算的新方案的研究;最后,我们总结一下目前的成果以及未来的发展方向。表二给出了一个URL列表,让读者更好地了解我们提到的项目和产品。
(to be continued...)