如何构建省钱的服务器集群
以下这些知名机构用价廉低耗的计算机构建集群,同样提供了近乎实时的处理能力,它们用于搜寻早期宇宙的迹象、研发下一代雷达或又快又经济地运行网络测试。他们的做法值得借鉴。
GPU集群与天文研究
这是一项很特别的挑战:在澳大利亚内陆为默奇森宽视场射电望远镜阵列(Murchison Widefield Array,MWA)构建一个高性能计算集群。由于这里晚上没有任何射电干扰,所以更容易搜寻早期宇宙的迹象。
MWA旨在帮助宇宙学家了解宇宙大爆炸之后,宇宙的起源、最早的恒星、星系以及类星体形成等问题,同时,该集群还将跟踪太阳,特别是太阳风暴与不断变化的太阳磁场关系等。但是,MWA需要惊人的一站式计算能力来处理大量的数据。
可供选择的办法并不多。研究人员发现,MWA的电力供给将会是一个大问题。MWA距离最近的居民点约50公里,离最近的市镇约300公里。由标准的高性能计算节点组成的集群其耗电量会很大,而当地又缺少相应的基础设施。
因此,MWA改而使用约80个图形处理器(GPU)Nvidia Tesla S1070组成了两个集群,整套系统的电力供给依靠40千瓦的柴油发电机组来供电。
以最高3GB/s的速度通过MWA的天文数据将进行2.5TFLOPS运算。由于澳大利亚内陆没有光纤通道,图像只好在本地进行处理,工作量相当大。天线捕获射电数据(因此需要没有射电干扰的场地)后,把数据传送给被称为相关器的设备,相关器再把数据提供给GPU。
图像处理环节包括通过数学方程式将傅里叶数据转换成实际空间数据、校正电离层失真和调校测量仪器。
目前,集群还没有构建完毕,不过测试原型机已经开始运行了。Richard Edgar表示,按每瓦TFLOPS这个指标来衡量,该集群是世界上速度最快的。
美国空军与PS 3集群
人类在技术方面的一大挑战是:让计算机像人那样执行相同的任务。这对美国空军来说,意味着教计算机学会识别雷达图像、准确辨认任何异常情况,而且常常是实时进行,处理起来不能有任何延迟。
美国空军研究实验室信息管理部的首席科学家Richard Linderman表示,该实验室对计算的需求非常高。他解释说,实验室使用的特殊图像“能实时消除大气扭曲”。实验室还采用神经形态计算算法,“探索如何以与人脑同样的方式使用计算机,比如强大的目标识别能力。”
Richard Linderman表示,几年前他的团队开始分析超级计算机的成本时,首先考虑了PlayStation(PS)游戏机。他说,IBM专门为洛斯阿拉莫斯国家实验室(Los Alamos)制造的“走鹃(Roadrunner)”超级计算机成本远超过1亿美元,但他看了相关报道后认识到,该超级计算机所用的芯片其实就是IBM、索尼和东芝联合设计的Cell处理器,而PS 3游戏机用的也是这种芯片。
Richard Linderman表示,PS 3集群最初的构建成本约33万美元,峰值性能为40TFLOPS,因而性价比要比Roadrunner高约10倍。美国空军最近重新设计了集群,以便使用更便宜的组件,获得更强大的计算能力。现在,GPU和PS 3芯片基本上各占一半,峰值性能约为500TFLOPS,成本仅为200万美元。
Richard Linderman说:“我们不想付大笔电费,所以用电效率是个重要因素。500TFLOPS超级计算机耗电量大多数达到几兆瓦,而这个集群的耗电量只有300千瓦,这样每年将节省1兆瓦用电,相当于省下了100万美元。其节省幅度相当大,又可以获得500TFLOPS的性能。”
MIT与插座式集群
对传统的集群或超级计算机来说,目的是通过使用速度非常快的共享内存,同时运行多个应用或“任务”,这项工作需要高速网络和高速磁盘访问。
不过有时候,单项任务(如运行网络测试)则需要高速的单精度浮点格式,而不需要超级计算机或高性能计算(HPC)集群的双精度数据传输速度和共享内存。
麻省理工学院(MIT)发现,使用插座式计算机(plug computer)组成的集群,就能在耗电量很低的情况下运行网络测试。插座式计算机其实就是连接到网络的超小型裸机服务器,典型的插座式计算机包括Marvell公司的SheevaPlug或GuruPlug,或者基于这种平台开发的其他产品,比如QuadAxis公司的QuadPlug。
设计该集群项目的麻省理工学院系统管理员Kurt Keville称,麻省理工学院的这个集群用标准Wi-Fi连接而成,工作时总耗电量才约100瓦。他说:“我们现在的一大瓶颈就是内存、网络带宽和延迟。”目前,麻省理工学院使用许多独立的处理器核心,借助多路径网络技术,在无线网络上划分任务。这种技术需要部署的无线热点总数比较少,可以更充分地利用每个核心。这意味着,麻省理工学院使用低成本的插座式计算机,即可为特定的应用任务构建多个集群,费用比处理所有HPC任务的传统集群低得多。
该团队还采用这一集群为学生们提供低成本的、太阳能供电的无线网络。Kurt Keville表示,目前不打算构建一般性的集群,因为功能更齐全的处理器耗电量很大,成本过高。
但使用共享内存来处理复杂的计算任务行不通,因为单台插座式计算机缺乏足够的内存和处理速度,无法同时处理多个任务。
桑迪亚国家实验室与无磁盘集群
这个值得考虑的集群选择根本不是传统的硬件节点。桑迪亚国家实验室(Sandia National Laboratories)的研究人员Ron Minnich构建了一个使用100万个虚拟机的集群,并争取近期将这个系统扩展到1000万个虚拟机。
每个虚拟机由该实验室的“雷鸟(Thunderbird)”超级计算机上运行的Linux内核构成。有意思的是,这台超级计算机本身就是个集群,由近5000台戴尔计算机相互连接而成。为了构建这个包括100万个节点的集群,Ron Minnich在每个戴尔节点上运行250个虚拟机。如果要扩展到1000万个节点,他就得在现有集群中的每台戴尔计算机上运行更多的虚拟机。
Ron Minnich及其团队正使用这个集群模拟僵尸网络如何感染计算机,分析互联网如何工作,以及帮助开发下一代操作系统和安全软件。他表示,最终,他的团队希望能够模拟一个小国家的计算机网络,甚至能模拟像美国这类大国的计算机网络,以便在虚拟环境下监测网络攻击。换句话说,他想在实验室里建立网络攻击的虚拟模型。
Ron Minnich说:“一些紧迫的问题需要越来越多的计算资源,比如为气候变化建立模型、研制新药以及研究更有效的开发能源。”此外,虚拟化技术还会在研发大规模系统方面起到越来越重要的作用,因为它能够在一个平台上运行多个操作系统,并处理针对特定应用的操作系统。
基于GPU的射电望远镜集群MWA。很显然,MWA完全依赖GPU惊人的计算能力来为天文研究创建大量的实时图像。
麻省理工学院的系统管理员Kurt Keville说,他们发现,可以使用插座式计算机集群,在非常低功耗的情况下进行网络测试。
帮助构建MWA集群的研究人员Richard Edgar说:“在电力这么有限的情况下,像至强和皓龙这些当代处理器提供不了所需的计算能力。我们考虑过改用低功耗的MIPS处理器,但它们也提供不了所需的性能。由于计算方面的要求极高,供电量较低,使用GPU就成了惟一有望成功的办法。”
集群计算仍在发展当中。据麻省理工学院的Kurt Keville预测,在不远的将来,巨型超级计算机集群占整整一层大楼的现象将不复存在。研究人员不会提前几周安排批处理任务,而是会拿来几台插座式计算机,即刻构建自己的集群。他说:“我们要重新思考对待科学计算的角度,考虑到可以使用的新产品和高昂的电力成本。面对更多的问题,我们需要更多的解决办法。”
- 1天灾难料善用云端灾难备份方案
- 2IT资产再循环的艺术
- 3CRM能为我国的电信运营商做些什么呢?
- 4节约成本四大要素保虚拟化最大收益
- 5应用集成架构中ESB有何用武之地?
- 6业务流程管理能否破解外贸erp效益困局
- 7不要给CRM贴金 CRM不是包治百病的灵丹妙药
- 8打造优秀高层团队的三个步骤
- 9服装供应链信息化管理解决方案
- 10领导破坏问责制的10种方式
- 11中国企业战略执行常见的问题及解决策略
- 12推动制造业管理信息发展博软外贸erp应用方案
- 13外贸erp开发代码
- 14普通高校校园办公网软件整体解决方案
- 15电信运营商如何征服云计算?
- 16行业信息化:IT分销行业如何成功应用CRM
- 17好用的外贸管理系统有哪些特性
- 18广域网再虚拟
- 19CIO如何利用和经营信息系统
- 20信息IT规划的三大视角
- 21基于单层BOM的产品族配置管理研究
- 22用户对自主平台最关注三个因素
- 23饱受实施的困扰如何评判外贸erp的成功与失败?
- 24解析SaaS与CRM的三大冲突
- 25公司全面预算管理的三个基本问题
- 26跨境电商erp采购系统
- 27社交网站向ERP渗透
- 28客户关系管理:CRM项目流于失败 数据质量是根本
- 29战略管理会计的主要内容和操作运用
- 30基于企业战略的人力资源规划
成都公司:成都市成华区建设南路160号1层9号
重庆公司:重庆市江北区红旗河沟华创商务大厦18楼