如何管理大规模集群的软硬件资源
全球超级计算机Top500榜单让人们重新对Linpack值、对最快计算机等话题燃起热度,中石油东方地球物理公司研究院处理中心总工程师赖能和在2009英特尔高性能计算研讨会上从用户的角度告诉我们,除了超级计算机的运行速度和规模,系统的软硬件资源管理也是摆在面前的一个困难的问题。
问题的提出
赖能和在研讨会上的演讲中介绍说,东方公司的集群软硬件资源已形成规模化,需要科学的管理办法,过去几百颗CPU很好管理,现在几千颗、几万颗CPU的话再用原来的方法就不适用了;同时应用效率低下,运营成本快速增长以及生产与设备的安全问题也在困扰着他们。
目前东方公司有将近1.5万颗CPU、大概28014个核的大型集群,占据了整个中石油所有核数的46.2%,因此遇到了很多困难:
1、 机柜很多,节点也很多,坏了也不清楚,使用情况无法及时掌握;
2、 存储阵列很多,无法做预防性维护;交换机也很多,出现网络问题后很难判断在哪里出现问题;
3、 数据交换机很多,出现问题后很难判断出问题出现在哪里;
4、 没有科学、合理的调度和管理手段
赖能和表示,PC集群计算理论峰值和实际应用效率和性能差距很大,各家公司都在大规模投资。东方公司从2004年的将近一个亿,一路飙升至2008年的1.47亿,不仅投入庞大,折旧也很严重,BGP每年从2006年开始折旧达4000万,2007年八千万,2008年就突破一亿了。
不仅如此,运营成本也居高不下。2005年,BGP的电费在330万左右,这一数字到了2008年升至1101万。同时,生产与设备的安全问题也开始逐渐显现出来。
如何解决问题
为此,BGP引入了数字化管理技术,着重在以下四个方面加强资源的管理:
1、开发数字化管理软件平台,实现所有运行项目的数字化管理;
2、开发CPU资源管理平台;
3、开发从存储和网络管理软件,实现所有存储资源的远程集中监控;
4、开发UPS、空调实时监控软硬件,确保设备安全:这几天北京温度很高,数据中心也出现了报警,机房温度出现了问题;
对机房的安全,赖能和称,每个机房的关键位置都有摄像头保持一个月的监控。
对HPC需求的展望
赖能和在会上从BGP的实际应用中向大家阐述了高性能计算的发展趋势:
1、 多核CPU技术的刀片已成为HPC的发展趋势;
2、 GPU技术为地球物理高密度运算和可视化处理带来新的机会:随着地震软件商的支持,有可能会使可视化处理、解释系统、叠前偏移、速度建模等变得更有效率;GPU将加快计算、数据、信息可视化,实现图像分析、模式识别等的完美结合,问题出在没有软件支持;
3、 高密度多路服务器技术将成为地震综合解释研究新的应用平台
4、 万兆以太网将给HPC的发展带来新的生机:2011年和2018年会出现大的技术变革
5、 高效能绿色数据中心建设成为新的热点:开发和应用自适应节能降耗管理软件,动态调整服务器运行状态,一年可节约电费几百万;应用虚拟化技术提供集中管理和移动办公
6、 复杂地震成像等技术的发展与应用将需要更多的GPU。
赖能和表示,未来三年在BGP用于地震数据处理CPU核数至少需要增加1.5倍,也就是说,2012年底CPU总核数将达到5W,这将给高性能计算带来更大的挑战。(chinabyte)
- 1重庆OA客户
- 2成都OA客户
- 3贵阳OA软件行业资讯
- 4北京OA行业资讯
- 5深圳OA行业资讯
- 6南京OA行业资讯
- 7南宁OA行业资讯
- 8昆明OA软件行业资讯
- 9厦门OA行业资讯
- 10合肥OA软件行业资讯
- 11郑州OA行业资讯
- 12上海OA软件行业资讯
- 1Windows系统安全模式下查杀病毒方法
- 2虚拟化用于IDC机房,只是十全九美
- 3SaaS不能够吃大锅饭
- 4云备份市场 服务商多种方式吸引用户
- 5房地产建筑风格定位、主力户型选择等功能介绍
- 6IT技术防范信息安全的“A型流感”
- 7SOA在云计算中具有重要作用
- 8OA办公系统流程审批自由流程解析
- 9Google新功能:政府管控数据搜索
- 10服务器安全维护的三大纪律
- 11浅析云计算安全的法律弊端
- 12绿色计算悄然起航 新标准应运而生
- 13用写入卸载技术降低日益庞大的能耗开支
- 14澄清云计算概念 解析云计算现状
- 15以色列国防部老兵看云计算的安全问题
- 16如何利用缓存服务器来负载均衡
- 17系统重装防再遭病毒侵袭 五大注意事项
- 18沈阳泛普OA信息化策略与实现方案
- 19中间件已成信息系统整合集成利器
- 20给企业配置可升级 Web 缓存方案
- 21存储业依然蕴含机会 五家厂商受关注
- 22IDC:数据保护工作需应对五大挑战
- 23企业无线与有线网络一体化部署应谨慎
- 24中小企业已成云存储服务最大用户群
- 25数据中心虚拟化反而增加IT部门负担?
- 26大型集团公司OA办公系统如何选择
- 27协同OA软件对区域市场现状及其趋势判断
- 28大规模网站系统架构技术原理解析
- 29企业如何部署和监控虚拟环境?
- 30性能局限:固态硬盘的另一面