高性能计算 遭遇四大瓶颈
由于高校“越来越有钱”,也由于硬件的大幅降价,“高性能计算”在高校已进入普及阶段。但回过头来看,让昔日神秘昂贵的大机器成为高校堂前燕容易,真正发挥出这些设备的作用,却有很长一段路要走。“很多高校开始热情很高,现在反倒徘徊观望起来,因为不少学校买了以后用得并不好。”山东省高性能计算中心副主任栾峻峰说。
“分散”瓶颈
“高性能计算发展到今天,资源分散已成为应用瓶颈,当务之急是进行资源整合,建立起集中式高性能计算公共服务平台。”南京航空航天大学网络信息中心主任袁家斌直言不讳。袁家斌向记者介绍,这几年高校的高性能计算平台大都是“各自为政建起来的”,有条件的院、系纷纷上马,这些分布于高校各学科的机器犹如一家一户的小发电机,自发自用,结果是既造成了资源的大量闲置,又囿于各自的计算能力办不成大事,如今到了“该考虑一下集中供电的问题了”。
譬如物理系与化学系都需要高性能计算设备,买不起大的就各买一台小的,完成一个计算任务得一个小时。如果两个系合起来买一个大设备,10分钟就能完成同样的计算任务,还可以对外接活,既提高了机器使用率,又可节省机房、设备、电费乃至维护人员,何乐不为呢?况且任何设备都有个使用周期问题,计算机更新和降价的速度又特别快,闲置不用很快就贬值甚至成废铁一块了,因此如何在有限的时间里最大限度地利用设备,是每个用户都得思考的问题,“整合计算资源已是众望所归”。
河海大学网络信息中心主任江红证实了这一看法。她说河海大学已经有4个计算机集群(Cluster),分布于4个系,“利用率都不太好”,现在想集中起来做一个公共服务平台,利用校园网搞成一个校园网格。“我们为此专业成立了一个网格与高性能计算研究所,校领导亲自挂帅来做这件事。”
江苏省高校的高性能计算,最早是南大气象系5年前搞了一个超级计算平台,之后又有学校陆陆续续建了一些分散的小型集群。但据了解,这种规模的计算很难做成大事。周会群教授认为,现在的高校虽然比过去“有钱多了”,但分散使用还是不行,只有“整合”才能真正实现高性能计算。他说,科研上的突破是衡量一流大学必不可少的标准,高性能计算则是当今科研离不开的工具,“很多现象在实验室做不出来,只能通过计算机模拟环境,验证假想结果”。
譬如长江三峡大坝是按“能够经受百年不遇的洪水冲击”这个标准设计的,如果遇到百年不遇的洪水大坝会怎样――你不可能把大坝毁了做实验,只能通过计算机模拟。这类高水平试验,对计算能力的要求是很高的,小机器只能“大概模拟”,大机器才可以做到“精确模拟”。可见,从应用需求看,突破“分散”瓶颈正当其时。
在南京大学网络信息中心主任陈俊良看来,计算资源整合的好处还在于,它可以让维护人员专业对口,人尽其才,调动其积极性。“高性能计算平台需要专人维护,而具体的专业院系只认专业成果,计算机维护人员的工作得不到认可,把他们放到高性能计算中心去做公共服务,专业对口,这些人更能获得成就感。”
个性化瓶颈
计算资源集中,必定带来与多样化需求的矛盾。“上海的超级计算中心有1000个结点,但公众用户的需求各不相同,你有没有多样化的软件来满足不同需求?”袁家斌说这个问题在高校同样存在。尤其是综合性院校,高性能计算的应用模式会因学科而异,“搞流体力学的、搞纳米分析的、搞量子化学的和搞计算机科学的,对高性能计算的要求和操作方式都不相同”。可商业软件的开发是追求规模经济的,如果找不到一个平衡点,这些千差万别的个性化应用就会碰到另一个瓶颈,我们姑且称其为个性化瓶颈。
山东大学计算中心主任龚斌告诉记者,高性能计算在高校最短的一块板子是“应用编程”。他解释说,要让一个应用模型在高性能计算机上跑起来,需要对软件作并行开发,这就是“应用编程”。以往做这件事,都是老师或研究生自己动手,但他们并不情愿,认为“我的专业不是这个,我搞完了算什么”?让ISV(独立软件开发商)来做也有问题――这种软件太个性化,“开发出来卖不了两三套,养不活”。这个问题还没有满意的解决办法。山东省高性能计算中心是把中心建在山东大学软件学院,就近让软件工程硕士们做这件事,“这也是一种资源整合”。
袁家斌提出的思路是:虽然“集中计算”是趋势,但也不能一刀切,在“大集中”的前提下,自家搞一个小的集群也有必要。“太个性化的应用放在自己家里做,大规模的计算拿到计算中心做。要在集中与分散的矛盾中找到一个平衡点。”他还认为,高校搞并行计算中心,目的不是为了赚钱,但也不能是免费大餐,应该遵循少量收费原则。刚开始需要政府或学校扶持一把,走向良性循环时再放手。
另一块短板子是管理工具软件。“高性能计算用户普遍面临‘怎么用’和‘怎么管理’的问题”,栾峻峰说。对公众的“集中计算”固然好处很多,但管理难度也显而易见,包括你怎么计算(用户)用了多长时间,占用了多少内存与硬盘空间,不同时间段的使用如何收费,如何监控集群每个结点的运行情况,现在还找不到一个完善的管理软件来做这件事,需要厂商和用户之间进一步磨合,一起研讨解决办法。
人才瓶颈
把一个大型应用变为计算机可以处理的模型是件很复杂的事,相关人员既要通晓专业,又要懂数学和计算机,“但目前国内这样的人才少之又少,学物理的就知道物理,搞计算机的基本不问物理是怎么回事,”周会群说,“复合型人才的匮乏,导致我们可以很快地把硬件系统建起来,应用却跟不上。”
这个问题涉及我们的教育体系和教育理念。在国外工作了十多年的周会群对此有切身体验:“要说学习,中国学生个个优秀,考试都得高分,但解决问题的能力,与西方学生却有不小的差距。”我们的中学走应试教育的路子,学生们把大量时间花在解那些很蹊跷的难题上。大学阶段大家想的是如何把学分修满,不肯下功夫铺宽知识面,轻视审美和实践教育,三年级四年级又忙于找工作,没多少心思上课了。国外中学则很重视学生的能力训练、思维方法训练和工作方法训练。录取一个大学生,除了看学习成绩外,还要看你有没有社会工作的经历,做没做过社会调查,有些什么设计与发明,等等。“复合型人才就是这样培养出来的。”
我们现在一讲计算机人才,想到的就是中科院计算所或各个大学的计算机系,“这也是个偏差”。搞计算机的人对其他学科并不熟悉,他能搞一个集群系统出来,至于上面的应用怎么跑,不是他的事。“其实应用涉及到各行各业,是一个综合系统工程,需要方方面面的人才。” 周会群说。
认知瓶颈
高性能计算项目投入产出倒挂,是专家们议论最多的话题。“在一些高校,高性能计算项目建成后利用率还不到50%”,南京师范大学地理信息重点实验室工程师叶春说。有的计算中心甚至“不要一分钱”给人做项目,惟一的要求是“有了成果给我们宣传一下就行”。造成此问题的一个重要原因,是认知上的误区。
第一,盲目攀比,所谓“人家有了,我们也要有”。有些学校斥巨资买设备主要为申请科研项目或写论文。项目拿到了,文章发表了,设备利用率也下来了,一半的钱打了水漂。解决的办法,一是坚持需求驱动。像美国宇航局的大型计算机集群,就是为解决航天问题而建的。二是分步实施,平滑过渡。譬如南师大地理信息实验室先把各个项目组的计算资源集中起来,第二步争取成为学校网格的一个结点,为周边服务。三是购买服务器注重性价比,不追求档次最高。“买浪潮服务器只需国外产品一半的钱,却能马上使用起来”,叶春说。
第二,斤斤计较机器价格,忽略服务。栾峻峰告诉记者,购买高性能计算设备过份计较价格不是好事。“集群与PC不同,PC出问题影响的只是一个用户,集群出问题要影响一大片。”再就是要舍得花钱买服务。采购招标,一个150万元的项目被压到120万元,他说“我省了30万元”,岂不知省下的是服务费用,这一“省”,机器的性能有一半就挖掘不出来了。常州狮城普兰普公司总经理万丰说。在这方面,中外用户对比强烈,外企不仅认服务,还把硬件与服务的价格剥离开来,把服务分成不同的等级,因为需要动用人力的服务一定是有偿的。中国什么时候能走到这一步,用户就真的成熟了。
来源:CCW
- 1有效的流程改进法必须包含的要素
- 2中国企业如何进入全球采购系统
- 3连锁便利企业的信息化与方法
- 42014年互联网投资行业OA软件展望
- 5苏宁走过11年信息化建设旅程
- 6外购会对创新带来什么冲击?
- 7数据分析的5大技术走向
- 8如何实施操作系统迁移
- 9IT支持人员应对方案细节了如指掌
- 10ABC系统跟踪作业成本核算
- 11知识管理是一种持续的实践
- 12企业服务器互通的价值
- 13管理集成是技术集成的先导
- 14不识水性的民企如何趟过信息化的河
- 15用IT协调CRM和SCM
- 16ERP与OA能迸出什么火花?是OA终结ERP,还是ERP终结OA?
- 17推动PDM本身的发展和完善
- 182004年技术投资价值回顾
- 19IT项目需要周全的交流计划
- 20给绩效管理一个宽容的环境
- 21中小企业VoIP部署指南
- 22“无线”模式也可绕道快行
- 23小资料:企业需要了解的IT投入回报
- 24从最基本的方面掌握业务流程的实质
- 25渠道别搬起石头砸了自有产品的脚
- 26APS算法分析之七分解技术(DT)
- 272005年网络与交换技术标准重点圈定
- 28反思竞争情报系统建设中的十大疑虑
- 29数字纸张技术及其应用前景
- 30杰姆克莱克公司的ASP经营模式
成都公司:成都市成华区建设南路160号1层9号
重庆公司:重庆市江北区红旗河沟华创商务大厦18楼