监理公司管理系统 | 工程企业管理系统 | OA系统 | ERP系统 | 造价咨询管理系统 | 工程设计管理系统 | 签约案例 | 购买价格 | 在线试用 | 手机APP | 产品资料
X 关闭
泛普博客

当前位置:工程项目OA系统 > 泛普服务体系 > 泛普博客

废墟上的IT故事 CIO谈灾备规则与演练

申请免费试用、咨询电话:400-8352-114

来源:泛普软件

企业对于灾备的认识究竟有多少?看法各不相同:灾备这种事情,就像买保险,绝大多数都是买个心理安慰,发生意外的概率太小了;对于数据灾备,还是有必要的,但对于系统灾备,那简直就是浪费成本;IT这东西,更新换代太快了,要做灾备得充分考虑投资回报……

不难看出企业真正认识到灾备意义的少之又少,绝大多数企业认为灾备的投资是一个浪费,再加上灾备的成本较高,很多企业还是停留在数据灾备层次上。没有充分衡量灾备的价值,了解灾备对于企业生产经营的意义。但经过“5.12”地震后,身处灾区的企业却对灾备有了更加深刻的认识。

地震后仅用了15天,东方汽轮机厂就恢复了生产,这不得不称得上是一个奇迹。在这奇迹背后,支撑东方汽轮机厂迅速投入生产的是IT灾备系统。原来,早在“十五”期间,东汽就意识到灾备的重要性,从那时起就开始了灾备工作。据东方汽轮机厂计算机处处长夏开渝介绍,在灾备工作开始前期大家并没有认识到灾备的重要性,很不理解这样的工作。很多人都不认同企业做灾备,认为投入大、周期长,还不如用这些钱来投入到生产,获得更大的收益。把这些钱花到灾备上,却什么收益也看不到。整个灾备方案论证了很长时间。但是在夏开渝的努力下,灾备工作得以进行。东汽首先从数据灾备开始,逐步过渡到系统灾备,直到2007年底东汽完成了异地数据灾备、系统灾备。

东汽的主信息中心在汉旺,而另一个用来备份的信息中心在德阳,两地相距几十公里。两个信息中心的数据相互备份,但是数据的备份并非实时,而是每天夜里零点自动做增量备份,每周做全备份。对于重要的ERP数据,每天备份,同时做增量备份,一周做一次全备份,数据保留时间为一年。对于非关键数据3天做一次增量备份,两周做一次全备份。

而德阳机房中心的备份仅局限于数据备份,东汽只在汉旺机房内对关键核心服务器做了双机热备。夏开渝对企业级服务器以及PC及服务器分别用不同的软件做了系统备份。就在地震过去整整一个星期后,东汽进入了抗震救灾的第二阶段,将工作重点从救人转向清理废墟、抢救设备和生产恢复。

据夏开渝回忆:“我们汉旺中心的系统都损坏了,当时中心ERP服务器的机柜倒掉了,核心两台服务器也遭受了一定程度的破坏,但经过修复发现仍然可用。这对于我们来说是一个天大的好消息。”因为,不仅这4台企业级服务器价格昂贵,更重要的是他们只是在汉旺进行了备份,并没有在德阳备份。如果这4台服务器出了问题,要恢复原来的信息系统,就必须重新采购新机器、安装软件,程序繁琐,时间周期会很长。

5月18日,夏开渝带领自己的手下就把机房中心的设备全部抢救出来,并在19日将这些救出来的设备运抵东汽德阳信息中心。此时,夏开渝对短期内迅速将信息系统恢复到震前水平已有了一定的把握。夏开渝还清晰地记得,首先自己从硬件恢复工作开始,此期间IBM给予他们很大的帮助,第一时间内无偿提供了急需的硬件。仅用了3天就把磁盘阵列等硬件设施恢复好,之后又用了两天的时间恢复系统和数据,最后一天对所有的系统进行了全面测试。就这样,东汽仅用了约一个星期的时间就把系统恢复到了生产前的状况。

截至5月25日,东汽erp系统、PLM、CAPP、质量管理平台、人力资源系统以及财务系统等全面恢复应用。

同样面对突然而来的地震,华西证券的后台交易系统却能正常运行,除了现场交易系统的损坏。华西证券早在2005年7月就开始建立灾备系统,并在2006年7月份对原有灾备中心进行了扩建。

目前,华西证券在深圳拥有一个异地灾备中心,而在成都总部拥有同城异地灾备中心,一主一备。在此次地震前,华西证券也经常采取一些应急演练,来应对各种突发事件。据华西证券技术部总经理李均介绍:“为了确保业务的连续性,我们经常会过一段时间就把所有系统全部关闭,然后自动切换到异地备用系统进行演练。经过多次演练,整个切换过程需要10〜15分钟时间,业务仍旧顺利运转。”

在地震后的十几分钟内,通讯线路还未中断,李均迅速彻查了手机炒股、电话委托等非现场交易,在确保非现场交易一切正常后,李均又开始向公司领导汇报情况。为了确保业务的连续性,华西证券每个营业部至少都有3套通讯线路与总部联通。这其中有联通线路、电信线路以及卫星线路。正是由于这样的准备工作,使得华西证券即使现场交易因为地震受阻,人们也能通过网上交易以及手机交易来实现。从而确保华西证券从地震发生至今,整个交易持续运转。

地震后的东方汽轮机厂能够在短短15天内就恢复生产,系统很快运转,与其良好的灾备系统有着直接的关系。但是经过此次地震后,夏开渝以及公司的领导也发现了东汽灾备的不足之处,同时对于灾备也有了新的认识。

过去东汽的应用系统数据库的服务器分散度较大,所有服务器都是单应用运行,经过这次地震后,夏开渝认为要把多个数据库服务器做成一个集群。夏经理这样解释道:“这样做的好处不仅在平日灾备的时候可以有效提高速度,另一方面使得灾备的准确性大大提高。地震前的备份,经常会出现一些地方备份不到,给我们灾后恢复工作带来了一定的困难。”过去东汽的灾备有很多人为的因素,需要人工确定哪些地方需要做灾备,哪些地方不需要。经过此次事件,东汽要把所有服务器共享一个磁盘阵列,由过去的10T扩大到30T。

之前东汽在汉旺的总厂区已经无法投入生产,未来东汽会在德阳重新建立一个新厂区,并且在德阳做一个同城异地的系统备份。夏开渝介绍道:“德阳新厂区和原来德阳的旧厂区距离仅有20公里,我们会把现有厂区的信息中心作为新厂区的灾备中心。不仅备份数据,更加强调系统的备份。”

东汽未来IT工作的重点是完善整个灾备系统。对于德阳同城异地的灾备方案,夏开渝也表示了担心:“两个厂区相距仅20多公里,对于普通的火灾、断电问题可以很好解决,倘若再次面临这样严重的地震,这种灾备是远远不够的。”对此,东汽首先会在德阳建立灾备中心,其次会考虑在异地构建一个大型的系统级灾备中心。

夏开渝反复强调:“灾备对于一个企业来说至关重要,虽然说系统坏了可以重建,数据没有了就是致命的损失。但是经过此次地震,让我更明白系统灾备的重要性。”系统灾备对于东汽震后快速恢复生产至关重要,虽然企业有了数据,但是如果没有系统备份,要想短时间内恢复生产,根本不可能。“对于我们制造型的企业来说,ERP的数据至关重要,但是ERP的系统备份更不可少,因为ERP的使用从最初到现在会不断升级,这期间有一个周期。”夏开渝感慨万分地谈道。看来,数据备份只是第一步,企业要想快速恢复“元气”更需要系统备份。

此外,企业的灾备还应考虑到异构系统灾备问题。例如,企业平日使用的服务器很可能与灾备中心的服务器不同,尤其是异地灾备中心。那么,当企业的系统切换到灾备中心时,经常会发现系统一时间运转不了。这时,企业一定要统一平台,做好灾备规划。

过去,虽然每家证券公司都会做一个灾备中心,但是经过地震后,监管机关更明确要求所有证券公司必须有两个灾备中心,一个同城灾备中心,一个异地灾备中心。作为一个高度依赖IT的行业,经过地震对灾备更有了深刻的认识。谈到这一点,李均说:“过去我们的灾备中心只具有主信息中心70%的能力,在性能上会与主信息中心有一定差距,未来我们会加大对基础设施的投入,提高同城灾备与异地灾备的成本。更加注重灾备的高可用性。”

同样在管理上,对于异地灾备,CIO要面临管理的挑战。李均谈到:“CIO需要面临管理半径多长的问题,同时外包又会有信心安全的风险,这是一个不小的挑战。”因为异地灾备,CIO并不能随时掌控所有信息,及时处理各种问题。同时CIO还需要确保灾备系统能够在第一时间启用。对于平日的演练、设备保养、系统运行管理等工作如何来做,需要CIO在工作上费一番功夫。(cioinsight)

发布:2007-04-27 15:51    编辑:泛普软件 · xiaona    [打印此页]    [关闭]
相关文章:

泛普泛普博客其他应用

泛普OA商务合同 泛普OA需求调研 泛普OA实施方案 泛普OA项目启动 泛普网络硬件配置 泛普OA部署安装 泛普流程模板表单 OA系统二次开发 泛普常见问题解决 泛普OA操作手册 泛普软件项目验收 泛普培训推广上线 泛普OA售后服务 泛普新闻 泛普期刊 泛普博客