2006年商业IT五大黑镜头
没有可以轻视的IT细节
仅因一颗马钉的脱落,导致了一名骑士的摔倒,一名骑士的摔倒导致一位国王的死亡,一位国王的死亡导致一场战役的失败,一场战役的失败最后导致一个帝国的灭亡。这则有关细节决定成败的西方谚语有了中国版本。
2006年3月2日14点10分,当天运行平稳的沪深大盘忽然发生了罕见的大跳水,在7分钟内,上证指数跌去了近20点。此后几天,市场参与者再也没有了暴跌前的乐观。沪深大盘也以连续大跌迎来了一次大级别的调整。股市中数百亿元的财富灰飞烟灭,无论是个人还是机构投资者都在这次莫名的大跳水中损失惨重。虽然股市的调整有其内在的一些必然因素,但这些因素是否起作用,许多时候取决于是否有“马钉”的存在。业内分析人士认为,在消息面平静的情况下,扮演此次上证指数风云突变的“脱落的马钉”就是当日下午上海证券交易所(下称上证所)IT系统的故障。
据悉,在当日下午,刚上市的招商银行(下称招行)认股权证由于成交量巨大,导致其行情显示时总成交量字段溢出,致使其总成交量显示异常,并使招行权证价格在股票分析软件上成为一条不再波动的直线。这种现象让市场产生了恐慌,以为发生了突发性的灾难新闻事件,导致市场抛盘汹涌而出,带动股指发生了两波快速下跌。当日收盘,上证指数下挫1.6%,成为今年以来最大的跌幅日之一。
小小的一个显示字段出错,导致了整个IT系统的故障,引发了一场严重的恐慌,使数百亿元的财富缩水。不过,这种由于IT产生的细节失误而导致严重后果的现象,并不是偶然现象。以金融业为例,据统计,近年全球已经有多起因为IT系统故障导致金融市场大动荡的现象发生。去年末,在短短的40天内,东京证券交易所(TSE)由于交易系统软件升级出现问题导致两起重大事故,致使投资者蒙受了重大损失。事后,除有关方面责成东京证券交易所对交易系统做全面检查以外,其系统提供商富士通公司(Fujisu)还对自己的相关高级工作人员进行了处罚。
还有一个典型的例子来自纽约证券交易所(New York Stock Exchange,下称纽交所)。2005年6月的一天,IT通信故障造成纽交所停止运行四分钟,引发了交易厅的一阵混乱,纽交所被迫取消了所有交易。场内人士后来透露,问题是由负责交易所市场数据信息发布以及维护计算机交易系统的证券行业自动化公司(SIAC)造成的。确实,由以上事件可以看出,IT在成为证券业及其他金融业基石与支柱的同时,其细节上的得失也正同时成为企业和社会危机的根源之一。今日之事,他日之鉴。3月2日上证所“招行权证”事件所敲响的警钟,不仅仅是为上证所的IT主管所鸣,同时也是为所有企业的首席信息官(CIO)而鸣。
不打无准备之仗
对于IT项目负责人来说,一个全新项目的上线挑战性极大,如果不做好全方位的准备,没有考虑周全各种潜在的风险,以及没有将系统调试到最佳状态的话,新项目初次上线往往会面临非常多的麻烦。
2006年7月,第一期电子式储蓄国债在全国范围联网销售,就遇到个让系统管理人员措手不及的大麻烦。由于是首次发行新型的电子式国债,而且数量有限,吸引了全国众多的购买者,在全国各地,购买者从开售当日一大早就排起了长队,场面十分火热。但是开售没多久,多家银行系统出现故障,购买者无法登录购买电子国债,有些银行销售系统由于长时间中断从而错过这短短几个小时的销售,更是让苦苦等候多时的购买者空手而归。
此次国债全国代办网点一起通过财政部的系统抓数,代理银行不受数量的限制,各地投资者先购先得,售完即止。正因为这样,对各地银行的系统提出了很高的要求,一旦系统出现问题,就无法满足当地购买者的需求。中国银行、中国农业银行(下称农行)以及交通银行(下称交行)都出现了不同程度的系统故障,农行系统中断长达5小时,而交行一些支行不但无法办理购买国债业务,甚至连储蓄等其他业务也无法办理了。
中央国债登记结算有限责任公司则表示,国债公司发行系统端一直保持正常,而且此次发售国债数量远未达到系统负载峰值。问题出在哪里?业内人士认为,目前许多银行都在自行开发系统,各银行间开发水平有差距,加上电子国债属首次发布,又是随机抓取机制,这其中系统连接的带宽限制与短时间内海量数据的处理对销售系统来说都是极大的考验。如果之前不做好充足的风险压力测试以及连接准备,的确很容易出现问题。这次事件之后,到10月发行第二期电子国债时,中国工商银行下属一支行表示,第一期国债发行时系统不稳定,导致很多客户买不到国债,到第二期时,该支行所有窗口都可以办理电子国债业务,分散了客户的流量,系统运行也非常顺利。看来,在接受了一次教训之后,各大银行也都有了经验,想出各种应对措施,努力打好有准备的仗。
“有备”不一定无患
IT的集中管理往往被看作是解决信息孤岛、提高运行效率的有效手段。然而集中之后的IT系统“牵一发而动全身”。因此在集中之时,还需要多留一手,不仅仅是建设备份系统,也要真正用好备份系统。典型的案例发生在2005年10月,中国民航信息网络股份有限公司(下称中航信)的主机故障导致全国数个机场航班延误。从10月10日13点32分起,由于中航信离港系统的主机出现技术故障,导致广州白云机场、深圳机场、北京首都机场等机场的离港航班受到影响,出现不同程度的延误。事故发生后,部分机场启动了自主开发的离港备份系统,并且采用人工方式为旅客办理登机手续及行李托运手续。当天14点16分,中航信离港系统恢复正常,但是影响直到晚上才逐渐消除。
在中国,绝大部分机场的离港系统都由中航信提供,实行数据集中管理。这种集中管理保证了全国所有机场的离港业务在标准以及操作规范上的统一,但同时如果中航信的系统发生了故障,则很容易波及到多个机场。事实上,中航信的离港系统发生故障并不是第一次。今年1月11日,由于中航信位于北京总部的服务器出现故障,就曾经造成成都双流机场离港系统“瘫痪”近40分钟。这种故障是不可避免同时也是不可预料的,因此建设一个完善的备份系统和备份制度就显得必不可少。
在航空这个高度依靠信息技术的行业,灾难备份系统的建设并不落后,在这次中航信的系统故障中,各地机场也同时启用了备份的离港系统,但航班延误的情况仍然较为严重。据某航空公司人士透露,此次虽然受影响的机场都切换了备份系统,但由于许多数据仍然需要与北京进行传送,这中间可能出现了很多信息错误的情况,使得备份系统的作用没有充分发挥。由此可见,备份系统不应该是“备而不用”,不是建设了备份系统就能高枕无忧,围绕备份系统切换的一整套流程同样需要保证万无一失,否则“有备”也并不一定能够无患。
没有外围的技术缺陷,只有核心的管理缺失
中国银联股份有限公司(下称银联)网络瘫痪的后果远比想象中严重。2006年4月20日10点56分,银联网络系统因主机原因出现了“大面积”的瘫痪,导致北京、上海、广州、江苏、浙江、福建等18地的银行卡不能跨行交易,据不完全数据统计显示,34万家商户以及六万台ATM机因此受到影响。近年来,由于系统故障而引致的银行卡跨行交易中断并非首次,不过仅限于小范围地区,这次受影响的持卡人、商户以及交易中断时间达到银联成立以来之最,也是金融系统之最。就此,银联在事隔6天之后发布了极其含糊的官方说法,表示“故障原因是由于银联新近准备上线的某外围设备的隐性缺陷诱发了跨行交易系统主机的缺陷,使主机发生故障。”
但同时银联又强调,这个结论还有待相关厂商的专家进一步确认。11月底,《信息周刊》记者电话采访银联询问最终结果。银联声称,虽已查明故障原因,但考虑到这属于银联内部的筹划,而且涉及的技术细节过于专业,用户可能难以理解,因此拒绝透露“主机致命”的真正原因。
不过,知情人士透露说,原来银联计划在4月25日上线一台新设备,20日上午工作繁忙时段,正当银联技术人员进行测试的时候,系统主机突然出现宕机,导致整个系统瘫痪,全国跨行交易无法正常进行。这一次宕机事件,反映出银联事前对产品测试中可能出现的问题估计不足,并没有估计到系统瘫痪的面积会如此之大、情况如此严重,事先所准备的应急预案只不过是针对小范围的故障的。
一次小疏忽引发了一场意想不到的大事故。受影响企业之一的杭州银泰百货公司信息部负责人金龙发指出:“如果考虑更周全一点,也许问题就不会发生。”关键系统的切换几乎都会选择在交易量最小的时间,如夜间进行,此时万一出现事故,也可将风险降至最低。
由于银联系统瘫痪了近9个小时,时间如此之长备受质疑。一般来说,当主机宕机之后,另一个备份机可以接管系统,保证系统的正常运行,从主机切换到备份机的时间不会很长。业内人士猜测,很可能是银联主机宕机以后,主机冗余不足或者备份机根本没有起作用,或者当初应急系统设计和建设不够理想,又或者是银联新上的系统和原系统有冲突,导致整个系统瘫痪。
不能坐等互联网强盗来“发现”你的致命弱点
2006年9月21日17点左右,作为中国三大域名服务提供商和网站服务提供商之一,北京新网数码信息技术有限公司(下称新网)的域名解析(DNS)服务器出现故障,其名下注册的约有10万左右域名不能访问,部分DNS还被解析到不正确的主机上。
来自新网的数据显示,该公司为超过60万家企业客户提供服务,占据了中国互联网基础服务业务20%以上的市场份额。此次灾难据不完全统计,造成了中国近3成网站从互联网上消失。直到第二天中午,新网才恢复其80%客户网站的正常访问。
尽管新网进行了积极的补救,而且事后新网也证实,DNS服务器出现问题是由于遭到大规模黑客攻击,但是,新网显然没有考虑到用户的感受,并没有就是否赔偿用户损失做出说明及承诺。新网处理此事略显粗硬的态度激怒了部分用户,在新网注册大量域名并在这次事件中被波及的中国网库发表声明,要求新网公开向中国网库道歉,同时赔偿直接和间接经济损失150万元。
互联网基础服务商遭遇网络攻击不是什么新鲜事,因此造成的服务中断事故也有多起。万网、百度等均曾因黑客攻击而导致服务中断。此类事件中,责任认定是最大的难题。在新网断网事件中,新网自身IT系统是否存在漏洞或操作上的失误,均无法为外人所知,但如果单纯将责任归咎于黑客攻击,显然对遭受损失的用户有失公允。
美国科学家的一项研究表明,似乎无所不能的互联网,却有着“阿喀琉斯之踵”(编者注:阿喀琉斯是希腊神话里的无敌英雄,可一旦被射中右脚后跟,就会轰然倒地。英语中意指致命的弱点。),只要几个关键环节被破坏,整个互联网将在瞬间瘫痪。互联网基础服务提供商时刻都会面临着与新网类似的危机,如何避免造成难以挽回的损失呢?加强自身的系统安全?减少漏洞?保证操作规范?这些也许还不够,公开透明的事后处理方式也同样重要。(informationweek)
- 1业务逻辑VS软件逻辑
- 2CEO如何为信息化定位
- 3制造业ERP选型四大“陷阱”
- 4BI:从空难看“管理驾驶舱”的虚虚实实
- 5BSM升级IT管理
- 6运营管控型管理模式适用的集团公司有如下特点:
- 7编制共赢的“供应链之网”
- 8SOA对外包有何影响
- 9中小企业畏惧 ERP
- 10ITSM项目需求分析的四个关键步骤
- 11实施一体化战略的5大秘诀
- 12何计算信息化的投资回报率?
- 13如何优化电子商务网站?
- 14怎样评估知识管理系统所产生的效益
- 15可管理P2P引入IPTV加速IP化
- 16信息安全运营中心如何运用在大中型企业中
- 17BI助乐百氏把握营销脉动
- 18中小企业还需要什么样的财务分析工具?
- 19中小企业网上“招亲” 仍需人工服务做媒
- 20网络配置系统值得投资
- 21基于ITIL的中小IT企业服务管理模型
- 22关注周转时间和库存收益
- 23警惕BI欺骗
- 242007中国知识管理九大趋势
- 25以IT治理取代经验型管理
- 262006年商业IT8大失误
- 27地图应用会成为下一个金矿吗
- 28如何应用ERP提高汽车企业供应链效益
- 29IT售前精要ICEBREAKER理论
- 30中小企业提防“说客陷阱”