[原创]数据通讯故障拷问IT服务应急方案
昨天公网的服务器硬盘出现故障,逻辑卷Offline导致客户的数据通讯无法操作。
7:00 服务台一上班就开始接到客户的报修电话,在其后的时间里服务台电话铃声此起彼伏,仿佛令人置身于战时指挥部。话务员忙的都无暇他顾;
8:20 运维部的主管将此问题通知到负责服务器维护的主管;
8:30 服务器维护人员远程维护无效;
8:45 维护人员到达现场处理,发现硬盘故障无法运行。采用的是更换备份机的方式;
10:30 解决服务器故障;
13:30 发现数据通讯之后存在1月9日的配送信息。问题管理开始着手解决此项问题;
14:00 客户的报修明显减少。
从7:00至14:00故障的解决持续了7个小时。全市3000多家客户因为此次的硬盘故障问题都无法进行数据通讯。
幸运的是我们没有这方面的考核,否则不知道会不会因为这个故障和处理的时间而影响到年底的服务考评。
事件得到控制,虽然不能说是及时,但也没造成严重后果。回顾这次意外,听到最多的是:这次硬盘故障无法预料。技术上的无法预测在所难免,但换个角度想:凡事没有无因之果。和维护人员聊了之后,他也说了几个可能导致此次故障的因素:
- 大量频繁的读写操作导致磁盘当机
- 磁盘本身的问题
- 系统本身的问题
- 机房的环境
且不论技术方面的细节,从这些因素看出根据故障产生的原因进行识别和控制才是IT服务人员应该具备的态度。而不是习惯性地认为这些问题根本没法预测或者提前发现。虽然也不能完全通过控制故障原因来达到控制故障的目的,但是至少我们可以通过多方面的控制降低故障发生的几率。
故障发生了,而且很紧急。从管理上应该启动应急方案,这是管理保障。也许在此需要再延伸一下对应急方案的思考。方案有了还不够,一定要演练!愈是责任大的应急方案,愈是要演练。对维护人员形成一个处理的条件反射,防止突发事件发生时紧张带来的手足无措。
最近我们内部也搞一个留单超标的应急方案,自从审批通过之后,就束之高阁。看来也需要拿出来适当地“晒晒太阳了”。
- 1高效知识聚类的E-book系统
- 2名家探讨:重思公司治理
- 3CA确立在全球IT治理领域的领先地位
- 4企业如何在信息化项目中进行项目范围管理(下)(陈倩慈)
- 5AMT专题:管理大讲堂
- 6EVA:公司治理新标准
- 7信息安全治理(一)——创造新的战略竞争机遇
- 8控制“黑箱”现象 信息化建设绩效管理小结
- 9从IT管理到IT治理:专家孙强谈电信信息化管理建设
- 10长沙OA要将管理思想与信息化实践相结合
- 11长沙OA软件的信息发布管理管理系统
- 12专题文章-G国税局的IT治理咨询案例(AMT 邓为民)
- 13OA集成余额及已发送量查询接口与参数说明
- 143Com与西门子建立合作关系
- 15控制业务:遵守SOX法案-IBM的解决之道
- 16湖南暖通工程管理软件口碑好
- 17信息安全产业分析:SOX法案的启示
- 18如果我们寻找VC投资,我们用什么资本去让VC对我们投资?
- 19短信信息机实现OA办公系统短信发送的功能
- 20建立良好公司治理中国企业启动新课
- 21IT项目管理的关键——IT治理(周瑛)
- 22信息安全治理(四)——创造新的战略竞争机遇
- 23再谈业务流程智能(三)(AMT研究院 王艳)
- 24在功能上,哪款OA办公软件比较好?
- 25公司门户的12个关键功能(AMT研究院 陈岚 编译)
- 26项目管理成熟度模型(二)(AMT研究院 郑佳)
- 27SOX法案对IT带来的影响
- 28企业医生照“CT”-企业信息化供应商症候系列(二)(蔡雨阳 李际)
- 29oa办公系统-湖南友谊阿波罗商业股份有限公司
- 30良好的公司治理结构如何建立
成都公司:成都市成华区建设南路160号1层9号
重庆公司:重庆市江北区红旗河沟华创商务大厦18楼