系统运维人员如何解决突发性故障?
任何计算机系统都有出现故障的时候,可能发生在测试阶段,也可能发生在系统刚刚上线,还可能发生在已经稳定运行很多年的系统上。这些系统出现故障所带来的负面影响可大可小,小到一个终端的软件无法使用,大到整个系统瘫痪……企业网络想要固若金汤是上网行为部门梦寐以求的目标,作为系统运维人员,应该如何解决这些突发性故障问题?
记一次突发性故障
作为一名上网行为运维人员,工作中最常发生的系统方面的故障是很正常的一个现象,并且你永远也不会知道下一次故障发生在什么时候,如果公司的系统运维已经做的比较成熟了,系统底层还比较强健,真正出问题的就都是系统之上的"应用",由于每种应用不同,所以并不是太好谈哪一种应用会经常出问题。
不过,在前不久,这位技术达人的公司发生了一次较大故障,故障成因很简单,就是由于空调物理机损坏,导致多台服务器过热,部分业务中断。在更换新的空调之后问题得以解决。当然,在没有更换之前,当时也采用了一些"笨办法",比如使用大功率的风扇、开启机房的排气窗等等,暂时缓解了空调损坏造成的不良影响。
故障处理那些事儿
出现故障的同时必然会造成一些业务的中断,可想而知,若是故障得不到及时的处理,那么公司网络将会处在一个"瘫痪"的状态,这将是很可怕的事情,后果不堪设想。幸好九叔所在的运维团队发现问题很及时,在机房中安装有温度报警系统,温度达到阀值后会给相关运维人员发送短信。比较棘手的是,这次故障的根本原因是空调坏了,而不是常见的断电、瞬间电流过大等情况。由于出问题的这个机房的服务器没有线上业务,因此实际造成的损失并不大,但是影响不太好。
对于类似故障处理,大概遵循以下几个大的方向。
1、收到报警或定期巡检;
2、检查是否误报;
3、确认报警内容属实进行相应处理;
4、检查是否有预案,如有则按照预案处理,如无则尽快联系厂商处理,同时对此事备案。
在处理问题环节,如果在自身团队无法处理的时候,会及时和厂商联系,获取更专业的支持。
故障后的思考与总结
俗话说,吃一堑长一智,出现故障不可怕, 可怕的是不能从故障中得到一些经验教训。九叔谈到:"对于系统运维来说,不仅仅要关注软件层面的问题以及运维,同时对于基础上网行为建设也要有一定的了解,最起码要知道出现问题应该找谁解决。随着现阶段技术的发展,我们不可能做到一个人对所有技术面面俱到,那么在无法解决问题的时候,如何找到解决问题的人,应该是每一个系统运维人员所必须要了解的。
空调故障的问题偶然性很强,但是依然有方法避免,那就是采取硬件服役到一定年限后更换,而不是等它彻底损坏后再更换。但是这种方法会带来很多额外的费用支出,一般来说,在企业中推行这种方法需要上网行为部门有一个强有力的后盾去支持才能较好的达到预期效果。
还有一点是值得注意的,不管具体是什么故障,做好预案和备案最重要,以防止这种问题再次发生,或者再次发生后,也可以极为快速地去解决问题。
改编自51CTO
本文来自互联网,仅供参考- 1室内综合布线如何选用光缆?
- 2工资核算实现流程型企业的信息化建设
- 3网管必知:IP协议、ARP协议和RARP协议
- 4有线网络即将被上网行为管理系统终结?
- 5企业网管员如何监控公司网络健康运行
- 6WLAN速度优化策略大放送
- 7IT人,如何帮企业进行合理的信息化建设
- 8云南省肿瘤医院高效IT运维为健康保驾护航
- 9上网行为管理系统工作原理:魔法背后的技术
- 10安全管理系统建设管理需求
- 11网管须知:Wi-Fi的十大误解
- 12企业网络管理技巧:五步管好局域网带宽管理
- 13宽带路由器死机的四大原因
- 14网络分段的优缺点及最佳做法
- 15网络运维管理技巧之:小处着眼 降低企业网络运维工作负担
- 16高手亲历:远离培训机构才能做好网络运维
- 17IT管理系统运维秘诀:如何提高个人知识与经验积累
- 18孙永杰:本土软件企业的对手不是”老外“
- 19产品与方案
- 20IT运维管理瓶颈分析
- 21虚拟化环境下的云安全规划与实施
- 22泛普软件护航专利商标复杂网络运维安全
- 23网络安全技巧:五大技巧保障网络安全
- 24简化企业数据中心的运维管理系统软件
- 25测试工程师面试宝典
- 26网络管理员知识:服务器机房维护与管理详谈
- 27你知道如何节约存储成本吗?
- 28数据中心网络渐成瓶颈 内核舱式创新从小起步
- 29IT运维管理知识:打造企业安全门面技巧
- 30Gartner:2020年企业必须拥抱大数据