两招解决IT运维日志管理难题
长久以来,日志管理都是上网行为运维工程师不可回避的工作,它不但可以跟踪上网行为基础设施活动,更是回答故障是否发生、如何发生、何时发生、在何处发生的最佳答案。但不断增加的设备与网络行为产生了令人难以控制的海量日志,告警信息更是成百上千,而仅凭人工进行管理,几乎成了一件不可能完成的任务。
日志监控也有“狼来了”
考虑到日志管理本身所具有的功效,收集日志数据及进行分析,通常被认为是上网行为运维最具常态的工作之一,更是防祸于未然的有效手段。但这种常态任务一旦超出工作负荷,不但在“量”上面无法完成,还很有可能在“质”上影响上网行为运维管理的有效性。
赵蒙,某市信息网络中心的运维工程师,虽说头顶着上网行为光环,但他却备受日志监控的煎熬,过着“苦行僧”一般的生活。网络中心不但要负责电子政务数十个业务系统的运维保障,还兼管其他委办局业务系统监控的工作,不论白班或是夜班值守的同事,所有人都有一项工作必不可少,这就是“检查日志、评估和处理告警事件”。为了提高工作效率,在大家群策群力之下,许多针对操作系统或者是数据库日志系统的自动处理脚本被一一开发出来。但这并没有让运维监控压力得到缓解,网络设备、服务器、网络流量,甚至数据库的警告信息,成千条日志信息堆积在一起更本没法判断问题的根源在哪里?在这种情形下,赵蒙渐渐疲态化,放弃了努力,每次在巡检表格上胡乱填上几笔,草草了事。
针对上网行为运维管理人员这种常态化的工作方式,泛普软件认为:“管理人员如果每天只能按部就班的面对每一台服务器、网络设备,逐个去检查它们的状况,或者从几千条日志中找到有价值的内容,确实需要耐心、细心和责任心。但由于工作量巨大,很多时候人们开始习惯“狼来了”的心态。此时,如果没有对某条告警日志背后的隐患彻底查验,看似正常的业务系统则可能由此轰然倒塌。但是,借助泛普软件智能化的运维平台,则可以实现自动处理海量日志、主动挖掘故障线索,不喊“狼来了”,即使“狼”真的来了也不惧怕。“
“两招”化解日志管理难题
日志用来记录用户操作、系统运行状态,是一个运维系统中重要的核心部分,它直接关系到系统出现问题时定位的速度。对日志的观察和分析,能提前发现系统可能的风险,避免线上事故的发生。为了帮助赵蒙早日摘掉“日志控”的帽子,泛普软件运维管理专家传授他“两招”最实用的方法,这就是日志管理中的“广度、深度”。
第一招:用“广度”拒绝漏网之鱼
日志范围够不够广,是拒绝漏网之鱼,走出成功的第一步。为此,赵蒙可以借助泛普BTIM 上网行为综合管理平台,将网络、安全、机房、桌面、服务器、数据库、中间件、应用、业务等各个方面监控起来,对所有设备的性能、各类数据流进行自动采集。随后,他可以使用批量告警设置功能,进而屏蔽差异项,在缩短告警规则设置时间的同时,从上百条告警规则中解脱出来,只维护十分之一的告警规则,大幅降低了告警规则维护的复杂度。
第二招:用“深度”追击故障根源
日志管理不能是孤立的,否则它在主动运维方式中就没有任何意义。为此,泛普BTIM包含了强大的信息关联展示、分析能力,管理人员可以在业务管理上综合不同领域的业务相关“关键参数”,判断具体故障性质、位置,直接调用各个管理组件定位故障点。一旦发现危险事件,TFS管理系统将可以依据业务实际流量路径,按照分析需要,逐层扩大数据采集的深度和广度,层层深入,直达故障根源。
事件监控、日志分析,这些上网行为运维管理中的“自动化”,谈起来容易,真正实现却并不简单。实际上,整个上网行为基础架构,有很多不同的组成部分构成,有很多不同的信息,而自动化也是上网行为运维管理逐步发展演进的过程。从赵蒙带领大家编写自动处理脚步,到对整个上网行为管理作业流的自动控制,这些技术上的改变都是在追求着:实现智能化的运维,解放人力!
在本案例中,看似只在日志管理上前进了一小步,但恰恰反映出运维体系向着成熟迈出了一大步,摆脱这种低水平的循环,将使得上网行为 运营更加高效,让时间变得更有价值。以赵蒙为代表的运维工程师们,从此更可以不再千篇一律,“狼来了”的故事也不再有人提起。
【推荐阅读】
◆上网行为运维管理专区
◆上网行为运维管理者如何在DT时代玩转数据分析
◆如何完成远程排除网络故障
◆孙永杰:本土软件企业的对手不是“老外”
◆网管软件专区
本文来自互联网,仅供参考- 1CIO如何应对2013大数据元年
- 2CIO必知:IT省钱那些招儿
- 3交换机VLAN两种汇聚方式详解
- 4IT运维管理如何迎接云时代的到来?
- 5IT运维管理经验之基础搭建架构的弊端
- 6企业如何应对BYOD的10大副作用?
- 7上网行为管理系统的标准功能
- 8IT运维管理经验:用两台电脑来提升效率
- 9网络管理维护技巧:如何会让IP地址永不冲突
- 10网管软件选择四大要素
- 11SDN距离实际应用还有多远?
- 12网管经验实例:交换机频繁掉线的分析与解决
- 13网管员必知:常用电脑密码破解
- 14网络管理十大注意事项
- 15孙永杰:本土软件企业的对手不是”老外“
- 16网络管理维护经验:操作系统慢的原因
- 17大数据:如何让信息安全从被动走向主动
- 18怎样才算是一个合格的IT运维工程师
- 192013年IT招聘市场10大趋势 整体乐观
- 20IT运维管理经验:VLAN的配置管理与维护
- 21网络安全管理经验:常见病毒手工清除方法
- 22如何确保IT系统管理员在五年后有饭碗
- 23IT系统管理的终极规章化
- 24网络分段的优缺点及挑战
- 25IT管理系统运维秘诀:如何提高个人知识与经验积累
- 26产品与方案
- 27网络管理维护技巧:通过系统权限法来清理木马
- 28企业网络管理技巧:五步管好局域网带宽管理
- 29如何应对大数据洪流
- 30Nest遭黑客破解 物联网安全问题堪忧