系统管理员的六大铁律
【编者按】系统管理员们踏上岗位,都已经具备了一些有关系统和服务的知识,如如何搭建生产环境,如何备份,如何监控系统等等,这些知识可能来自学校,可能来自自学。然而在工作了数年之后,系统管理员们对生产环境中的操作又会有了很多新的了解。下面,资深运维专家Paul Venezia为我们总结了他认为系统管理员在生产环境中必须遵守的六大铁律。这是一些学校里不会教的知识。遵守这些规则,你几乎可以解决任何一个问题。
在复杂的数据中心基础设施中,这种能力可以让你通过丰富的经验和自身的知识快速而准确地发现问题之所在。这种能力只可意会,不可言传。没有人会提供和“超自然故障排除”有关的认证的。
但是,那些重量级的问题解决专家都会遵守一些通用的,不成文的规则。这是我自己使用的六个规则。注意,它们适用于大多数情况,但是并不是所有情况。 1、永远不要修改服务器或网络设备的连接接口 虽然这听上去很简单,但是,令人吃惊的是,人们经常会修改他们用于连接到某个设备的网络接口的属性,这种行为的失败率很高。有时,这条规则可能是可选的,但是,如果有一种方法可以排除潜在的隐患,何乐而不为呢?如果你不得不修改这个接口,可以在这个接口上配置一个辅助IP(secondary IP)——通过另外一个设备或子网,串行控制台,KVM等来连接。如果设备放在远程的办公室里(那里没有设备管理系统职员),那么这绝对是一条真理。 2、保证总是有办法回到原点 无论何时,只要有可能的话,都要提供一种可以把问题恢复到原始状态的方法。这意味着,在对故障磁盘做任何修改以前,应该为这个故障磁盘做一个映像,备份整个目录结构(你不可能知道你以后需要哪些文件,这样可以以防万一),或者,在你胡乱摆弄一个已经出现故障的操作系统以前,应该在物理服务器上抽取出这块磁盘的RAID1阵列。当然,在虚拟机环境下,这会更加容易一些,因为你可以简单地做一个快照。 3、文档,文档,还是文档 在所有这些规则中,这条规则也许是大家最少遵守的规则了。毫无疑问,应该把一个问题和解决方法文档化。当你处在混乱状态之中的时候,你的解决方法也许并不明智。这就是说,当一个问题尘埃落定以后,要保留一份“尸检报告”,通过这份报告,你可以重新检查当时那个解决方案采取的步骤和途径。把它写下来,然后把它保存在安全的地方,最好是放到公司内部的wiki上;并且,应该备份到几个不同的地方。 4、在设备管理系统领域,不存在魔法,但是却存在幸运 就像 Thomas Jefferson 说的那样:“我发现我工作的越努力,我就越幸运。”在设备管理系统领域,也是这样的。你花费越多的时间来研究你的基础设施,关注路由器,交换机,服务器和其他设备的特定的工作条件,你的基础设施就会运行的越流畅。这些日常工作可以让你在问题的早期阶段就发现这些问题,当问题真的发生的时候,你可以更加快速地作出反应。另外,在设备管理系统领域,有很多种方法可以“制造”幸运。例如,使用一些工具,让网络设备配置的备份自动化;如果使用这种方法的话,当你的交换机发疯的时候,你可以在几分钟内恢复它,而不是几个小时。 5、在你修改每个配置文件以前,要对它们进行备份 这条规则只适用于Unix服务器和几乎各方面的配置都提供了配置文件的网络设备。在你弄坏敏感的配置以前,首先对交换机和TFTP(Trivial File Transfer Protocol)主机的配置文件进行备份。在Unix系统上,可以简单地把something.conf cp到 something.conf.orig。 在必要的时候,如果想恢复到过去那个良好的状态,只需要简单地把文件拷贝回去,然后重启那个服务就可以了。因为注册表的存在和Windows喜欢把简单的概念复杂化,所以,在Windows系统上,这通常是不可能的。即便如此,你还是可以在胡乱摆弄注册表以前,对注册表进行备份,这样的话,如果天下大乱了。你可以重新导入备份的注册表文件。记住:当你对Windows注册表进行修改的时候,服务器的生命就掌握在你的手中。 6、监控,监控,还是监控 一点点预防工作就可以省去一个月的周末加班时间。你应该对你的数据中心的方方面面进行监控,从房间的温度,机架,和服务器,到服务器进程检查,正常运行时间检查......你还应该为所有网络设备构建一个集中式的日志系统,除此之外,你还应该安装一些趋势分析工具来监控带宽利用率,温度,磁盘空间的使用率,和其他的参数。当这些参数超过正常的阀值的时候,那些监控工具应该通过必要的手段来通知你。 如果在一个数据库由于分区过满而被破坏的一个小时以前,能收到一个email或短信,那么可以省去无数的工作时间和宕机时间。对你的数据中心进行监控刻不容缓。 这些规则不仅仅是需要遵守的规则——在你日常的工作中,这些规则应该是贯彻始终的。在设备管理系统领域中,对于许多人来说,它们是核心理念,但是对于其他人来说,它们是神秘的——有点像忍者。【推荐阅读】
◆设备管理系统运维管理专区
◆系统管理员如何面对角色裂变?
◆系统管理员应该定期完成的九件事
◆强迫症会害死系统管理员
◆设备管理软件软件专区
本文来自互联网,仅供参考- 1好用的智能设备管理系统介绍
- 22013云计算威胁预测
- 3实验室设备管理系统的意义?
- 4IT业界面临的九大最严峻安全威胁
- 5设备管理系统经验:网络安全管理工作总结
- 6设备管理系统维护经验:如何设计不易破解的密码
- 7IT设备管理系统安全解密安全浏览器真相
- 8设备管理系统管理平台分析
- 9设备管理器哪里有?
- 10怎样建立信息网络设备管理台账?
- 11企业为什么需要设备管理系统?
- 12云计算数据中心的运维对象浅析
- 13企业设备为什么要信息化管理?
- 14设备管理系统故障的四大解决方案
- 15数据中心运维管理框架4Ps剖析
- 16新时代好IT人必须掌握的六项技能
- 17企业公有云与私有云安全风险的差异性
- 18智能化设备管理系统的建设意义
- 19设备信息管理系统的功能需求
- 20云计算改变传统IT灾难恢复模式
- 212013年十大急需的热门IT技能调查
- 22企业网络安全管理:IP网络安全管理的主要问题
- 23设备管理系统员经验:路由器怎么设置防止局域网病毒传播
- 24成都智能设备管理系统如何运行?
- 25数据中心设备管理系统的新问题
- 26企业应用云计算的十大理由与注意事项
- 27设备管理系统维护技巧:准确识别应用流量的基本概念
- 28有免费的设备管理软件吗?
- 29企业高效管理设备的数字化工具
- 30数字化设备信息管理系统的功能优势