大规模集群运维管理技术点分析
云OA系统管理在实际应用中会遇到各种各样的问题。作为一名优秀的云oa系统管理员,应该能够应变各种可能发生的问题,为企业带来更多的效益。我们今天为大家总结一下大规模集群运维管理的技术特点,为IT管理员积累应用经验。
首先我们先要明确集群的概念,集群不是泛指各功能服务器的总合,而是指为了达到某一目的或功能的服务器、硬盘 资源的整合(机器数大于两台),对于应用来说它就是一个整体,目前常规集群可分为:高可用性集群(HA),负载均衡集群(如lvs),分布式储、计算存储集群(DFS,如google gfs ,yahoo hadoop),特定应用集群(某一特定功能服务器组合、如db、cache层等),目前互联网行业主要基于这四种类型;对于前两种类似,如果业务简单、应用上post操作比较少,可以简单的采用四层交换机 解决(如f5),达到服务高可用/负责均衡的作用,对于资源紧张的公司也有一些开源解决办法如lvs+ha,非常灵活;对于后两种,那就考验公司技术实力及应用特点了,第三种DFS主要应用于海量数据应用上,如邮件、搜索等应用,特别是搜索要求就更高了,除了简单海量存储,还包括数据挖掘、用户行为分析;如 google、yahoo就能保存分析近一年的用户记录数据,而baidu应该少于30天、soguo就更少了。。。这些对于搜索准备性、及用户体验是至关重要的。
接下来,我们再谈谈如何科学的实现大规模集群运维管理,有以下关键几点:
I、监控
主要包括故障监控和性能、流量、负载等状态监控,这些监控关系到集群的健康运行,及潜在问题的及时发现与干预;
a、服务故障、状态监控:主要是对服务器自身、上层应用、关联服务数据交互监控;例如针对前端web server,我们就可以有很多种类型的监控,包括应用端口 状态监控,便于及时发现服务器或应用本身是否crash、通过icmp包探测服务器健康状态,更上层可能还包括应用各频道业务的监控,常用方法是采用面业特征码进行判断,或对重点页面进行签名,以网站被黑篡改(报警、并自动恢复被篡改数据)等等,这些只是一部份,还有N多监控方式,依应用特点而定,还有一些问题需解决,如集群过大,如何高性能的进行监控也是一个现实问题。
b、其它就是集群状态类的监控或统计,为我们合理管理调优集群提供数据参考、包括服务瓶颈、性能问题、异常流量、攻击等问题。
II、故障管理
a、硬件故障问题;对于成百上千或上万机器的N多集群,服务器死机、硬件故障概率是非常大的,几乎每时每刻都有服务硬件问题,死机、硬盘损坏、电源、内存、交换机。针对这种情况,我们在设计网站架构时需要充分考虑到这些问题,并将其视为常态;更多的依靠应用的冗余机制来规避这种风险,但给系统工程师足够宽裕的处理时间。(如google不是号称同时死800台机器,服务不会受到任何影响吗);这就是考验运维工程师及网站架构师功能的地方了,好的设计能达到google所描述自恢复能力,如gfs,糟糕的设计那就是一台服务器的死机可能会造成大面积服务的连锁故障反映,直接对用户拒绝响应。
b、应用故障问题;可能是某一bug被触发、或某一性能阀值被超越、攻击等情况不一而定,但重要的一点,是要有对这些问题的预防性措施,不能想当然,它不会出问题,如真出问题了,如何应对?这需要运维工程师平时做足功夫,包括应急响应速度、故障处理的科学性、备用方案的有效等。
III、自动化
自动化:简而言之,就是将我们日常手动进行的一些工作通过工具,系统自动来完成,解放我们的双手及枯燥的重复性劳动,例如:没有工具前,我们安装系统需要一台一台裸机安装,如2000台,可能需要10人/10天,搞烂N张光盘,人力成本更大。。。而现在通过自动化工具,只需几个简单命令 就能搞定、还有如机器人类程序,自动完成以往每天人工干预的工作,使其自动完成、汇报结果,并具备一定的专家系统能力,能做一些简单的是/非判断、优化选择等。。。这些好处非常明显不再多说。。。应该说,自动化运维是运维工程师职业化的一个追求,利已利公,虽然这是一个异常艰巨的任务:不断变更的业务、不规范化的应用设计、开发模式、云oa架构变更、IDC变更、规范变动等因素,都可能会对现有自动化系统产生影响,所以需要模块化、接口化、变因参数化等因此,自动化的大规模集群运维管理,是运维工程师的核心重点工作之一,也是价值的体现。
【推荐阅读】
◆云oa运维工程师现状与未来展望
◆大型网站运维管理特点介绍
◆云oa系统工程师技能与素质概述
◆合格云oa系统工程师应该掌握哪些技术
- 1七大策略轻松搞定企业云oa管理
- 2云oa管理维护技巧之揭开固定IP地址无法上网之谜
- 3云oa运维管理安全重要性分析
- 4云oa系统服务业务目标介绍
- 5云oa系统服务目录重要性解析
- 6云oa系统管理服务应用技巧分享
- 7中国云oa系统外包服务市场趋势浅析
- 8我们为什么需要云OA办公?
- 9平安城市运维管理变革之道
- 10云oa管理员工资低是怎么造就的?
- 11云oa系统管理标准ITIL破解运维难题
- 12云oa系统管理软件功能特点介绍
- 13云oa系统管理定义详细内容介绍
- 14云oa系统管理标准支持如何实现
- 15网管员基础知识:桌面系统恶意软件处理七要素
- 16xPON云oa运维方案不同之处分析
- 17云oa系统ISO20000标准作用介绍
- 18云oa系统服务标准制定速度快
- 19从中国云oa系统管理现状看企业高效管理解决之道
- 20现在哪里有比较好用的云OA平台?
- 21IT桌面运维服务具体工作介绍
- 22云oa管理基础知识:如何分析云oa异常流量
- 23网管员管理经验:七大技巧经验助您管好云oa
- 24云oa系统管理三个基本概念:ITIL、ESM和ITSM
- 25解析云oa系统管理与BSM:IT部门的ERP
- 26云OA和OA系统是一大一小的两个概念
- 27云oa系统管理技巧:BTNM使ARP病毒无处可藏
- 28网管员选购网管软件的标准有哪些?
- 29云oa系统管理服务方式介绍
- 30云oa系统工程师发展前景如何