IT运维管理关键技术点解剖
运维关键技术点解剖
1、大规模集群管理问题
首先我们先要明确集群的概念,集群不是泛指各功能服务器的总合,而是指为了达到某一目的或功能的服务器、硬盘资源的整合(机器数大于两台),对于应用来说它就是一个整体,目前常规集群可分为:高可用性集群(HA),负载均衡集群(如lvs),分布式储、计算存储集群(DFS,如googlegfs,yahoohadoop),特定应用集群(某一特定功能服务器组合、如db、cache层等),目前互联网行业主要基于这四种类型;对于前两种类似,如果业务简单、应用上post操作比较少,可以简单的采用四层交换机解决(如f5),达到服务高可用/负责均衡的作用,对于资源紧张的公司也有一些开源解决办法如lvs+ha,非常灵活;对于后两种,那就考验公司技术实力及应用特点了,第三种DFS主要应用于海量数据应用上,如邮件、搜索等应用,特别是搜索要求就更高了,除了简单海量存储,还包括数据挖掘、用户行为分析;如google、yahoo就能保存分析近一年的用户记录数据,而baidu应该少于30天、soguo就更少了。。。这些对于搜索准备性、及用户体验是至关重要的。
接下来,我们再谈谈如何科学的管理集群,有以下关键几点:
I、监控
主要包括故障监控和性能、流量、负载等状态监控,这些监控关系到集群的健康运行,及潜在问题的及时发现与干预;
a、服务故障、状态监控:主要是对服务器自身、上层应用、关联服务数据交互监控;例如针对前端webserver,我们就可以有很多种类型的监控,包括应用端口状态监控,便于及时发现服务器或应用本身是否crash、通过icmp包探测服务器健康状态,更上层可能还包括应用各频道业务的监控,常用方法是采用面业特征码进行判断,或对重点页面进行签名,以网站被黑篡改(报警、并自动恢复被篡改数据)等等,这些只是一部份,还有N多监控方式,依应用特点而定,还有一些问题需解决,如集群过大,如何高性能的进行监控也是一个现实问题。
b、其它就是集群状态类的监控或统计,为我们合理管理调优集群提供数据参考、包括服务瓶颈、性能问题、异常流量、攻击等问题。
II、故障管理
a、硬件故障问题;对于成百上千或上万机器的N多集群,服务器死机、硬件故障概率是非常大的,几乎每时每刻都有服务硬件问题,死机、硬盘损坏、电源、内存、交换机。针对这种情况,我们在设计网站架构时需要充分考虑到这些问题,并将其视为常态;更多的依靠应用的冗余机制来规避这种风险,但给系统工程师足够宽裕的处理时间。(如google不是号称同时死800台机器,服务不会受到任何影响吗);这就是考验运维工程师及网站架构师功能的地方了,好的设计能达到google所描述自恢复能力,如gfs,糟糕的设计那就是一台服务器的死机可能会造成大面积服务的连锁故障反映,直接对用户拒绝响应。
b、应用故障问题;可能是某一bug被触发、或某一性能阀值被超越、攻击等情况不一而定,但重要的一点,是要有对这些问题的预防性措施,不能想当然,它不会出问题,如真出问题了,如何应对?这需要运维工程师平时做足功夫,包括应急响应速度、故障处理的科学性、备用方案的有效等。
III、自动化
自动化:简而言之,就是将我们日常手动进行的一些工作通过工具,系统自动来完成,解放我们的双手及枯燥的重复性劳动,例如:没有工具前,我们安装系统需要一台一台裸机安装,如2000台,可能需要10人/10天,搞烂N张光盘,人力成本更大。。。而现在通过自动化工具,只需几个简单命令就能搞定、还有如机器人类程序,自动完成以往每天人工干预的工作,使其自动完成、汇报结果,并具备一定的专家系统能力,能做一些简单的是/非判断、优化选择等。。。这些好处非常明显不再多说。。。应该说,自动化运维是运维工程师职业化的一个追求,利已利公,虽然这是一个异常艰巨的任务:不断变更的业务、不规范化的应用设计、开发模式、网络架构变更、IDC变更、规范变动等因素,都可能会对现有自动化系统产生影响,所以需要模块化、接口化、变因参数化等因此,自动化相关工作,是运维工程师的核心重点工作之一,也是价值的体现。
2、运维中关键技术点解剖(比较实际,现实中的案例,今天先想出这几条,如大家有其它感觉兴趣的,可以提出,一起交流~)
1、大量高并发网站的设计方案
2、高可靠、高可伸缩性网络架构设计
3、网站安全问题,如何避免被黑?
4、南北互联问题,动态CDN解决方案
5、海量数据存储架构
【推荐阅读】
◆上网行为运维管理专区
◆怎样才算是一个合格的上网行为运维工程师
◆上网行为运维工作师需要什么样的技能及素质
◆网站上网行为运维管理经验探讨和心得分享
◆网管软件专区
本文来自互联网,仅供参考- 1网络管理技巧七则
- 2IT运维服务管理中知识管理的概念及方法
- 3上网行为管理系统:超六类网线的四种阻燃等级
- 4网络管理维护技巧:防火墙配置中主要命令解析
- 5超五类双绞线与六类双绞线区别在哪里?
- 6网络管理员经验:如何应对网站备案被注销
- 7IDC发布2013中国IT安全市场10大预测
- 8两招解决IT运维日志管理难题
- 9倡导绿色能源,泛普软件助力风电开发企业
- 10公有云和私有云评估的5个核心原则
- 11光纤监控:安防管理的全新发展方向
- 12网管经验:宽带路由器死机掉线原因分析
- 13大数据:如何让信息安全从被动走向主动
- 14网管必备技巧:如何跟踪IP地址
- 15企业是否应该将上网行为管理系统迁移到802.11ac?
- 16IT运维管理经验 统一存储管理如何实现
- 17企业该如何进行高效的IT运维管理
- 18上网行为管理系统
- 19CIO关注的2013年五大IT趋势
- 20网络运维管理技巧之:小处着眼 降低企业网络运维工作负担
- 21网络管理维护基本知识:病毒和木马的区别
- 22网络运维管理的好帮手:IIS日志
- 232013年数据中心五大趋势预测
- 24大数据中心日常维护工作总结
- 25节能交换机和服务器真的是趋势吗?
- 2613大已被揭穿的IT安全管理谣言
- 27网络技术前瞻:5G的四大关键词
- 28企业网管员如何监控公司网络健康运行
- 29工资核算提升现代经济的运行效率和价值
- 30数据中心网络渐成瓶颈 内核舱式创新从小起步