企业容灾如何起步
企业灾难恢复建设似乎是一个成本巨大、技术复杂的工程,如果完全从技术角度考虑灾难恢复建设,企业非常有可能会进入到容灾建设的误区。
企业灾难恢复建设似乎是一个成本巨大、技术复杂的工程,不仅要投入冗余的设备作为备用处理系统,还要考虑诸如使用数据库远程复制或者智能磁盘远程复制之类复杂的技术,付出昂贵的通信线路费用。这种印象让很多企业对灾难恢复项目望而生畏,迟迟不敢投资。是不是每个企业都需要这种技术级别的模式呢?
根据国际灾难恢复行业规范,任何准备建设灾难备份系统的机构,首先应该对自身的工作现状、风险以及随之所遭受的业务影响有清醒认知,并应尽可能多地考虑到所有可能的风险,同时还需要分析关键性的业务功能,以及这些功能一旦失去作用时可能造成的损失和影响,这就需要对机构的物理环境进行调查研究,并进行相应的风险分析 (Risk Analysis, 简称“RA”)和业务影响分析(BusinessImpact Analysis, 简称“BIA”)。
为什么要做容灾需求分析
信息系统灾难恢复的建设是针对高风险、小概率事件准备的,对于准备建设灾难恢复系统的用户来说,应如何启动灾难恢复系统建设,投入多少才能有效保护企业的资产并避免浪费呢?
我们都知道,企业的损失和业务中断时间之间存在关联,业务中断时间越长,企业的损失就越大; 同时,恢复数据所需的时间越少,业务处理服务中断的时间就越短,所需方案的成本就越高。根据经验,业务中断损失和中断时间之间可以用曲线表示出来,同时方案投入和恢复时间的关系也可以用曲线表示出来,这两条曲线之间的关系如图1所示。
图1中两条曲线的交点是最隹投资点,在这一点上可以实现投入和收益的平衡点,结合用户可以容忍的损失数据和中断时间,从而制定企业的灾难恢复策略和预案。那么在规划灾难恢复策略和方案时,这一点对应的时间和最隹投资分别是多少呢?这需要进行灾难恢复需求分析。
与其他信息系统建设一样,灾难恢复系统的建设也面临着无限需求和有限资源、有限投入之间的矛盾。灾难恢复系统的建设绝不是简单的数据复制或生产系统的克隆。和其他IT系统建设一样它也必须以服务于业务为目标。
有限性 鉴于灾难恢复系统的启用和切换是一个小概率的事件,灾难恢复系统投入的效率必然很低。作为临时性的代用系统,对于灾难恢复系统的投入必然和生产系统的投入存在一定差距。而企业往往希望在灾难发生时,能够在最短的时间内获得与灾难发生前没有差异的信息系统。如何利用有限的资源满足灾难发生时的业务需要是灾难恢复系统建设必须做的。
关联性 灾难发生后,IT系统的恢复必然存在这些问题: 用有限的资源恢复不同的系统和业务的次序; 灾难恢复系统与其他企业互连互通的要求。灾难恢复系统不是一个孤立的系统,其内部也存在对恢复资源的依赖性和优先级的协调,必须合理地处理好灾难恢复系统的这种外部和内部的关联性才能够保证其有效运作。
连续性 在灾难发生后,灾难恢复系统作为临时性替代系统,必须保证持续的服务提供能力,直到生产系统完成重建和回退。灾难恢复系统提供服务连续性的时间越长,建设成本会越高。如何合理地确定灾难恢复系统的持续能力也是灾难恢复系统建设需求分析的重要内容。同时,灾难恢复系统完成建设后,必须保证持续的更新和维护才能够保证灾难恢复系统的长期有效。
如何分析企业存在的风险
风险分析是标识信息系统的资产价值,识别信息系统面临着自然的和人为的威胁,识别信息系统的脆弱性,分析各种威胁发生的可能性,并定量或定性描述可能造成的损失。通过技术和管理手段,防范或控制信息系统的风险。
信息系统灾难恢复的风险分析主要根据企业机构现状和业务特点,全面识别并分析影响信息系统正常运行的风险因素,并分析这些因素发生的可能性。风险分析的范围主要考虑企业所在地区范围和与之在经济、业务上有紧密联系的邻近地区的交通、电信、能源及其他关键基础设施遭到严重破坏后企业所面对的可能性风险,同时还需要考虑企业信息系统中断所造成的系统性风险。系统性风险是指企业不能开展业务,造成的各种社会影响和损失。
所有的风险都应纳入企业的风险分析范围,并且应对各种风险的可能来源进行较准确的定位。而对于每一种风险的来源都应该认识到: 风险的类型; 风险的程度; 风险发生的可能性。
信息系统风险分析的范围
脆弱性是对信息系统弱点的总称。脆弱性识别是风险分析中最重要的一个环节。脆弱性识别可以从环境、网络、系统、应用等层次进行识别。脆弱性识别的依据可以是国际或国家安全标准,也可以是行业规范、应用流程的安全要求。在分析企业信息系统面临风险的脆弱性时,主要从以下两个方面考虑:
技术脆弱性。如物理环境、应用系统的安全问题;
管理脆弱性。包括技术管理和组织管理两个方面。
风险计算是采用适当的方法与工具确定威胁利用脆弱性导致信息系统灾难发生的可能性,主要包括: 计算灾难发生的可能性; 计算灾难发生后的损失; 计算风险值。
灾难发生造成业务中断,可能造成的损失主要包括: 直接经济损失; 间接经济损失; 负面影响损失。
风险分析的过程
对于要建立灾难恢复系统的企业来说,如何进行风险分析呢?我们可以按照《信息安全风险评估指南》中所定义的路线图来进行分析,如图2所示:
确定哪些系统存在风险 企业中存在着业务系统、财务系统、邮件系统等各种系统,风险评估者需要确定对哪些系统进行分析。比如,是对IT系统进行分析还是对非IT系统及部门进行分析。
确定风险分析目标 风险分析阶段应先明确分析的目标,即风险分析所要实现的功能,同时设置合理的期望值,为风险分析的过程提供导向。
之后要确定风险分析团队; 确定风险分析方法; 获取用户高层的支持。
资产分析 资产是具有价值的信息或资源,是企业风险分析所要保护的对象。它能够以多种形式存在: 无形的、有形的,有硬件、软件,有文档、代码,也有服务、人员等等。机密性、完整性和可用性是评价资产的三个安全属性。
经过分析,得到企业相关的资产清单后,有必要对资产进行分类以区分不同资产的重要性,为下面制定灾难备份策略提供依据。
威胁识别 造成威胁的因素可分为人为因素和环境因素。识别信息资产面临的威胁后,还应该评估威胁发生的可能性。风险分析团队应该根据经验或者相关的统计数据来判断威胁发生的频率或概率。
脆弱性识别 脆弱性识别也称为弱点识别,脆弱性识别主要以企业资产为核心,从技术和管理两个方面进行,所采用的方法主要有: 问卷调查、工具检测、人工核查、文档查阅、渗透性测试等。
风险计算 经过前面的风险分析步骤,分析团队己经对企业的资产、威胁、脆弱性进行了识别和赋值,下面考虑如何计算风险。对于如何计算风险,不同的标准制定了不同的计算方法,可以参照《信息安全分析评估指南》的风险计算原理来计算风险值。根据风险计算得到的风险值,企业应制定相应级别的防范措施以有效削减或降低风险。
风险分析是业务影响分析和制定灾难恢复策略和预案的前期准备条件,以便在策略制订和预案制订时更具有针对性,考虑因素更为全面,规划的实施成本会更合理,从而有效地保护投资,获得更大的投资回报率。
如何计算风险造成的业务影响
风险分析完成后,会得到企业一系列存在风险的业务系统范围,业务影响分析则是对这些存在风险的业务系统的功能,以及当这些功能一旦失去作用时可能造成的损失和影响进行分析,以确定企业关键业务功能及其相关性,确定支持各种业务功能的资源,明确相关信息的保密性、完整性和可用性要求,确定这些业务系统的恢复需求,并为下一阶段制定灾难恢复策略提供基础和依据。
分析系统的业务影响,一般采用和风险分析相似的方法,即主要采用问卷调查、人员访谈、会议讨论等方法,而能否制定适合企业情况的调查问卷和实施流程是业务影响分析能否成功的关键,业务影响分析需要从两个方面来收集相关的信息: 业务系统情况; 业务中断影响/损失。
分析人员根据这些信息,凭借自身的专业经验进行以下分析:
业务功能 通过分析企业各业务系统的基本情况、职能、流程等相关信息,根据用户主要的服务职能目标,确定支持业务开展的信息系统功能,为后期制定灾难恢复预案时各业务系统恢复顺序的排列和不同恢复等级下所需恢复业务系统的分类提供依据。
业务影响分析指标设置 针对业务系统不同的方面,需要制定不同的业务影响分析指标。业务中断的损失分析主要从财务影响和非财务影响来进行分类。对于财务影响,我们可以根据企业所处行业的类型和规模来分级,以判定其业务中断和时间的关系; 而对于非财务影响,则只能采用定性的方法。
业务系统的恢复优先级 为了能够成功完成信息系统灾难恢复需求的分析,使制定的灾难恢复策略和灾难恢复预案更具操作性,在业务影响分析时必须明确各业务系统优先级和业务系统灾难恢复顺序。
通过业务影响分析,可以根据业务恢复需求和业务功能的相互依赖关系及程度, 把各相应业务系统进行排列,得到一个恢复系统优先级,以决定如何制定灾难恢复预案并实施。
确定灾难恢复目标
根据风险分析和业务影响分析,企业已基本了解了自己所存在的各种风险及其程度,以及灾难恢复系统建设的需求、业务系统的应急需求和恢复的先后顺序,最后完成系统灾难恢复的各项指标,并根据这些结论确定自己的需求和灾难恢复目标,这应该包括:
灾难恢复范围 根据业务影响分析确定的业务恢复范围,确定信息系统的恢复范围;
灾难恢复时间范围 根据业务影响分析的结果,确定各系统的灾难恢复时间目标(RTO)要求和恢复点目标;
灾难恢复顺序要求 根据业务影响分析中业务恢复的优先级要求,结合各系统间的资源依赖关系,制定信息系统的恢复顺序和优先级关系;
灾难恢复系统建设规划 根据灾难恢复范围、恢复时间目标和灾难恢复处理能力的要求,结合企业未来发展规划,制定灾难恢复系统建设的项目目标和时间进度目标。并按照进度要求合理规划预算投入。
企业根据上述灾难恢复需求分析的结果和灾难恢复目标,再制定最近给自身的灾难恢复策略。 在此基础上,再进行有的放矢的灾难恢复方案的设计与实施,以达到业务连续性运营的目的。(作者系GDS万国数据服务公司副总裁)
链接一:容灾常见风险分析方法
当前最传统也最广泛的风险分析方法主要是基于知识(Knowledge-based)的分析方法、基于模型(Model-based)的分析方法、定量(Quantitative)分析和定性(Qualitative)分析以及定量和定性混合的分析方法。最近几年也出现了一些分析工具,按这些方法分析的结果同相应的风险分析标准和规范进行比较,它们共同的目标都是找出企业信息资产面临的风险及其影响,以及目前安全水平与企业安全需求之间的差距。
定性分析方法是目前采用最为广泛的一种方法,它与定量风险分析的区别在于不需要对资产及各相关要素分配确定的数值,而是赋予一个相对值。通常通过问卷、面谈及研讨会的形式进行数据收集和风险分析,涉及各业务部门的人员,它带有一定的主观性,但往往需要凭借专业咨询人员的经验和直觉,或者业界的标准和惯例,为风险各相关要素(资产价值,威胁,脆弱性等)的大小或高低程度定性分级。
通过这样的方法,对风险的各分析要素赋值后,可以定性地区分这些风险的严重等级,避免了复杂的赋值过程,简单且又易于操作。
当前最常用的分析方法是定量和定性的混合方法,对一些可以明确赋予数值的要素直接赋予数值,对难于赋值的要素使用定性方法,这样不仅更清晰地分析了企业资产的风险情况,也极大地简化了分析过程,加快了分析进度。
选择风险分析的方法和判断标准,应考虑行业自身特点,区别各自的关注点,灵活制定风险分析过程和分析方法。例如: 对于金融行业来说,丢失数据风险的损失比短时间业务停顿的风险所带来的损失更为严重; 而对于通信行业来说,业务停顿风险带来的损失比少量数据丢失的风险更难以接受。
链接二:确定业务影响的结果
业务功能分类
◆ 关键功能:如果这类功能被中断或失效,就会彻底危及企业的业务并造成严重损失;
◆ 基础功能:这些功能一旦失效将会严重影响企业长期运营的能力;
◆ 必要功能:企业可以继续运营,但这些功能的失效会在很大程度上限制其效率;
◆ 有利功能:这些功能对用户是有利的,但它们的缺失不会影响企业的运营能力。
业务功能
◆ 哪种业务功能对于用户的整体战略是生死攸关的;
◆ 哪种功能在多长时间内失效不会造成影响和损失;
◆ 由于该功能的失效,用户的其他业务功能会受到何种影响,即运营影响分析;
◆ 该功能的失效可能造成的收入影响,即财务影响分析;
◆ 该功能是否会对客户关系造成影响,即客户信心损失分析;
◆ 该功能是否会对企业在行业中的地位造成影响,即竞争力损失分析;
◆ 该功能是否会影响今后市场机会的丧失;
◆ 什么是最大的、可承受的、可允许的失效。
业务功能的恢复条件
◆ 要使该功能连续,需要哪些资源和数据记录;
◆ 最少的资源需求是什么;
◆ 哪些资源可能来自企业外部;
◆ 它与企业其他功能的依赖关系以及依赖程度;
◆ 企业的其他功能与该功能的依赖关系及程度;
◆ 该功能与企业的外部业务、供应商、其他厂商的依赖关系及程度;
◆ 在缺少试验环境的情况下进行恢复,需要采取哪些预防措施或检验手段。 (ccw)
- 1光明乳品制造业ERP系统工程监理
- 2知识管理成功道
- 3如何加强项目计划项目管理文档的管理
- 4采取四阶段方法进行网络风险评估
- 5中国企业IT需求面临六大变化
- 6用IT标准做企业信息集成
- 7武汉有哪几家OA品牌?
- 8让IT规划落地的招数
- 9ERP实施顾问心得分享
- 10规则业务为BI系统添智能
- 11IT领导力
- 12IT整合的"骨头"如何啃
- 13突发事件下的应急财务管理系统
- 14网络运维流程管理平台的建设和应用
- 15网络管理员减负法宝
- 16RFID 是非成败待评说
- 17企业外包三三四原则
- 18拨弄中国RFID市场要脑筋急转弯
- 19人力资源管理软件导购攻略
- 20大众汽车CIO 两步扭转IT外包失败格局
- 21波音787梦幻线三维PLM仿真首次亮相
- 22差异化服务决胜供应链
- 23中小企业别隔着门谈信息化
- 24家具之王两上ERP
- 25“猪”头牵着“羊”尾 信息化快速疾跑
- 26IT服务管理进入后建设时代
- 27武汉OA办公自动化软件的含义是什么,企业如何选择OA?
- 28企业为什么要用OA​系统: OA能实现无纸化
- 29商业流通企业信息化的五个一
- 30哈药1000万ERP变局