ILM标准化与实践
信息生命周期管理(ILM,Information Lifecycle Management)是一个相对新的概念。ILM有两个目标:降低管理成本,最有效地利用存储硬件。为了实现这两个目标,ILM需要依靠能够与其协调配合的备份系统。随着信息生命周期管理解决方案的发展,业界不断遇到一些始料未及的问题:由于存储资源管理标准不统一,很多存储系统在实施ILM的时候遇到了障碍。
本期选题介绍了ILM在标准化方面的一些进展情况。并且探讨了使用ILM工具来管理数据的方法和其所具有的商业价值。
无重复备份是ILM成功的关键
为什么需要ILM?
可靠安全的数据存储对实现业务连续性是至关重要的。由于企业对技术流程信息的依赖,数据存储在某种程度上正在成为全球高层IT管理人员和存储系统管理员的难题。而且,金融、医疗卫生等很多行业面对着很多新法规,它们需要与不断发展的法规保持一致,满足这些法规对数据保留期限的要求。再加上企业存储的数据量不断增多,因此管理信息的成本每年有可能增长20%到30%。基于上述原因,经济的数据存储系统和存储管理对企业和IT经理们来说变得极端重要了。
重复备份问题是怎么产生的?
由于媒体的宣传,企业正在认识到,ILM是值得投资的,而且也非常希望用这种新方法提高数据存储管理效率。但是在实施ILM解决方案的时候,企业有可能忘记考虑已有备份系统的影响,从而无法确保无重复数据存储。
一般的备份系统每天会将主存储系统中的文件(关键状态)存储到成本较低的磁盘或磁带上。如果一个特定文件一直保持关键状态,那么每天对其进行备份的过程就会一直持续下去。
ILM进行的数据归档与文件备份是不同的,前者进行归档时,是把运营性的、非关键数据转移到长期存储系统中,而备份则在关键数据归档前将其保护起来。
在不能与ILM解决方案协调配合的备份系统中,不管数据是否已经归档到其他地方,系统都会持续在磁带或二级磁盘上存储备份文件。这样做严重忽视了一个问题: 可能必须管理两套相同的数据,这必然增加成本、影响效率。
如何解决这一问题?
要消除备份系统这个严重的缺陷,一个现实和有效的方法是实施能与ILM解决方案协调配合的备份系统,如分布式备份系统。分布式备份系统彻底消除了每天将关键数据备份到昂贵的磁带上的需求,因此减轻了企业的存储管理负担。
分布式备份系统从网络中的客户机中收集数据,并以压缩和加密格式将数据发送到离站磁盘存储系统中。当数据需要恢复时,系统会按要求检索数据。恢复和检索的过程是完全自动进行的,这确保快速和多路备份,而且无重复备份。这种备份过程效率很高,可以保证用户获得预期的投资回报。
这种可与ILM解决方案协调配合的分布式备份系统,有效利用ILM方案中的指针,可在备份系统或二级存储系统中只保留一份文件。备份系统用指针能辨认出哪些文件已经归档,从而自动从备份磁盘中去除这些多余的文件。由于不存在重复存储和浪费存储空间的问题,因此这种系统提高了成本效益。
在这种系统中,备份到磁盘上的是主存储系统当前的数据,这最大限度地降低了对磁盘存储容量的需求并降低了成本。分布式备份可更快、更经常地进行备份,恢复操作也更简单,同时它还降低了硬件和存储系统成本,减少了每天必须进行的管理工作。
备份文件的存在状态需要单独看待,从产生到保存在不同的存储介质层上,再到备份文件被删除,备份文件的存在状态在不同阶段是不同的。在备份文件的整个存在期中对备份数据进行管理可以称为备份生命周期管理(BLM),它不是只管理主数据,只管理主数据叫做ILM。
ILM迈向标准化
■ SNIA ILM 技术工作组
ILM是一套策略、流程、实践、服务和工具,用来从信息创建之初直到最后被处理,使信息的业务价值和最合适、最具有成本效率的基础设施保持一致。但目前由于存储资源管理标准的不统一,造成了ILM实施的困难。这一困境正期待改变。
SNIA力促ILM标准化
ILM是业务驱动型管理实践,使用信息价值和该信息的处理需求,为数据保存、数据保护和数据安全等服务设定策略和服务级别目标(SLO)。
IT资源需要应对不断变化的业务需求。从业务需求转变为数据处理和数据管理需求,这势必需要业务部门的用户和数据中心的人员进行合作。如何管理数据成为这种转变的重中之重。
数据服务的管理最好作为几项基础服务的集合来加以提供。存储、数据保护和安全等基础服务密切相关,以至于其中一项服务的提供会影响到另一项服务的行为,这可能有助于整个服务提供,也可能有碍于服务提供。因此,通过单一集合来提供服务让数据中心可以为行为、可靠性及性能都能提供预测的服务,提供规划及测试配置模板。
SNIA眼中的ILM
ILM是一套策略、流程、实践、服务和工具,从信息创建之初直到最后被处理,使信息的业务价值和最合适、最具有成本效率的基础设施保持一致。通过与应用、元数据和数据相关的管理策略及服务级别,使信息与业务需求保持一致。
因为ILM的这种定义似乎涵盖了方方面面,我们不妨把定义简化为与SNIA及本文有关的一些方面。ILM提供了使业务需求和基础设施保持一致的手段。从SNIA的角度来看,这意味着必须有一套已定义、标准化的以数据为中心的服务、服务级别目标(SLO)及生命周期管理功能——这些功能支持以业务流程为中心的信息生命周期。同样,必须有一套标准化的属性,以描述异构存储配置的功能及为数据提供服务的相关数据管理功能。
SNIA在ILM方面的工作支持业务流程工作流的定义,包括文档在整个转换过程中的信息状态,但SNIA没有期望定义这方面的任何标准,因为这项工作对其他行业组织来说更合适。同样,使用服务级别目标(SLO)规定计算和网络需求无疑是ILM的一部分,但SNIA也没有期望定义相关标准,这些标准最好由其他行业专家来定义。
本文侧重介绍的内容主要包括:
● 定义标准的数据服务级别目标(SLO),备份、复制和网络存储等存储和数据管理产品可实现这些服务级别目标。这种服务级别目标是一种关键绩效指标(KPI),用来描述数据方面的服务级别,而不是描述应用性能方面的服务级别。正因为如此,它们可应用于各种类型的数据或者应用。
● 存储和数据管理产品的服务聚合,这些产品旨在解决与法规遵从、参考数据和资源分类相关的重要客户管理问题。
● 基于策略的ILM,以便可以在数据生命周期中对数据进行合理分类和保存。这种管理为标准的数据分类定义做好了准备,而且还允许基于应用和内容的分类方法可以驱动数据分类。这种基于应用和内容的分类方法的定义超出了本文的讨论范围。譬如说,对数据进行分类以确定它可能受到哪些政府法规的制约,这就是知识驱动型活动。如果这种活动需要基于内容的分类,那么这项标准工作将可以通过外部分类服务来实现。
数据服务抽象
这项规范引入了抽象级别,如图1所示。这不是什么正式的架构,而是表明了功能的层次结构。
它被分为三个抽象层,外加第四个使用层——业务和管理应用。位于底部的是可通过存储和数据管理产品获得的原始功能。以存储管理为例,许多这些服务自最早版本的存储管理计划规范(SMI-S)以来就有了。
在单项资源上面的是为数据中心而规划的特定配置来组合这些服务。组合存储集(CSS)聚合了存储和服务,它们代表不同配置生成同等功能的特性。这一层还允许根据站点特定的需求和偏好进行定制,并且允许手动及自动创建配置。
数据服务由数据分类、生命周期管理和服务级别管理组成。它在存储行为和提供数据服务级别之间提供了一种转换。应用正是通过这一数据服务管理接口来指定数据需求为服务级别目标(SLO),数据管理层也正是通过这一数据服务管理接口来提供数据服务级别目标(SLO)描述的服务。这个管理接口可用来把数据生命周期作为一组策略加以定义及管理。数据中心的管理员(IT架构师和存储管理员等)负责定义提供数据服务级别和组合存储集之间的关系。实际上,这种层次结构里面的所有关系都基于管理员手动或者随着技术的发展、使用自动化程度不一的管理软件进行的映射。
总的来说,这种层次结构的关键要素包括:
● 数据服务级别目标(SLO)的标准定义: 这一概念为传达作为需求或者作为已定义服务级别的服务级别目标(SLO)属性提供了标准框架。这样一来,就可以独立于满足这些需求的功能,指定数据服务级别。随着功能因技术的进步或者环境的变动而发生变化,现有的服务级别目标属性只需映射成新功能,不会带来破坏。客户端应用使用数据服务级别目标(SLO)来规定数据需求; 数据服务资源管理器使用数据服务级别目标来定义数据服务级别。
● 描述数据和存储服务配置的标准属性: 这一定义专注于预期特定产品配置的性能和行为。负责确定这些预期的是数据中心,而不是厂商开发的工具或者文档。尤其是,这些功能不仅仅代表单一产品的性能和行为,还代表组合产品的性能和行为——为了提供可预测的服务级别,可能需要组合产品的组合配置。这个配置模板提供的“功能”被称为组合存储集。
● 管理数据层的服务: 提供这些服务的根本,主要包括如下功能: 配置、监控及控制数据管理服务,譬如数据备份、数据复制、数据安全和数据移动。这包括基于特定情况及基于策略来执行操作的功能。
● 抽象配置及管理存储层的存储和服务: 这将通过当前及将来版本的SMI-S加以提供。
● 数据生命周期管理策略: 这些策略允许自动化管理与促使服务级别目标(SLO)的变化适用于数据的事件相关的决策。
这些策略来自信息生命周期需求,并指定了数据管理层里面的信息生命周期。
● 数据分类: 这种结构允许数据被组织成数据组以便管理,譬如服务级别管理和生命周期管理等,这可能包括自动化管理数据分类的策略。
概念模型
数据服务资源管理器里面体现了数据服务,图2里面的抽象层表明了这种管理器的诸多组件。这部分定义了与每一个组件及其基础服务相关的基本功能。ILM的“标准化”针对的是这些组件与服务如何衔接,以及每一个管理接口的定义。
数据放置、数据保护、数据安全、存储及存储服务: 这是数据服务资源管理器的各种不同服务。每种服务必须为发现、配置和管理属于数据中心一部分的资源及功能做好准备,以便它们可以作为组合存储集(CSS)的一部分使用。这些原始服务可以作为不同的管理域加以管理,也可以集成到全面管理环境。不同服务通过CSS聚合到单一服务。数据服务还可以直接利用这些基础服务来提供直通式管理功能(譬如复制、删除、使其不可改变)。
组合存储集(CSS): CSS为配置及管理组合已知可以协同工作、提供可预测的服务级别的不同资源做好了准备。CSS通过作为CSS配置一部分的这些资源,为定义预期的行为和性能做好了准备。这表明要用专家知识把资源组合到工作配置中,并用来定义预期行为。CSS模型允许有不同的实现方式: 可以发现及记录数据中心里面的现有配置、由数据中心的架构师手动配置CSS,还可以根据每个对象或者每笔交易,完全自动组合动态选择的资源,以达到数据服务级别目标(SLO)。
数据服务: 数据服务为数据分类、数据服务级别管理及数据生命周期管理做好了准备。数据服务组件为业务和管理应用提供了面向服务的接口,业务和管理应用使用数据服务级别目标(SLO)作为规定服务需求的属性。规定数据需求的服务级别目标集合被称为SLOG即SLO群组。这种需求通常是使用者为了确定数据在生命周期中需要哪些服务而执行的分类流程的结果。
数据服务还可能使用SLO属性来描述数据服务资源管理器支持的数据服务级别(ODSL)。数据服务将管理功能,以管理ODSL和CSS之间的映射。
组合存储集
在为某个数据中心实现应用解决方案时,数据管理功能、存储与用于提供该解决方案的存储服务往往存在密切的依赖关系。组合存储集是一个特定的集合,结合了数据管理功能、存储和存储服务,数据中心的架构师(即IT架构师)在定义提供可预测的数据服务级别解决方案时要用到它们。
厂商和客户都面临的困境就是,不同产品配置的各种组合有可能会带来同等的数据服务级别。在任何一个点评估吞吐量或者可用性并不能足够准确地为不同组合(有时产品配置截然不同)描述总体吞吐量或者可用性。
此外,数据中心管理变化无常,以至于每个数据中心各自都有特定的细微差别,这些差别与厂商、配置及评估方法有关。为解决这些问题,CSS为这项功能做好了准备: 把数据中心的原始功能规范,定制成由数据中心管理的一系列特定配置的功能,这些配置可以在该环境提供特定的服务级别。至少,CSS是一种文档管理方案,可供IT架构师选择可用技术配置,以便可与提供数据服务级别之间来回映射。
数据服务
数据服务由数据分类、生命周期管理和服务级别管理组成。
(1)数据分类
数据分类是把数据组织成数据组,以便管理。分类方案的目的在于,根据数据组对业务的价值以及处理和存储需求,把服务级别目标与数据组联系起来。
数据分类的前身是信息分类,信息分类用于把数据组与特定的生命周期联系起来。一般可通过数据中心、业务部门、记录信息管理员及公司在获取及使用信息方面的其他利益相关者相互协作来获得信息分类方案。图3和图4阐述了这些概念。
(2)服务级别管理
提供数据服务级别(ODSL)发送给使用者,譬如业务和管理应用层当中的电子邮件或者企业内容管理应用,使用目前在通用信息模型(CIM)中实现的“功能”模型。
ODSL功能的属性基于数据SLO的属性,它们与分配数据服务级别目标(SLO)需求时作为“设置”所用的一组属性相同。数据需求的设置被称为服务级别目标群组即SLOG。
服务级别管理提供了创建及管理ODSL及其功能的功能,如图4所示。服务级别管理还提供了这一功能: 执行从数据的SLOG设置到ODSL、从ODSL到CSS的“最佳适合的”映射。
SLOG/ODSL和CSS的目的在于,提供两种“准独立的”抽象: 一种是描述数据需求和服务的特点,另一个是组织管理存储系统功能。通过把数据与SLOG和ODSL联系起来,可以让需求随着时间不断变化,只要重新分配数据与SLOG的关系。SLOG本身保持不变(当然,除非引入了新的目标。)同样,存储层或者数据管理层的拓扑结构、技术或者特点发生变化,可能不会改变CSS本身,只有表明这些CSS如何物理实现的映射才会改变。
(3)生命周期管理
数据生命周期是一种抽象概念,通过使用SLOG和SLOG分配策略来实现。数据生命周期来自并支持信息生命周期。这包括并非事先规划的特定的生命周期事件,譬如“现在运用这个SLOG”。信息生命周期和数据生命周期之间的区别包括:
“信息生命周期”定义了适用于数据的业务需求和业务价值,并定义了可能会在数据生命周期改变价值和需求的事件。这些通过信息以及/或者应用特有的关键绩效指标(KPI)来表达。SMI-S里面没有信息生命周期的模型。
“数据生命周期”定义了在信息生命周期的每个阶段都可以适用的数据SLOG,以及用来把数据转换成初始或者新的SLOG和SLOG分配策略。数据生命周期支持信息生命周期,但通过专门针对数据的术语来表示。数据生命周期是一种抽象概念,通过使用数据SLOG和SLOG分配策略在SMI-S建立了模型。
图5阐明了数据分类、服务级别管理和数据生命周期管理等概念。信息管理层的业务应用生成数据。
进行的“最佳适合”服务级别映射是从数据生命周期每个阶段的所需SLOG映射到提供数据服务级别。如今,这通常通过业务部门的应用管理员和IT架构师或者存储管理员之间讨论或者协商进行。另外,IT架构师定义了从每个ODSL到一个或者若干CSS的一组有效映射,这些CSS能够满足ODSL里面定义的服务级别。
图5中显示为“策略”的SLOG分配策略用来为数据生命周期的每个阶段应用一组新的数据需求。有时,应用新的SLOG会导致映射成新的ODSL,有时不会。同样,映射成新的ODSL可能会导致映射成新的CSS(参阅能够支持两个ODSL的CSS-y),也可能不会。映射成新的CSS可能会有后续行动,譬如数据移动到新的存储位置,还有可以确定是不是该删除数据的SLOG分配策略。
链接:SNIA ILM技术工作组
SNIA(Storage Networking Industry Association,全球网络存储工业协会)ILM技术工作组将开发共享数据管理及相关存储管理服务,这些服务散布于跨越网络存储的应用。ILM技术工作组将定义流程、控制机制及工件,可把数据管理需求(保护和可用性等方面的服务级别目标及策略)映射成数据管理服务。虽然单个应用能够、也可以提供部分这些服务,但ILM技术工作组将满足对一组公用数据和存储管理服务及它们跨共享及使用网络存储的多个应用进行协调的需求。
挖掘ILM的金矿
■Howard Marks
本文分析了运用信息生命周期管理(ILM)工具和实践来管理数据所具有的商业价值,IT人员据此能够制订出统一的ILM方案。
如果说时间就是金钱,那么大多数数据管理员都被透支了。用户需要查看四年前创建的有关销售会议的PowerPoint文档; 法律人员说要尽快处置商业文档。新的法规在不断涌现,要求对数据保留政策进行细微改动。更让人忙得晕头转向的是,要是上头要求你提供与某桩官司有关的所有电子商业文档: 电子邮件、即时通信、电子表格、Word和Excel文件,去年底生效的《联邦民事诉讼规则》规定你只有120天的时间来完成这项工作。
由于时间如此紧迫,你能够从仓库取回所有相关的备份磁带、把内容恢复到新服务器、抽取相关的数据、让律师审查一切内容吗?
我们认为不能。当然,这让涉足数据管理领域的厂商们在一边偷着乐,它们预料到新的电子发现规则会给IT人员带来麻烦。据弗雷斯特研究公司声称,去年,记录管理市场的产值高达2.8亿美元。到明年,预计会增长近500%,增至惊人的13亿美元。
其中许多资金可能会用于ILM应用程序。简而言之,ILM就是IT人员符合“物应各有其所,亦应各在其所”这句老话的法宝。它要求把数据存放在与价值相称的位置,同时,任何特定数据项的价值会随着时间而变化; 不同的访问方法可能适用于生命周期中不同时期的数据项。
辛苦的工作
目前这没有统一的ILM产品。你可以通过以下方法来达到局部目标: 组合电子邮件归档工具及文件管理和数据库归档工具,并且制订全面政策来定义数据(结构化数据、电子邮件和文件等)的商业价值,那样就可以通过与当前值相称的方式来管理数据。但想正中ILM的要害,就需要现在根本还没有面市的技术,譬如复杂的数据分类引擎。
你可以静观事变吗?除非你在数据存储方面的要求极低,并处于相对缺乏监管的行业,否则恐怕不行。当然磁盘仍很便宜,但保留方面的规则,加上文件大小增加了千倍(10年前一封WordPerfect信函只有2KB大小,而现在一个微软Word文件却有2MB大小),这把小公司之外的所有公司推到了再也忍受不下去的地步。
没必要这样。向ILM迁移并不容易,但值得为之努力: 一项针对用户的调查表明,实施了ILM计划的调查对象有四分之三简化了主存储系统的管理,并且减少了高端磁盘方面的开支。
着手行动
如果你现在被淹没在大量信息中,电子邮件归档程序等单点解决方案让你有一点喘息的机会,同时确保你能满足法规要求。在今后两三年内,诸多厂商会提供新一代文件管理系统(包括分类和迁移服务),譬如Acopia Networks、博科通讯系统、NeoPath Networks、Njini和EMC(集成Infoscape和Rainfinity)。
但愿这些厂商会认识到: 占用电子邮件归档大部分空间的是文件系统中也存在的邮件附件,随后为IT人员提供集成这些归档文件的办法。我们在后面测试了一些产品,它们声称可以使用详细、灵活的标准对非结构化文件进行分类、迁移文件,或者为不同的数据迁移引擎提供界面。
最后,管理结构化数据总是不但要依赖数据库服务器环境,还要依赖应用程序的数据库模式和利用率。因而,应用感知(application-aware)的单点产品其效果远远好于任何集成的解决方案。譬如说,Princeton Softech公司的Optim和Solix Technologies公司的ArchiveJinni为PeopleSoft和Oracle财务软件等应用程序提供了模块和政策。
需要付出
ILM项目从头搞起需要投入大量的时间和资金。从人力角度来看,ILM首先是个政策问题。ILM工具把查找数据、迁移到相应存储设备的过程实现自动化之前,企业先要制订相应的保留政策。
启动ILM项目是一笔财政投资。文件分类软件往往会使企业平均花费5万到10万美元。电子邮件归档的成本每个邮箱是10到50美元。不过有些方面的节省起到了抵消作用: 存储设备越来越便宜; 通过删除非活动数据,从而缩减备份和恢复窗口,加快电子邮件服务器和数据库的速度; 另外还能够在几天内满足电子发现请求,而用不着取回磁盘,让几名管理员干上一个月的磁带恢复工作。
邮件首当其冲
美国企业界距离借助电子邮件归档产品实现ILM梦想最接近,譬如EMC的EmailXtender、赛门铁克的Enterprise Vault和Zantaz的EAS,这些产品可以根据时间把电子邮件消息从主数据存储区迁移出去。邮件消息放在辅助数据存储区。在这里,用户能够以半透明的方式访问它们,如果以后企业的数据保护政策需要,还可加以删除。
尽管我们现在认为电子邮件归档这个工具主要用来确保遵从数据保留法规,并提供检索电子邮件消息、跨多个邮箱进行搜索用于电子发现的功能,但这些系统原先的市场定位是作为简化电子邮件管理员工作的工具。因为哪怕是恢复一则消息到Exchange服务器,也需要恢复整个信息存储区,或者以极慢的速度对多个邮箱进行逐个备份,所以管理员有着强烈动机来限制信息存储区大小。
但对用户邮箱规定限额导致用户的.PST文件数量激增,随意删除邮件消息,而且数据管理转到了单个用户手里——而这是极不明智的,因为用户可能会删除属于公司记录的邮件。
大多数归档软件需要Outlook或者Notes客户软件插件,为用户显示“消息已迁移”图标,并且自动从归档文件检索消息和附件。使用Mac和Linux机器的用户可能不具备全部功能。
理想情况下,ILM厂商会集成电子邮件和文件管理工具。因为许多用户在文件服务器上创建文档,然后把文件通过附件形式发送给同事,所以在文件系统和邮件服务器的数据存储区都有同一个文件。如果使用SHA-2等抗冲突的散列算法,集成的文件/电子邮件ILM系统就能够确认这些冗余现象,只保留一份文件,从而节省磁盘空间。
数据库面临的困境
如果拥有数据库迁移引擎,存储管理员和数据库管理员稍加努力,就可以为生产、测试、开发及闲置等数据库分配相应的存储池。不过,说到随着数据老化、价值变小而迁移出去,文件和电子邮件消息具有优势,因为它们在同一地方始终有时间戳(time stamp)。
相比之下,Oracle或者SQL Server数据库里面的行和列可能被时间分离,或者有不同的时间戳,而每个程序组织数据的方式各不相同。因而,对结构化数据进行分类需要应用程序创建的数据库模式和分类引擎具有更密切的关系。
因而,一些数据库ILM解决方案提供了面向SAP这些常见应用程序的版本,从而简化这个过程,譬如EMC的DatabaseXtender、惠普的数据库参考信息管理器和Princeton的Optim。Solix同样有应用程序定义,提供给使用其ArchiveJinni数据库归档软件的客户。
除了随着数据在生命周期中老化而进行迁移外,大多数厂商还有一个模块作为数据库ILM套件的一部分,生成工作数据库的较小拷贝,用于开发及测试。这种微型数据库可能含有一整套触发器和存储过程,一组代表性的数据可能只有主数据库大小的十分之一,这样编程员不必占用数TB的磁盘空间,就可以测试代码。
Oracle的ILM助理(可从该公司的网站免费下载)让数据库管理员可以轻松定义数据生命周期,根据生命周期来分配数据库表。然后它会使用Oracle的表分区技术,把数据从一个表空间的分区迁移到另一个表空间的分区——这另一个表空间位于成本较低的存储层上。因为Oracle分区对用户应用来说是透明的,所以用户觉察不到这一点。
HSM的软肋
上世纪80年代末90年代初,EMC、Commvault及其他厂商试图利用大型机领域所用的分级存储管理(HSM)技术,解决数据生命周期问题。几家厂商竭力推销Windows和Novell NetWare文件服务器采用三层HSM: 根据上一次修改及上一次访问等日期属性,把文件从标准硬驱迁移到光盘库,再从光盘库迁移到磁带库。用户或者应用程序访问时,迁移文件被存根文件(stub)取代,然后从近线存储设备中取回。
HSM似乎是个很好的想法,连微软也把它集成到了Windows 2000中,称之为远程存储(Remote Storage)。
尽管HSM在批处理大型机环境比较成功,但在互动性更强的分布式系统领域却一败涂地。HSM没有流行起来有众多原因——其中许多问题如今仍是ILM的症结。
HSM的最大问题是什么呢?硬驱容量在增加,而成本跌得非常快,以至暂时存储文件、甚至暂时存储到磁盘库上也节省不了多少资金,不值得这么做。许多企业还发现,要对数据进行分类,光有数据年龄这种信息还不够。企业制订了保留80天后迁移的政策,结果用户却抱怨无法打开上一个季度的季末电子表格,因为他们没有足够耐性等待系统从磁带恢复文件。现在这仍是个问题。
存根文件和检索机制也成问题。如果员工试图使用Windows搜索或者Google Desktop,通过查找文档文件里面的客户姓名来查找发到某个重要客户的一封信件,HSM系统就会取回所有文件,这给服务器带来了相当大的负担,或者因没有及时取回文件而导致搜索失败,严重影响了用户体验和工作效率。
不过市面上有一些HSM方案,譬如CommVault的DataMigrator、EMC的Disk Extender和赛门铁克的NetBackup Storage Migrator,它们经常被数据管理系统作为迁移引擎使用,而数据管理系统有自己的数据分类方法。CommVault还在添加数据分类选项,可以根据年龄和内容来迁移文件。
链接:ILM实施三步走之一: 对数据分级
一旦你实施了管理政策,也准备好了电子邮件和数据库,就可以把重点放在生命周期上。这意味着做一条有三条腿的凳子:分级数据、数据分类(通过结合业务流程和自动化分类引擎,对每组数据进行评估)以及迁移引擎(把数据迁移到与当前值相称的位置)。
要是跟大多数IT人士说起分级存储,他们就会想到高性能光纤通道驱动器用于存储宝贵数据、低成本SATA驱动器用于存储价值较低的数据。这只是个开头,但以一种与商业价值相一致的方式来存储数据的关键根本不是从每TB成本来看选择昂贵还是不太昂贵的存储设备。要把存储层看成提供不同的服务级别协议(SLA),而不只是不同的成本:主存储层针对性能进行了优化,经常备份以减少恢复点目标(RPO);并且保持得很小,以便尽量缩短恢复时间。
我们在定义存储层时还要考虑到安全。比如从投资银行业务部门和经纪业务部门一边访问的服务器需要对所有敏感数据进行加密,还要有全面的访问审查及控制手段。
分析在不同存储层之间迁移数据带来的成本节省时,不但要考虑磁盘阵列每GB的原始成本,还要考虑存储数据的全部成本,包括快照和数据恢复副本。以典型的大企业为例:关键的应用程序把数据传送到单一磁盘阵列。阵列经配置后,可以每小时拍一次分离镜像快照,并复制到一个或者多个数据恢复站点;而在数据恢复站点,又要拍快照。这种企业可能会把六个或者更多拷贝的应用数据存放在最昂贵的第一层存储设备上。
如果发现某部分数据在生命周期中基本到了静态阶段,并把它迁移到只有两个拷贝处于联机状态的存储环境——一个在主数据中心,一个在数据恢复站点,可以节省大量磁盘空间。
另外还要牢记:数据在生命周期中逐渐移动时,读写比会大大提高,所以RAID 5或者RAID 6变得更有吸引力,它们与镜像阵列相比存储容量较大、读性能较低。
根据块访问频率,把数据块从高成本、高性能驱动器迁移到低成本驱动器。虽然这可能会对存储数据的原始成本带来一些影响,但它不会对备份和恢复时间带来任何重大影响,因为这些功能是在卷、文件或者数据库等级别上执行的。
链接:ILM实施三步走之二: 确认数据的价值
第二步就是知道任何一部分数据的商业价值。大部分信息在一段时间后会失去实用价值。所以尽快删除这些数据可消除数据泄露的可能性,并尽量减少了成本高昂的搜索工作。
不过,有些文件(譬如有关营销资料和年度报告的归档)在更长的一段时间内具有价值。永久归档里面的数据不需要让用户易于访问,只需要在元数据方面留下一点线索。
确定结构化数据的保留期限比较简单。数据库管理员知道每个数据库有什么用途、如何影响贵公司业务。
确定非结构化数据的保留期限则要难得多。电子邮件就包括发送者、接收者及内容。从Linux的ext3到Network Appliance的WAFL,现代的文件系统保存文件创建、上一次修改及上一次访问日期,同时还保存了“隐藏”、“只读”或者“该文件离线保存”等文件属性。
每个文件还附有安全信息,包括访问控制列表;对大多数系统而言,还附有文件所有者。传统的分级存储管理(HSM)解决方案使用“文件上一次访问”日期作为惟一表明价值的信息源;如果文件在一段时间后没有被访问,就会被迁移出去。
最终,我们会看到足够智能化的分类引擎,能够认出这样的文字处理文档是商业信函:最上面是日期,然后跟着姓名,接下来的6行里面有另一个姓名,最下面的姓名与最上面的姓名相一致。然后它会搜索数据库,看看目标接收者是不是某个客户;如果是,引擎就知道这是需要符合证券交易委员会17a-4规则或者其他法规保留要求的商业信函。
理想情况下,ILM分类引擎还会知道文件的访问频率。遗憾的是,使用普通的NAS和文件服务器系统还无法实现这一点。分类方案厂商有望开发出文件系统过滤器或者类似的代理,使用NetApp存储设备(filer)或者EMC Celerra的反病毒扫描API来跟踪文件访问频率,但这需要在每个被管理的服务器上安装代理。
链接:ILM实施三步走之三: 确定适合的存储位置
最后,数据的存储位置必须与其价值相一致。我们还要决定数据要不要仍可以从初始位置来访问:当我们制订数据迁移政策、规定“把在过去90天没有访问的所有Word文档从用户的主目录迁移到中间归档文件共享区”,你该如何管理用户访问呢?
最简单的情况就是单单迁移文件,然后把它们从主目录上删除。虽然这对IT人员和ILM厂商来说很简单,但这会让用户非常恼火。我们既要迁移数据,又要让所有者可以从初始位置来访问。带内NAS虚拟化设备(譬如Neopath和Acopia Networks的设备)可以把用户访问已迁移文件的请求重定向至新位置,具有真正的透明度,甚至会显示用户目录下实际文件的大小。
我们还可以在初始位置留下一个指针文件(pointer file),让用户的计算机可以从新服务器装入文件。但不同的操作系统对待链接和指针的方式可能有所不同。即便你的工作站全部使用Windows,通过链接打开迁移文件的用户也会保存对迁移位置的更改,这会使这个位置时常变更,会干扰归档文件保留状态和版本。
迁移引擎也会集成到存储管理工具包的其他部分里面,移动文件时,可以更新企业搜索索引;最好与备份程序集成在一起,利用新的文件位置来更新目录。
显然,有许多部分需要组合起来。但另一种情况就是数据无序(data anarchy),眼看着存储成本不断耗用预算。因此,为了向监管部门表明贵公司在诚信经营,制订政策非常重要。甚至一些小步骤也会让你处于有利地位,譬如在实施电子邮件归档、规划将来采购存储硬件时考虑到存储层。 (ccw)
- 1长沙救助站否认殴打暗访记者 称其疑似精神病
- 2泛普OA软件中资产送修的操作页面是怎样的?
- 3多地感受今冬最冷一天 专家称,最冷时段还未到来
- 4重庆打黑至少没收数百亿资产 去向成谜 -2
- 5借力发力360度搜索问世
- 6八地交易所整顿过关 文交所份额化模式前景未明
- 7网站如何防范“上传漏洞”入侵
- 8“云计算”正在改变网络
- 9业务过程执行的7个谬误
- 10昆明机场万名滞留旅客飞离 亲历者:乘客抢飞机
- 11国际油价暴涨暴跌 油价下调窗口或延至下周打开
- 12九大技巧助力管理员设置高效UTM
- 13中非叛军威胁进攻首都 美国宣布撤出使馆人员
- 14OA系统为客户打造“财务预算管理与网上报销”
- 15新安全威胁下2007杀毒软件呈现六大趋势
- 16打造更安全Linux系统
- 17SOA与SaaS两者将在何处相遇?
- 18计世独家:六大技术将科幻变为现实
- 19局域网加快网速妙招
- 20客户做自己OA系统的主人始终是泛普软件的最终目标
- 21ILM标准化与实践
- 222007年最令人失望的九大新兴技术
- 23评估NAS虚拟化实现效果的六个标准
- 24软件管理的开发治理
- 25日拟发表“安倍谈话” 修改历史观
- 26黑客是怎样入侵攻击企业网络
- 27安倍称将改善中日关系 在钓鱼岛问题上绝不退让
- 28重庆打黑至少没收数百亿资产 去向成谜 -3
- 29兰考失火孤儿所创办人引争议 官方由支持变反对
- 30开源的道路 Intel解剖开源商业模式