监理公司管理系统 | 工程企业管理系统 | OA系统 | ERP系统 | 造价咨询管理系统 | 工程设计管理系统 | 签约案例 | 购买价格 | 在线试用 | 手机APP | 产品资料
X 关闭

数据仓库——商业智能的基石

申请免费试用、咨询电话:400-8352-114

来源:泛普软件

1 数据仓库的产生和发展

被称为数据仓库之父的W.H.Inmon在他1990年出版的《建立数据仓库(第一版)》一书中第一次为数据仓库给出了明确的定义,真正把数据仓库上升到一个理论高度。他认为数据仓库的历史是伴随着信息处理领域的决策支持系统(DSS)处理的发展过程开始的,在这个发展过程中,随着计算机技术(尤其是计算机存储技术)的发展和抽取处理程序的流行,一种更大规模的体系结构逐渐勾勒出来。在这种体系结构中,数据仓库处于中心位置。

自数据仓库产生至今,在企业的决策支持要求、企业的竞争要求、企业的商业智能(BI)要求的巨大推动下,作为决策支持基础的数据仓库的运用经历了一个不可思议的快速增长过程,数据仓库本身,包括数据仓库体系结构、数据仓库处理规模、数据仓库性能等也经历了一个快速发展过程,数据仓库的价值也产生了质的变化。

不管企业是如何构建数据仓库的,数据仓库通过在收集信息、决策分析、未来趋势预测、制定战术上、战略上的商业策略等方面的支持力度体现自身的价值。现在在业界,当问到为什么需要数据仓库以及数据仓库的价值或重要性时,回答几乎都是一致的,那就是数据仓库能为企业带来战略优势,尤其是能支持全方位地了解客户,但是在数据仓库使用初期,情况却不是这样的。在过去的十年里,数据仓库的价值得到了快速持续的增长。

如图1所示,最开始时数据仓库只是用来制作一些静态的报表,数据转移到数据仓库中就是为了更好地控制数据以及提高数据查询性能,以方便地出一些能够提供简单信息的报表。显然静态报表不能满足决策的需求,数据仓库开始面向对象设计,以产生智能性的信息,面向对象数据仓库的数据是面向主题组织的,从这样的数据仓库中可以很方便地获取某一主题的信息,这些信息主要是面向企业或部门决策的某一方面,比如客户。当不止一个部门纳入到数据仓库的建设中时,数据仓库开始面向整个企业进行决策支持,这时企业的整体利益是根本。当数据仓库利用于面向企业决策支持时,在数据仓库中加入人口统计学、行为分析等知识后就能够获取充分的信息对客户有一个360度的了解,辨识出有价值的客户,并且能为客户提供他所需的,有效地进行cross-sale和up-sale。这时企业的决策周期也大大地缩短了,从以前的2、3年一次,发展到现在一年2、3次。在分析决策支持活动中,静态报表被多维分析、数据挖掘代替,基于数据仓库中的集成化的智能信息所做的决策影响整个企业,提高整个企业的收入。随着商业的全球化,更多的数据和信息纳入到了数据仓库,数据仓库朝着增值战略又迈进了一步,企业运营策略重点转移到:如何为已有的客户提供更好的服务以及如何拓展客户基础,包括公司的资源配置、企业价值链上所有的资源、新的销售和营销渠道,而客户资料(信息)已经扩展到心理特征、行为特征以及潜在竞争对手,这时的数据仓库面向企业的价值链提供个性化集成的智能化信息。以电信为例,数据仓库在各个阶段所能回答的问题如表1所示。

图1 数据仓库价值曲线

表1 数据仓库在各个阶段所能回答的问题

 

2 数据仓库体系结构

在数据仓库研究领域非常强调数据仓库是一个体系。其实我们可以从两个角度去理解什么是数据仓库:从一种狭义的特定角度来看,如果我们专注的是一个核心,那么可认为数据仓库是一个数据集合,W.H.Inmon的定义也是从这种角度出发归纳出来的;如果从广义上从实践上理解,我们应该把它理解成一个体系结构,一个以所定义的数据集合为中心的、以决策支持为主导的、支持企业运作的IT体系结构。

2.1 数据仓库的定义

数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策,数据仓库包含粒状的企业数据。

(1)面向主题的:数据仓库中的数据是按照商业问题或决策进行组织的,通过这样的数据组织,数据被有效地转化成了信息,而决策分析人员也可以很方便地获得决策分析所需要的信息。典型的主题领域一般包括客户、产品、营销活动、帐单、投诉、帐目等,在数据仓库中主要主题领域是以一组相关的表来具体实现的。主题的确定是数据仓库设计中一个很重要也是很复杂的内容,主题的确定直接影响数据仓库的可用性和价值。一般采用建立企业数据模型的方式确定分析主题,必须和相关的业务分析人员进行反复沟通共同建立分析主题。

(2)集成的:在数据仓库的所有特性之中,集成是最重要的特性。由于操作系统的独立建设,在设计时并没有考虑和其他系统的相关性和一致性,所以当数据进入数据仓库时,要采用某种方法来消除应用问题中的许多不一致性,即进行集成。一般常见的一致性处理有:编码的一致性、度量单位的一致性、描述或定义的一致性、格式或类型大小的一致性等。数据的集成和转换(ETL)在数据仓库实施中是最困难最复杂也是最耗时的。数据仓库的数据源主要是企业的各个应用系统,在进行数据集成和转化之前必须定义记录系统,即必须确定哪些系统或系统中的哪些数据是符合要求的,对此,就必须理解所有的系统和系统中的数据。由于各个系统的建设为事务处理服务的,因此数据组织方式和数据表现形式与用于分析的数据组织方式和表现形式不同,而且形式多样,为了处理数据,必须根据数据形式确定规则,而规则是否全面和准确直接影响数据仓库的数据质量。目前在ETL领域遇到的还有一个问题是ETL的耗时。当为了支撑决策分析的数据越来越多,比如客户的增长和业务量的增长,需要处理的数据越来越多,处理数据的时间必然越来越长,而市场的竞争又对决策支持的响应时间要求越来越短,能否在一定的时间内完成ETL成为数据仓库价值的一个关键因素。调整数据仓库体系结构优化数据仓库性能,提高系统的运行能力,增加硬件投资扩容是一个办法,但不是最终解决问题的方法。新一代业务支撑系统的兴起将为ETL的简化提供很好的支持。

(3)非易失的:操作型系统中一般需要对数据记录进行逐个的增删改操作,而在数据仓库中与操作系统中的数据操作不一样,在数据仓库环境中并不进行一般意义上的数据更新,数据仓库的数据通常是一次载入与访问的,也就是说数据经过集成化处理后一次载入数据仓库的。对于数据的维护,一般采用新增记录。虽然在某些情况下可以采用更新的方式,但是这种情况极少可能。而这并不意味着数据仓库中的数据是一直不变的。其实数据仓库的数据也需要清理,只是这里的清理不是简单地将数据从数据仓库中删除,而是将数据仓库的早期数据转移到更便宜的存储设备上,或者把早期的细节数据进行综合保留。清理数据仓库还有一个重要的内容就是对于休眠数据和脏数据的处理。休眠数据是指那些存在于数据仓库中的、当前并不使用、将来也很可能或者根本就不会使用的数据。脏数据是指那些错误的数据。虽然我们说要确保数据的质量,但是这两种数据都不可避免地会存在于数据仓库中。识别和处理这两种数据是提高数据仓库性能的一个方面,虽然处理起来不是那么容易。在数据仓库构建当初,这个问题可能不是特别明显,但是随着数据仓库的运作,这将成为一个数据仓库管理的重要内容。数据仓库中的数据维护策略是数据仓库实施中的重要内容,维护策略制定的合理性直接影响着整个数据仓库的功能和性能。

(4)随时间变化:操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是有效的,同样当前值的数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。也就是说数据仓库中按时间保留对应的历史数据。数据仓库中的数据总是与时间相关的,在企业模型的基础上建立数据仓库模型的过程中一个重要的内容就是去除纯操作数据的同时加入时间元素。数据仓库的键码结构总是包含某时间元素。在数据仓库中数据记录触发一般是“时间-发生”型的,比如某个时间开始进行数据处理活动。

(5)多重粒度:粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小例如清单级数据;相反,细化程度越低,粒度级就越大,例如月汇总数据或应用汇总数据。显而易见,粒度与数据仓库的性能和功能有着息息相关的关系,它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型:

   ① 数据粒度和数据存储量的矛盾:如果数据仓库的空间很有限的话(数据量总是数据仓库中的首要问题),用高粒度级表示数据将比用低粒度级表示数据的效率要高得多,在高粒度级上,数据进行了很大的压缩。

② 数据粒度和数据处理能力的矛盾:高粒度级不仅只需少得多的字节存放数据,而且只需较少的索引项,低粒度级则相反。小数据量的数据访问效率比较高,而大数据量的数据访问效率比较低,为了有效地访问大量数据,需要系统具有更大的数据处理能力。

③ 数据粒度和回答查询的能力的矛盾:当提高数据粒度级时,数据所能回答查询的能力就会随之降低。换句话说,在一个很低的粒度级上你实际可以回答任何问题,但在高粒度级上,数据所能处理问题的数量是有限的。

因此,为了平衡性能和功能和费用,一般选择多重粒度。所谓多重粒度就是指在数据仓库中既有粒度小的如清单级的数据,又有粒度大的数据,比如汇总数据,汇总力度多大,决定于系统的处理能力和用户的要求。数据仓库中的数据是有粒度层次的(如图2所示)。

图2 数据仓库数据层次结构

 2.2 数据仓库的用户

    数据仓库的用户一般称为DSS分析员,他首先是个商务人员,其次才是技术人员。DSS分析员的主要工作是定义和发现在企业决策中使用的信息。DSS分析员的态度对数据仓库的开发方式和分析应用系统怎样使用被开发的数据仓库有深远的影响。

    数据仓库用户群中有多种多样的最终用户,每类最终用户都有自己独特的特征和使用数据仓库的需求。从使用方式出发,数据仓库用户群可以分成两大类:一类是信息使用者;一类是信息探索者。

    数据仓库的用户大多数属于信息使用者,信息使用者以一种可预测的重复性的方式来使用数据仓库,他们通常查看相同商业维度(客户、业务、地域、终端)和指标(时长、话费)随时间的发展趋势、预测发展走向、观察业务发展效果、监测客户状况以支持销售或营销决策,他们主要利用数据仓库平台进行多维分析;而探索者有一个完全不可预测的、非重复性的数据使用模式,本质上探索者是典型的数据挖掘者,他需要查看海量数据,他并不能精确地知道什么必须分析,他需要查看没有被预关联的数据关系和数据集,探索者利用数据仓库数据的广度和深度来支持他们的探索性分析活动。这两类用户对数据仓库的性能要求是截然不一样的,分清数据仓库的用户,具有针对性地进行数据仓库管理以提高数据仓库的性能,减少运作和维护的费用是数据仓库成功的一个关键因素。

    2.3 数据仓库体系结构

    如图3所示,以数据仓库为中心的,满足企业决策支持、企业商业智能的数据仓库体系结构包括以下内容。

图3 数据仓库体系结构

    (1)数据源:数据源是数据仓库数据的来源,主要包括存在于企业内部的各个应用系统中的结构化数据,还包括来自于企业外的结构或非结构数据。随着决策分析的要求越来越精确,范围越来越广,许多外部数据(比如企业价值链上的各种非本企业数据或信息)逐渐纳入到体系结构中。

    (2)中心数据仓库:中心数据仓库是整个体系结构的核心,来自于各个数据源的数据经过ETL处理后装载入数据仓库。数据仓库中数据是按照主题的方式组织的,具有多重粒度性。数据仓库中包括大量的能满足各种回答能力的历史细节数据,同时也包括各种能满足查询性能要求的综合性数据。数据量大是数据仓库的最大特征,如何进行大数据量的管理,达到性能和功能的平衡是数据仓库相关技术要求的核心内容;数据仓库的另一个重要特征是它的数据不可更新性,数据仓库的可行性,很大程度依赖于这个前提,由此,在空间设计上可以不用考虑写操作带来的空间预留,可以不用一直将锁管理打开而有效地节省系统开销,保证大数据量管理的实现;另外,数据仓库不具有快速反应的特征,这是因为一方面数据仓库的数据量非常大,在这样大的数据量的数据操作中追求快速反应是不现实的,另一方面数据仓库的工作负载是不均衡的,有时很小,有时很大,在一个大数据量的查询过程中,要求另一个查询的快速是不现实的也是不科学的。

    (3)数据集市:所谓数据集市就是指基于某一特定部门的决策支持需要而组织的主题域的一个集合,它支持部门的定制化使用,是部门的数据体。当越来越多的部门或用户加入到数据仓库的使用中时,数据仓库的性能受到很大的压力,以致于一些访问数据仓库的要求和分析工作被推迟。为了解决这种矛盾,在数据仓库平台中引入数据集市,将部门所需要的数据从数据仓库中复制到部门处理环境中,数据集市是平衡数据仓库性能的一个重要组件。数据集市概念的提出和在现代数据仓库体系中突出了数据集市的一个主要原因是为了调节大数据量管理和用户数据访问需求间的关系。对于一个数据规模非常大的数据仓库结构,通过数据集市将部分商业智能应用和数据仓库隔离开来,使数据仓库的结构和组织更自由一些,使得数据从操作型环境中迁移到数据仓库环境中的处理可以更加灵活一些。在数据仓库体系中加入数据集市的元素能够更快速地反映用户的要求,也可以更方便地满足用户的多样性需求。数据集市是数据仓库的一个有效和自然的补充,数据集市延伸决策支持到部门级环境中。数据仓库提供粒状数据,不同数据集市应用不同的方法来解释和构造这种粒状数据以满足他们的需求。对数据集市来说,最适当的数据源是数据仓库。但是数据仓库和数据集市又具有很大的差异性,不能以数据集市代替数据仓库,因为数据集市不能支持数据挖掘,数据集市不能支持企业级的决策分析,数据集市不能满足企业的商业智能化要求,不能够集中体现出企业的整体运营策略。

    (4)数据访问:为了充分发挥数据仓库的作用,需要利用各种访问方式找出它所包含的信息,并充分利用这些信息。用户对数据仓库的使用形式各种各样,对于数据仓库的使用要求也是各种各样的,为了有效地运用数据仓库进行决策支持,根据用户的不同要求提供相应的访问工具和应用是数据仓库体系的一个重要内容。目前数据访问形式可以归纳为以下方面:

    ① OLAP:联机分析处理(OLAP)是当前信息处理领域比较流行的一种访问技术,一般支持多维性、下钻、旋转和多视图模式等功能。用户通过OLAP可以对数据进行非常灵活的访问,可以用多种方法对数据进行切片、分割,动态地考察汇总数据和细节数据的关系。

    ② 分析:采用数据库查询语言(例如SQL)直接访问数据仓库,并获得分析结果。这是访问数据仓库最原始的方法,一般由数据库专家采用。

    ③ 报表:通过预先制定好的报表为用户提供分析。这种方式对数据的获取比较受限制,一般运用在一些常规的关键数据呈现上。

    ④ 数据挖掘:数据挖掘也叫做数据库中的数据发现(KDD)。数据挖掘就是一个发现过程,它能够帮助用户理解有关数据的真正含义,并了解数据之间所存在的关系。数据挖掘能够在信息内容中揭示出相应的模式和趋势。

    ⑤ WEB访问:最终用户通过具有数据仓库数据访问能力的WEB应用程序访问数据仓库。目前的技术已可以创建高级的交互式应用程序,允许客户端查询数据仓库和多维数据集中的数据。

    ⑥ EIS:高级管理人员信息系统(EIS)为高级管理人员制定相关决策提供支持。最典型的用途包括趋势分析和发现、关键比例指示器度量和跟踪、向下探察分析、问题监控、竞争分析等。

    ⑦ 操作型应用系统:这是一类比较特殊的对数据仓库的访问。这类系统一方面具有对数据仓库的数据访问能力,一方面又将相关的数据“写回”到数据仓库中,例如CRM系统。

    (5)元数据管理:元数据就是关于数据的数据,是对数据仓库中的数据的描述。在数据仓库体系中元数据扮演一个新的重要角色,这是因为使用者是DSS人员,他不具有象IT人员那样多的计算机或相关的知识;另外数据仓库的数据从操作型环境中迁移到数据仓库环境中经过了集成、清洗等处理,所以操作型环境到数据仓库环境的映射是数据理解的关键。元数据的内容一般包括程序员所应知的数据结构、DSS分析员所知的数据结构、数据仓库的源数据、数据加入数据仓库时的转换、数据模型、数据模型和数据仓库的关系、抽取数据的历史记录等内容。和元数据比较相近的一个重要概念是上下文,所谓上下文就是某种分析结果的前因后果,它非常重要,有时在将数据转化成信息时起了很大的作用。

3 数据仓库的实施

3.1 数据仓库实施的特点

数据仓库的实施一般是指如何组织数据并将数据从操作型环境中迁移到数据仓库环境中,并在数据仓库的基础上建立适于用户访问数据,进行决策分析的应用。数据仓库的实施具有以下特点:

(1)建立数据仓库不是一蹴而就的:由于在数据仓库载入第一个主题数据前,业务分析人员是不知道需要什么的,所以数据仓库的实施具有一定的风险性,一次一步的方式有效地降低了风险。

(2)数据仓库的建立要采用有序地反复的方式,即迭代的方式:在建立数据仓库的过程中,不可避免地会出现新主题的增加,新数据的抽取等要求,尤其是现在市场变化这么快,一两年后的要求也许和现在就有很大的差异,所以说数据仓库的实施实际上是一个建立一个良性循环的迭代过程,成功的标志在于是否建立了一个良性的迭代过程,是否持续地使用。

(3)数据仓库成功的一个关键因素在于数据仓库设计者和DSS分析人员之间的反馈循环:数据仓库载入数据后需要使用者积极地去使用和观察数据,然后反馈意见给设计人员进行数据仓库的修正完善。如果分析人员发现了问题又不及时反馈给设计人员,不能形成一个良性的循环,数据仓库成功的几率是很低的。

3.2 数据仓库实施的过程

数据仓库的实施是从一个模型开始的。然后定义记录系统即确定数据源,设计数据仓库,设计接口程序,进行ETL开发和应用开发,和DSS分析人员进行循环反馈,如图4所示。数据仓库的实施包括以下3个部分。

图4 数据仓库实施的循环

(1)数据仓库规划:以企业的业务模型为基础进行企业决策相关的业务理解和探索,制定相应的商业/分析数据模型,该模型描述了企业的信息需求(指出企业所需要的而不考虑企业所具有的),至少需要包括企业的主要主题、各个主题之间的关系以及对主题主键(组)和属性(组)的尽可能全面的描述等内容。根据该模型定义记录系统,即分析和确定由哪些生产应用系统提供满足要求的数据后,就可以建立数据仓库的逻辑模型和进行数据仓库结构设计了。

(2)数据仓库设计和实施:该部分包括知识探索、根据逻辑模型和性能要求进行物理模型设计、制定数据存储策略、根据记录系统和数据仓库模型进行ETL开发和实施、进行满足用户使用特征的应用开发、包括数据仓库数据和元数据的管理等内容的数据仓库管理以及数据仓库性能的监测等内容。

(3)数据仓库支持和完善:该部分包括根据数据仓库的运作情况并对数据仓库的结构和容量进行相应的调整,根据用户的使用反馈对数据仓库的逻辑模型、物理模型进行审查,确定是否需要调整迭代,对数据仓库进行审计,确定数据仓库的价值等过程。

最后,值得一提的是,数据仓库的实施是一个企业行为。在企业实施数据仓库过程中,有一个问题摆在了决策者的面前,就是如何评价数据仓库的投资收益(ROI),这个问题在国外的企业中是一个非常重要的问题。如果把数据仓库作为一个项目来看的话,应该如何正确计算ROI呢?这个问题难倒了很多人,包括很多专家。后来人们重新审视数据仓库在企业运营中的作用时,发现不应该把数据仓库仅仅作为一个项目来看。数据仓库是企业的一个重要资产,是企业运营的一个基础,应该把数据仓库的实施和完善作为企业的一项运营内容/活动来看,这时再去评价数据仓库的ROI就容易理解了。

4 总 结

数据仓库是为企业决策支持服务的,市场的快速变化、竞争的日益激烈使得企业越来越急迫地需要数据和信息以快速应对市场变化,以全面了解客户,迫切地需要方便地获取信息支持以能够及时作出正确和有效的决策,建立新的销售和营销渠道,实现商业智能。运用数据仓库体系建立包括市场经营分析系统(MAS)、客户关系管理系统(CRM)、企业决策支持系统(EDSS)等在内的企业商业智能系统以提升企业竞争力、拓展企业新的发展空间正逐步成为各个运营商新的重点发展目标。

 

发布:2007-04-24 12:12    编辑:泛普软件 · xiaona    [打印此页]    [关闭]
相关文章:
福州OA系统
联系方式

成都公司:成都市成华区建设南路160号1层9号

重庆公司:重庆市江北区红旗河沟华创商务大厦18楼

咨询:400-8352-114

加微信,免费获取试用系统

QQ在线咨询

泛普福州OA快博其他应用

福州OA软件 福州OA新闻动态 福州OA信息化 福州OA快博 福州OA行业资讯 福州软件开发公司 福州门禁系统 福州物业管理软件 福州仓库管理软件 福州餐饮管理软件 福州网站建设公司