申请免费试用、咨询电话:400-8352-114
什么是BI? BI是Business Intelligence的英文缩写,中文解释为商务智能,用来帮助企业更好地利用数据提高决策质量的技术集合,是从大量的数据中钻取信息与知识的过程。简单讲就是业务、数据、数据价值应用的过程。如下图所示:
图片1
从上图可以看出,传统的交易系统完成的是Business到Data的过程,而BI要做的事情是在Data的基础上,让Data产生价值,这个产生价值的过程就是Business Intelligence analyse的过程。如何实现Business Intelligence analyse的过程,从技术角度来说,是一个复杂的技术集,它包含ETL、DW、OLAP、Portal等,其应用的逻辑流程如下图所示:
图片2
上图流程,简单的说就是把交易系统已经发生过的数据,通过ETL工具抽取到主题明确的数据仓库中,OLAP后生成Cube或报表,透过Portal展现给用户,用户利用这些经过分类(Classification)、聚集(Clustering)、描述和可视化(Description and Visualization)的数据,支持业务决策。注意:(1) 不是产生决策,而利用分析后的数据支持决策,仅防误解。(2) Cognos是BI展现工具中的一种。现在就上述概要内容作简要说明如下:(1)BI的诞生随着IT技术的进步,传统的业务交易系统有了长足的发展,已经实现了业务信息化,每一笔业务数据都记录在数据库中,星转斗移,累积了以TB为计量单位的业务数据记录。也许你会问:这么多数据,占用了很多存储设备,耗费存储成本,却又不经常访问,留着它有什么用处?可以给你肯定的回答,留着这些历史数据意义巨大,挖掘业务的规律、支持决策。典型的案例有“尿片和啤酒”的故事。尿片和啤酒本来是两样不相干的东西,可是,有人就发现,星期五在超市里购物的,购买尿片的年轻父亲中有30%~40%的人同时购买啤酒。原来,星期五年轻的父亲购买尿片时,还会为自己捎带买啤酒,因为,星期五是各家电视台转播橄榄球赛的时间,于是,超市老板们就把尿片和啤酒捆绑销售获得了巨大成功。这个故事成了一个利用数据挖掘商业价值最大化的神话。由此看来,非常不关联的两样东西,通过海量的信息数据处理,可以挖掘出它们之间潜在的关联,将这种关联商业化,就会得到意想不到的新业务或新的商业模式。到底该怎样把这些占据大量存储空间的数据的价值挖掘出来,让这些数据从成本的消耗者变成利润的促进者呢?新的数据分析技术由此诞生了,完成了“数据”到“数据价值”转换的环节,同时给这项技术起了一个响亮而又神密的名字“BI”(Business Intelligence) (2)基本技术BI(Business Intelligence) 是一种运用了数据仓库、在线分析和数据挖掘等技术来处理和分析数据的崭新技术,目的是为企业决策者提供决策支持。这似乎是BI的官方定义,也是广大BI玩家一成不变的宗旨,哪么BI技术涉及了哪些方面呢?从上图图(2)中,我们不难看出其核心技术中DW与OLAP。数据仓库(Data Warehouse) 的官方定义是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。为什么要在操作型数据库和 OLAP 之间加一层“数据仓库”呢?说一千道一万都计算机资源与效能惹的祸,操作型数据库以快速响应业务为主要目标,而OLAP的时候要占用大量的硬件资源,在OLAP的时候,业务操作很难快速响应,无法保证业务的顺利进行,从业务->数据->数据的价值的逻辑来看,没有业务就谈不上OLAP;零星分散的数据一般存在有多个应用,对应多个业务操作型数据库,访问效能极其低下。综合上述资源与效能的问题,最高效的方法就是将数据先整合到数据仓库中,而由OLAP应用统一从数据仓库里取数,以解决快速响应业务与OLAP的矛盾。但是,多了这么一层,不管ROLAP还是MOLAP都无法查看实时数据,这并不影响BI的应用,90%的BI应用都不要求实时性,允许数据有滞后,这是决策支持系统的应用特点,这个滞后区间就是数据抽取工具工作及OLAP的时间。ETL,(Extract Transform Load)操作型业务数据库(DB)到数据仓库(DW)的过程称之为ETL,它实现数据的抽取,传输及装载工作,目前流行的工具有Informatica,DTS,SSIS等工具。OLAP,(On-Line Analytical Processing)即联机分析处理,是 BI的一种全新的数据封装方式,直接产物是报表或Cube,是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的基本操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through等。Portal,是展现BI产物的平台入口,BI的产物被放置在Portal上,用户登录这个Portal即可访问数据。透过上述技术,BI应用DW中的海量数据,OLAP(ROLAPMOLAP)加工成可读性很强的报表信息或知识,展现给决策者,用这些报表信息或知识做为决策的依据,由此来完成数据与价值的转换。(3)应用模式数据查询是最简单的 BI 应用,输出报表是BI最直接的产物,根据数据连接,加工过程及用途,应用模式大致可以分为四种:格式报表;在线分析;数据可视化;数据挖掘。1、格式报表:带格式的数据集合,如:交叉表等。2、在线分析:多维数据集合,如:Cube等。3、数据可视化:信息以尽可能多的形式展现出来,目的是使决策者通过图形这种直观的表现方式迅速获得信息中蕴藏的知识,如柱图等。4、数据挖掘:从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。分析方法:· 分类(Classification)· 估值(Estimation)· 预言(Prediction)· 相关性分组或关联规则(Affinity grouping or association rules)· 聚集(Clustering)· 描述和可视化(Description and Visualization)数据挖掘号称能通过历史数据的分析,预测客户的行为,而事实上,客户自己可能都不明确自己下一步要作什么。所以,数据挖掘的结果,没有人们想象中神秘,它不可能是完全正确的。客户的行为是与社会环境相关连的,所以数据挖掘本身也受社会背景的影响。(4)社会背景中国拥有5000年的文化史,灿烂的文件让日常报表也非常具有凝聚力,交错纵横,里外相嵌,格式诡异、规则古怪、数据集中而文名于世,让无数报表工具折腰。BI概念是从欧美引进的,现有的工具也多是欧美国家提供,中国是世界上报表最复杂的国家,报表设计风格与这些国家有明显的差别,BI工具制作的报表倾向于仅用一张报表说明一个问题,而中国的报表倾向于将尽可能多的问题集中在一张报表中,这种思路直接导致了BI工具应用难度的提升。常用的BI 厂商和产品:ETL:Informatica,datastage,Kettle,SSIS,DTSDW:IBM DB2,Oracle,Sybase IQ,NCR Teradata 等等;OLAP: Cognos,Business Objects,MicroStrategy,Hyperion,IBM , SQL Server Analysis ServerData Mining:IBM,SAS,SPSS