申请免费试用、咨询电话:400-8352-114
来源:泛普软件
1、 Howard Dresner对商业智能的定义
商业智能(Business Intelligence,简称BI)的概念最早是Gartner Group的Howard Dresner于1996年提出来的。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。当时的预测说:到2000年,信息民主(注:指组织内信息共享的无差别性)将在具有前瞻性思维的企业中浮现。借助商业智能,员工、咨询员、客户、
供应商以及公众能够有效地运用信息。其实,商业智能所涉及的技术与应用,在Howard Dresner命名之前就有,起初被称为主管信息系统(EIS),在羽化成商业智能之前叫决策支持系统(DSS)。
2、 Eric Thomsen对OLAP及商业智能的论断
Eric Thomsen是DSS Lab的首席科学家,他提出了基于决策支持系统的OLAP的设计和实现。OLAP是创建商业智能系统的重要技术,其技术的应用非常广泛。Eric Thomsen在其代表作《OLAP解决方案:创建多维信息系统(OLAP Solutions: Building Multidimensional Information Systems)》第二版中有关于一些相关概念的论述:数据仓库(DW)/决策支持系统(DSS)/商业智能(BI)/联机分析处理(OLAP)/基于分析的面向决策的处理(ABDOP)——数据仓库(DW)的焦点还是十分有限的。决策支持这个术语是以最终用户为中心的,在谈到OLAP和数据仓库时作为ABDOP的补充。从这以后,数据仓库和决策支持的范围有了很大的扩展,但是还没有达到ABDOP的全部内容。商业智能也开始流行起来,也覆盖了相同的范围,不过一般来说,它更加关注于最终用户信息获取的问题。经常看到人们将数据仓库和决策支持或者商业智能联合起来指代所称的ABDOP的全部范围,却没有真正给整个范围起一个名字。
Eric Thomsen采用苏格拉底启发式方式讲解和论述了决策的阶段,从而阐述了商业智能(或其平行概念)的研究内容和方法:
认为,通过观察如何证实一个被挑战的决策是否正确,就可以很好地了解到指定决策究竟需要些什么信息。
决策的目标是什么?如果没有目标,任何决策都是没有差别的。在寻求最优决策的过程中,可能用到的算法包括线性编程和蒙特卡洛模拟协助在各种选择、外部因素、偶然事件中进行决策思考的工具就是决策分析工具。
如何证明决策可以达到预定的目标?惟一能够证实决策是正确的方法是显示一些预测结果。进行预测用到的工具包括了统计分析和数据挖掘。
预测又是从何而来?这时候需要一个推理的过程。预测是模式、关系、解释的延伸。他们需要至少一个用来延伸的假设。所有的预测都需要两个描述和一个假设。用于发现模式的算法包括回归、决策树、聚类、关联规则、神经元网络,用于发现模式的工具也是统计和数据挖掘。
如何捍卫描述?如果描述是不正确的,不管推理如何,预测都将是错误的。因此,在原始数据收集过程中应该采用最好的质量控制方法。
派生数据是否正确?如果原始数据和推理逻辑都是正确的,预测还是错误的,问题就出在派生数据上。派生数据包括了各种汇总、分配、差别、比率、排序和乘积,例如每周的产品销售量、每天的入库总额、产品的总成本、部门收入、管理费用、销售产品的成本、市场份额、产量和利润等。OLAP工具所关注的就是创建派生变量。
3、 Tom Soukup 和 Ian Davidson对商业智能和可视化数据挖掘的阐述
在《可视化数据挖掘:数据可视化和数据挖掘的技术与工具(Visual Data Mining : Techniques and Tools for Data Visualization and Mining)》中指出:
商业智能解决方案将业务数据转换成明确的、基于事实的、能够执行的信息,并且使得业务人员能够发现客户趋势,创建客户忠诚度,增强与供应商的关系,减少金融风险,以及揭示新的销售商机。商业智能的目标是了解变化的意义——从而理解甚至预见变化本身。它使你能够访问当前的、可靠的和易消化的信息,并能够从各个侧面及不同的维度灵活地浏览信息和建立模型。商业智能方案回答的是“如果……怎么办(What if …)”之类的问题,而不是“发生了什么?(What happened ?)”。简而言之,商业智能解决方案是提高和维持竞争优势的一条有效的条件。
数据可视化和数据挖掘是两种技术,它们常常被常用来创建和部署成功的商业智能解决方案。通过应用可视化和数据挖掘技术,业务人员能够充分地探索业务数据,从而发现潜在的、以前未知的趋势、行为和异常。
提出了一套行之有效的创建数据可视化和执行可视化数据挖掘的方法,包括8个步骤:①验证和规划数据可视化与数据挖掘项目;②识别最重要的业务问题;③选择数据集;④转换数据集;⑤验证数据集;⑥选择可视化或挖掘工具;⑦分析可视化或挖掘模型;⑧验证和展示可视化或挖掘模型。
4、 Bill Inmon对数据仓库的定义
数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。
集成的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
相对稳定的。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
反映历史变化。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
5、 E.F. Codd对OLAP的贡献
60 年代末,E.F. Codd 所提出的关系数据模型促进了关系数据库及联机事务处理(OLTP )的发展。数据不再以文件方式同应用程序捆绑在一起,而是分离出来,以关系表方式供大家共享。数据量从80年代的兆字节及千兆字节过渡到现在的兆兆字节和千兆兆字节,同时用户的查询需求也越来越复杂,涉及的己不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析或信息综合。关系数据库系统已不能全部满足这一要求。这两类应用― 操作型应用和分析型应用,特别是在性能上难以两全,尽管为了提高性能,人们常常在关系数据库中放宽了对冗余的限制,引入了统计及综合数据,但这些统计综合数据的应用逻辑却是分散杂乱的,非系统化的,因此分析功能有限,不灵活,维护困难。在国外,不少软件厂商采取了发展其前端产品来弥补RDBMS 支持的不足。它们通过专门的数据综合引擎,辅之以更加直观的数据访问界面。力图统一分散的公共应用逻辑,在短时间内相应非数据处理专业人员的复杂查询要求。1993年,E.F. Codd 将这类技术定义为“OLAP ”。鉴于Codd 关系数据库之父的影响。OLAP 的提出引起了很大反响,OLAP 作为一类产品同OLAP 明显区别开来。
联机分析处理专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以应分析人员要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观易懂的形式将查询结果提供决策人员,以便他们准确掌握企业(公司)的经营状况,了解市场需求,制订正确方案,增加效益。
6、 国外学者对数据挖掘的定义及其研究方法的概括
Gartner Group :“数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、模式和趋势的过程。它使用模式认知技术、统计技术和数学技术。”
The META Group的Aaron Zornes :“数据挖掘是一个从大型数据库中提取以前不知道的可操作性信息的知识挖掘过程。”
SAS研究所:“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。
Bhavani :“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。
Hand et al :“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。
Fayyad :数据挖掘是一个确定数据中有效的,新的,可能有用的并且最终能被理解的模式的重要过程。
Zekulin :数据挖掘是一个从大型数据库中提取以前未知的,可理解的,可执行的信息并用它来进行关键的商业决策的过程。
Ferruzza :数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法。
Jonn :数据挖掘是发现数据中有益模式的过程。
Parsay :数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程。
数据挖掘的功能大致有两种,预测检验功能和描述功能。数据挖掘的任务主要有4项:①概念描述,即对数据进行浓缩,给出某类对象内涵的紧凑表示。②发现关联规则,通过分析给出两个或多个变量间存在的相关性规律。③聚类,即簇聚同类对象,使在抽象空间中属于同一类别的个体距离尽可能小,反之尽量大。④偏差检测,寻找观察结果与参照值间的差别,这些偏差往往包含很多潜在有意义的知识信息。
应用较普遍的数据挖掘与知识发现方法有:
遗传算法。其基本原理是:类比生物进化过程,每一代同时存在许多不同的种群个体(染色体)。这些染色体的适应性以适应性函数f(x)表征,染色体的保留与淘汰取决于它们对环境的适应能力,优胜劣汰。适应性函数f(x)的构成与目标函数密切相关,往往是目标函数的变种。?遗传算子主要有3种:选择(复制)算子、交叉(重组)算子和变异(突变)算子。遗传算法可起到产生优良后代的作用,经过若干代遗传,将会得到满足要求的后代(问题的解)。
粗集方法。其基本原理是:将数据库中的行元素看成对象,将列元素看成属性。设R为等价关系,定义为不同对象在某个(或几个)属性上取值相同。那些满足等价关系的对象构成集合,称为该等价关系R的等价类。设E为条件属性上的等价类,设Y为决策属性上的等价类,则E 和Y存在3种情况:Y包含E称为下近似;Y与E的交非空,称为上近似;Y与E的交为空,称为无关。对下近似建立确定性规则,对上近似建立不确定规则(含可信度),对无关情况则不存在规则。
决策树方法。决策树方法是以信息论原理为基础,利用信息论中互信息(信息增益)寻找数据库中具有最大信息量的字段,建立决策树的一个结点。然后再根据字段的不同取值建立树的分支,在每个分支集中重复建立树的下层结点和分支。这种方法实际上是依循信息论原理对数据库中存在的大量数据进行信息量分析,在计算数据特征的互信息或信道容量的基础上提取出反映类别的重要特征。
神经网络方法。其原理是:模拟人脑的神经元结构,以MP模型和HEBB学习规则建立起前馈式网络、反馈式网络和自组织网络3大类多种神经网络模型。基于神经网络的数据挖掘工具对于非线性数据具有快速建模能力,其挖掘的基本过程是先将数据聚类,然后分类计算权值,神经网络的知识体现在网络连接的权值上。神经网络方法用于非线性数据和含噪声的数据时具有更大的优越性,比较适合于市场数据库的分析和建模,通过对市场数据库中行业数据的精密分析,为市场人员提供顾客、用户、市场状况和市场走势等方面的分析结果。(KMCENTER)