监理公司管理系统 | 工程企业管理系统 | OA系统 | ERP系统 | 造价咨询管理系统 | 工程设计管理系统 | 签约案例 | 购买价格 | 在线试用 | 手机APP | 产品资料
X 关闭

数据挖掘技术在中小企业福州OA中的应用研究

申请免费试用、咨询电话:400-8352-114

来源:泛普软件

数据挖掘技术在中小企业福州OA中的应用研究1

0 引 言

在现代企业的激烈竞争环境中,销售业绩的好坏直接关系到一个企业的生存与发展。随着企业规模的不断扩大和经营管理的逐渐完善提升,企业的管理决策人员必然关注产品的销售业绩总体情况、产品的联合销售情况和销售退货等面向企业级的有价值的信息。以ERI, 为代表的事务型处理系统虽然在处理日常的业务工作方面显示出强大的能力,但是在决策分析中,只能提供较为简单的记录查询,管理决策者更需要从日积月累的庞大的业务数据中获取隐藏的知识,提高积压数据的利用率。

数据挖掘是数据库中的知识发现(Knowledge Discovery in Databases,KDD)的一个基本步骤,是指从数据库或数据仓库中提取隐含的、未知的、潜在的和有用信息的非平凡过程。关联规则是一种重要的数据挖掘模式,其最权威的定义是国际商业机器(International Busines Machines,IBM)公司科学家R.Agrawal等人提出的,是数据之间一种简单实用的规则。关联规则数据挖掘就是从大量的数据中挖掘出有价值的描述数据项之间相互联系的知识。本文描述了如何建立数据集市,使用数据挖掘技术,应用关联规则挖掘算法发现销售数据中不同产品(类)之间的联系,找出销售行为模式的过程,并对挖掘算法应用过程中出现的问题进行了探讨。

本文分析的是广东某卫浴企业福州OA的销售数据。该福州OA系统是笔者所在研究中心实施的中小企业信息化示范项目。

1 关联规则数据挖掘技术

1.1 概念

设I={i1,i2,…,im}是项的集合。设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使T属于I。每一个事务都有一个标识,称为TID。设A是一个项集,事务T包含A当且仅当A属于T。关联规则是形如A→B的蕴涵式,其中,B为项集,A属于I,B属于I,并且A∩B=Φ。假设规则A→B的支持度是s,则s是D中事务包含A∪B的百分比。如果规则A→B的置信度是c,即c是D中包含A的事务同时也包含B的百分比。即:

support(A→B)=P(A∪B)

confidence(A→B)=P(B︱A)

同时满足最小支持度阈值(min_support)的最小置信度阑值(min_confidence)的规则称作强规则。

项的集合称为项集(Itemset)。包含k个项的项集称为k-项集。如果项集满足最小支持度,则称它为频繁项集(Frequent Itemset)。

1.2 Apriori算法

Apriori算法是一种经典的关联规则数字挖掘中寻找频繁项集的算法。Apriori算法的基本思想是利用频繁项集的向下封闭性(即频繁项集的子集也是频繁项集)寻找频繁项集。为了生成所有频繁项集,使用了递推的方法。首先产生所有1-项集C1,即候选1-项集,再从中找出所有的频繁1-项集L1,然后根据频繁1-项集确定候选2-项集C2,再从C2中找出频繁2-项集L2,依次下去,直到不再有候选项集为止。其过程如下。

1)单趟扫描数据库D计算出各个1-项集的支持度,从而得出频繁1-项集构成的集合L1。

2)为了产生频繁k-项集构成的集合Lk,预先生成一个候选项集Ck,Lk属于Ck,其中项集Ck由联合运算实现。联合算法:若p,q∈Lk-1,p={p1,p2,…,pk-1},q={q1,q2,…,qk-1},并且当1≤i≤k-1时,有pi=qi;当i=k-1时,有pk-1≠qk-1,,则p∪q={p1,p2,…,pk-2,pk-1,qk-1}是候选k-项集的集合Ck中的元素。

3)剪枝 。 Ck是Lk的超集,即Ck中的项集可能是频繁的,也可能是非频繁的,但所有的频繁k-项集都包含在Ck中。应用Apriori性质,如果一个候选k-项集的(k-1)-项子集不在Lk-1中,则该候选集也不可能是频繁的,从而可以从Ck中删除。

4)将Ck中不满足最小支持度的项集删除,形成由频繁k-项集构成的集合Lk。

2 销售数据集市的设计

2.1 逻辑模型设计

数据仓库是建立在关系数据库的基础上,因此在数据仓库的逻辑设计中采用关系模型。逻辑模型设计的主要工作是确定主题的公共码键和属性组,确定关系模型中的事实表和维表,识别事实数据和维数据,通过公共码键将表联系在一起,形成一个完整的主题。

数据集市是部门级的,一般只能为某个局部范围内的管理人员服务,因此也称之部门级数据仓库。

销售数据集市的维度表包括产品维表、客户维表和时间维表;事实表数据除了指向各维表的外键之外,应包括销售数量、销售金额和退货数量。使用星型模式来描述销售数据集市的逻辑模型(见图1)。

图1 销售数据集市逻辑模型

有了数据结构模型之后,便可以对事实表和维表进行详细的设计,包括其中的字段名、类型和功能描述,还有表间主外键的对应关系。

其中三个维度表中的主键在事实表中都有与之对应的外键,以相同的字段名表示,通过主外键的相连,构成如图1所示的以事实表为中心,维表在周边的星型模型。

发布:2007-04-24 14:26    编辑:泛普软件 · xiaona    [打印此页]    [关闭]
相关文章:
南宁OA系统
联系方式

成都公司:成都市成华区建设南路160号1层9号

重庆公司:重庆市江北区红旗河沟华创商务大厦18楼

咨询:400-8352-114

加微信,免费获取试用系统

QQ在线咨询

泛普南宁OA快博其他应用

南宁OA软件 南宁OA新闻动态 南宁OA信息化 南宁OA快博 南宁OA行业资讯 南宁软件开发公司 南宁门禁系统 南宁物业管理软件 南宁仓库管理软件 南宁餐饮管理软件 南宁网站建设公司