数据挖掘技术在中小企业福州OA中的应用研究
数据挖掘技术在中小企业福州OA中的应用研究1
0 引 言
在现代企业的激烈竞争环境中,销售业绩的好坏直接关系到一个企业的生存与发展。随着企业规模的不断扩大和经营管理的逐渐完善提升,企业的管理决策人员必然关注产品的销售业绩总体情况、产品的联合销售情况和销售退货等面向企业级的有价值的信息。以ERI, 为代表的事务型处理系统虽然在处理日常的业务工作方面显示出强大的能力,但是在决策分析中,只能提供较为简单的记录查询,管理决策者更需要从日积月累的庞大的业务数据中获取隐藏的知识,提高积压数据的利用率。
数据挖掘是数据库中的知识发现(Knowledge Discovery in Databases,KDD)的一个基本步骤,是指从数据库或数据仓库中提取隐含的、未知的、潜在的和有用信息的非平凡过程。关联规则是一种重要的数据挖掘模式,其最权威的定义是国际商业机器(International Busines Machines,IBM)公司科学家R.Agrawal等人提出的,是数据之间一种简单实用的规则。关联规则数据挖掘就是从大量的数据中挖掘出有价值的描述数据项之间相互联系的知识。本文描述了如何建立数据集市,使用数据挖掘技术,应用关联规则挖掘算法发现销售数据中不同产品(类)之间的联系,找出销售行为模式的过程,并对挖掘算法应用过程中出现的问题进行了探讨。
本文分析的是广东某卫浴企业福州OA的销售数据。该福州OA系统是笔者所在研究中心实施的中小企业信息化示范项目。
1 关联规则数据挖掘技术
1.1 概念
设I={i1,i2,…,im}是项的集合。设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使T属于I。每一个事务都有一个标识,称为TID。设A是一个项集,事务T包含A当且仅当A属于T。关联规则是形如A→B的蕴涵式,其中,B为项集,A属于I,B属于I,并且A∩B=Φ。假设规则A→B的支持度是s,则s是D中事务包含A∪B的百分比。如果规则A→B的置信度是c,即c是D中包含A的事务同时也包含B的百分比。即:
support(A→B)=P(A∪B)
confidence(A→B)=P(B︱A)
同时满足最小支持度阈值(min_support)的最小置信度阑值(min_confidence)的规则称作强规则。
项的集合称为项集(Itemset)。包含k个项的项集称为k-项集。如果项集满足最小支持度,则称它为频繁项集(Frequent Itemset)。
1.2 Apriori算法
Apriori算法是一种经典的关联规则数字挖掘中寻找频繁项集的算法。Apriori算法的基本思想是利用频繁项集的向下封闭性(即频繁项集的子集也是频繁项集)寻找频繁项集。为了生成所有频繁项集,使用了递推的方法。首先产生所有1-项集C1,即候选1-项集,再从中找出所有的频繁1-项集L1,然后根据频繁1-项集确定候选2-项集C2,再从C2中找出频繁2-项集L2,依次下去,直到不再有候选项集为止。其过程如下。
1)单趟扫描数据库D计算出各个1-项集的支持度,从而得出频繁1-项集构成的集合L1。
2)为了产生频繁k-项集构成的集合Lk,预先生成一个候选项集Ck,Lk属于Ck,其中项集Ck由联合运算实现。联合算法:若p,q∈Lk-1,p={p1,p2,…,pk-1},q={q1,q2,…,qk-1},并且当1≤i≤k-1时,有pi=qi;当i=k-1时,有pk-1≠qk-1,,则p∪q={p1,p2,…,pk-2,pk-1,qk-1}是候选k-项集的集合Ck中的元素。
3)剪枝 。 Ck是Lk的超集,即Ck中的项集可能是频繁的,也可能是非频繁的,但所有的频繁k-项集都包含在Ck中。应用Apriori性质,如果一个候选k-项集的(k-1)-项子集不在Lk-1中,则该候选集也不可能是频繁的,从而可以从Ck中删除。
4)将Ck中不满足最小支持度的项集删除,形成由频繁k-项集构成的集合Lk。
2 销售数据集市的设计
2.1 逻辑模型设计
数据仓库是建立在关系数据库的基础上,因此在数据仓库的逻辑设计中采用关系模型。逻辑模型设计的主要工作是确定主题的公共码键和属性组,确定关系模型中的事实表和维表,识别事实数据和维数据,通过公共码键将表联系在一起,形成一个完整的主题。
数据集市是部门级的,一般只能为某个局部范围内的管理人员服务,因此也称之部门级数据仓库。
销售数据集市的维度表包括产品维表、客户维表和时间维表;事实表数据除了指向各维表的外键之外,应包括销售数量、销售金额和退货数量。使用星型模式来描述销售数据集市的逻辑模型(见图1)。
图1 销售数据集市逻辑模型
有了数据结构模型之后,便可以对事实表和维表进行详细的设计,包括其中的字段名、类型和功能描述,还有表间主外键的对应关系。
其中三个维度表中的主键在事实表中都有与之对应的外键,以相同的字段名表示,通过主外键的相连,构成如图1所示的以事实表为中心,维表在周边的星型模型。
- 1金融危机下用福州OA改善企业现金流量
- 2中小企业福州OA提高成功率的关键策略
- 3强讯呼叫中心服务于北京邮电大学网络教育学院
- 4“贵州茅台镇”商标引争议 茅台起诉十多家酒企
- 5中小企业抗击金融危机要打持久战
- 6如何走出“伪商业智能”的陷阱?
- 7企业物流供应链管理相关综述
- 8十种方法帮助中小企业战胜出口危机
- 9“知识管理”是信息化的奢侈品吗?
- 10SaaS大幅增长 超越传统引领存储
- 11面向再造的企业信息化初探
- 12买房最容易触碰六大雷区 勿让优惠冲昏头
- 13汉肯萨缪尔森出任沃尔沃汽车集团新CEO
- 142012年中国家具行业“遇难” 金属家具出口却突增
- 15保证企业福州OA项目成功实施的十大要素
- 16企业从功能出发为ERP系统选型 需注意四点
- 17房价走势不明买房易陷10大误区 专家为你破解
- 18网友评论:金融危机程序员应该如何应对
- 19样板间看上去很美 牢记三大注意事项避免上当
- 20住建部:房价不会全面反弹 限购政策将继续执行
- 21企业降低IT成本的20个小建议
- 22异地高考方案年底出台 天津学籍房骤然走俏
- 23企业SOA项目部署中的几个关键问题
- 24企业信息门户的技术架构和基本功能
- 25改进IT服务管理流程的十七个步骤
- 26以生产为核心 掌握制造业ERP选型切入点
- 27纵观国外流程管理的技术演进
- 28SaaS是中国管理模式的助推器
- 29从福州OA四大失败案例看全面预算的机遇
- 30商务智能掌控后ERP 时代之BI开始盈利