当前位置:工程项目OA系统 > 泛普各地 > 上海OA系统 > 上海OA软件行业资讯
钢铁企业生产成本数据集市及数据挖掘研究
0 引 言
近十年来 ,钢铁企业面临的市场竞争环境发生了巨大的改变,客户对钢材的品种、规格(如板材的宽度、厚度、镀层和机械性能指标等)需求越来越多样化,客户需求呈现多品种、小批量的特点。因此,在现有的市场条件下,钢铁企业必须在保证产品质量与交货期的同时,大力加强成本管理,使产品在质优价廉的情况下获取适当的利润,以增强企业的市场竞争力。
钢铁行业的成本管理是一个复杂的系统工程,必须在整个企业经营范围内对采购成本、生产成本、销售成本、质量成本等进行全面监控,定期获取各种生产消耗数据,如原材料中的合金料消耗、钢铁料消耗以及各种辅助材料的消耗(部分辅料可能需要手工归集),实现实时成本的归集和计算,以实现钢铁产品成本的事前、事中和事后控制。
通过将先进的数据挖掘技术引入到钢铁生产成本管理领域,可以从大量的钢铁生产成本历史数据中获得潜在的规律和发展趋势,以指导钢铁生产,降低产品成本。这些潜在的信息包括:为什么某一个特定日某种材料消耗总是比较高;哪一个因素(班组、工序、设备、环境、原料配比等)是导致成本增加的主要原因;哪一个班组在成本控制方面做得更好等。
传统的数据库技术是事物驱动、面向应用的操作型数据库系统,而数据挖掘和决策支持需要将来自各种异种源的数据统一,产生高质量的、纯净的集成的数据。在这种情况下,操作型数据库中的数据尽管很丰富,对于决策和数据挖掘还是远远不够的,因此不能简单地在一般操作数据库上进行数据挖掘,需要建立为数据挖掘和决策分析提供支持的数据集市或数据仓库。
1 钢铁生产成本分析模型
超高功率电弧炉炼钢是一个高温、多相、快速的冶金过程,整个过程所涉及的变量非常多,必须建立合理的炼钢成本分析模型,才能达到提高生产率、降低成本和改善产品质量的目的。为了建立合理的成本分析模型,首先要对炼钢工序系统进行分析,系统分析模型如图1所示。
图1 钢铁生产工序成本分析模型
有关成本的变量可以归纳为原料变量、设备变量、工艺变量3类,其中原料变量包括铁料品种变量、合金铁品种变量和钢包等各种辅材的变量;设备变量包括电极参数、冶炼炉次、废钢预热;工艺变量包括供电操作、冷却水流量、目标出钢温度、吹氧操作等。输出变量包括钢水成本和冶炼时间。从钢铁冶炼工序系统各变量对成本的影响程度来看,电炉冶炼成本和LF(ladle furnace)精炼成本大概占总成本的70%左右,此外设备的运转率对钢水成本固定费用的降低起着重要的作用,因此,本文拟对班组成本、工序成本等进行决策分析。
2 钢铁生产成本数据集市的建立
数据集市按照某一特定部门的决策支持需求组织起来,是针对一组主体的应用系统;而数据仓库则是面向主体的、集成的、稳定的、时间各异的数据集合。数据集市和数据仓库相比,数据仓库实施周期长、成本巨大、见效慢;而数据集市则是一种更小、更集中的数据仓库,它为企业提供一条部门级的分析商业数据的廉价途径。
在钢铁生产管理系统的基础上,将数据挖掘和数据集市引入钢铁生产成本管理领域,从中获得有效的成本决策模型,以进一步提高钢铁生产成本的管理水平,整个系统如图2所示。
图2 钢铁生产车间成本数据挖掘模型
2.1 数据模型
数据集市的逻辑建模是数据集市实施的重要环节,因为它能直接反应出业务部门的需求,同时对数据集市的物理实施有着重要的指导作用。可以用几种方式来构建数据仓库或数据集市,例如采用实体关系模型、汇总表、多维数据库、星型模式和雪花模式等模型。
钢铁车间生产成本数据集市模型采用星型关系模式,星型关系模式的关键是确定事实表和各数据维之间的联系,并针对各个维做了大量的预处理,如按照维进行预先的统计、分类、排序等。钢铁车间生产成本数据集市星型模型如图3所示。系统通过物料跟踪事实表将各数据维联系起来,按炉号、班组、批次、工序获得各工序的消耗信息,通过把每一炉钢的实际成本和各工序成本分别与其相应的标准成本相比较,就可以得到相关成本差异信息。
图3 钢铁生产成本数据集市星型模式图
2.2 数据集市的实现过程
无论是数据仓库还是数据集市都是服务于数据挖掘和决策支持,因此从数据源抽取数据时,一般都要经过清理、转换、集成等处理。在构建钢铁车间数据集市的过程中,主要包括对数据源的数据进行聚集、转换、导入和最后装人数据集市等几个过程。
2.2.1 数据聚集
数据聚集简单地说就是对原始数据进行汇总。在聚集的过程中要考虑到数据集市的划分粒度。粒度是指数据仓库中数据单元的详细程度和级别,数据越详细,粒度越小,级别越低;反之数据综合度越高,粒度越大,级别就越高。粒度的划分将直接影响数据仓库中的数据量和所适合的查询类型。数据仓库的主要功能是面向决策支持,绝大部分查询都是基于一定综合程度之上,只有极少的查询涉及到细节。
2.2.2 数据转换
数据转换是将数据转换为适合于数据挖掘的形式。在数据集市中,对于实际成本和标准成本的比较结果,不是采用“盈”或“亏”来存储,而是将它们分别转换为“1”或“0",这样就提高了数据集市的存储和访问性能,增强了数据挖掘的简便性。
2.2.3 数据导入
数据导入过程就是将数据源中一些不需要转换而又必不可少的信息直接拷贝到数据集市中。钢铁生产车间原操作数据库存储了一些静态的数据信息,如物料消耗信息、班组信息、工序信息和标准信息等,这些数据可直接导入数据集市。
以上3个过程并不孤立,而是相互融合,对于静态数据的导入,一般只在这些静态信息更新时才重新导入,而对于聚集,分别在每月的最后一天进行,同时对一些数据还需要进行必要地转换。
3 数据挖掘
数据挖掘的方法很多,目前比较常用的有关联法、聚类法、相关性分析和偏差分析等。常用的技术有数理统计分析、神经网络、专家系统、智能代理、决策树和遗传算法等。
利用已建立的钢铁生产车间数据集市,本文主要采用决策树数据挖掘技术对成本状态的宏观数据进行分析。
3.1 决策树算法
决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。决策树学习采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同的属性值判断从该节点向下的分枝,在决策树的叶节点得到结论。所以从根到叶节点的一条路径就对应着一条合取规则,整棵决策树对应着一组析取表达式规则。由于决策树用树状结构来表示模型,容易理解,已成为常用的数据挖掘工具。目前决策树常用的算法有Chi-squared automatic interaction detection(CHA-ID),Classification and regression trees(CART),ID3,C4. 5,AC2,CN2等。
在决策树的各种算法中,最有影响的是Quinlan于1979年提出的以信息嫡的下降速度作为选取测试属性的标准的ID3算法。该算法通过在树的每一个节点上使用信息增益度量来选取测试属性,选取具有最高信息增益的属性作为当前节点的测试属性。该属性使得对结果划分中的样本分类最小,并反映最小划分中的随机性和“不纯性”。这种信息论方法使得对一个对象的分类所需的期望测试数目达到最小,并确保能够找到一棵简单的决策树。
设S是s个样本的集合,假定类标号属性具有m个不同的值,定义m个不同的类Ci(i=1,…,m),设si是类Ci中的样本数。对一个给定的样本分类所需的期望信息由下式给出:
式中,Pi为任意样本属于Ci的概率,并用si/s估计。这里的对数以2为底,因为信息用二进制编码。
设属性A具有v个不同的值{a1,a2,…,av}。可以用属性A将S划分为v个子集{S1,S2,…,Sv},其中sj包含S中的这样一些样本,它们在A上具有值aj。如果A选作测试属性,则这些子集对应由包含集合S的节点生长出来的分枝。设sij是Sj子集中类Cj的样本数,根据A划分成子集的熵或期望信息由下式给出:
项充当第j个子集的权,并且等于子集(即A值等于ai)的样本个数除以S中的样本总数。熵值越小,子集划分的纯度越高。对于给定的子集Sj,有。
式中,pij为Sj中的样本属于类Ci的概率,
,在A上分枝将获得的编码信息是Gain(A)=I(s1,s2,…,sm)-E(A)。
换言之,Gain(A)是已知属性A的值而导致的熵的期望压缩。
算法计算每个属性的信息增益,具有最高信息增益的属性作为集合S的测试属性。创建一个节点,并以该属性标记,对属性的每个值创建分枝,并据此划分样本。
3.2 决策树的应用
本系统将以ID3算法对某钢铁企业生产成本数据集市进行挖掘。
挖掘系统采用浏览器/服务器(Browser/Server,B/S)架构,数据库管理系统对从其他数据源获得的不同格式数据进行筛选、清理、冗余检查和格式转换等数据预处理工作。客户端作为程序主题部分,负责确定挖掘主体,即定义挖掘目标,设置因变量属性,选择ID3决策树算法生成决策树,提取规则,然后用测试数据进行检测,如规则合理即可输出,否则循环此过程,直到生成满意的决策树为止。
某钢铁企业10号电炉(分为甲、乙、丙、丁4个班组)在2005年6月上半旬共生产滚珠钢990炉,每炉钢的成本主要包括电炉冶炼工序(0201)成本、LF精炼工序(0202)成本、铸锭成本以及其他分配费用。
运用ID3算法,将班组以及工序作为分类属性,将炉钢成本差异作为挖掘目标。
初始时刻根据每一炉钢成本差异是否符合要求分为两类:一类是有利差异(实际成本小于标准成本);另一类是不利差异(实际成本大于或等于标准成本)。
所以初始时刻的熵值为:
如果选取班组属性作为测试属性,则条件熵为0.55,计算公式如下:
如果选取工序1(电炉冶炼)为测试属性,则条件熵为0.596,计算公式如下:
如果选取工序2(LF精炼)为测试属性,则条件熵为0.61,计算公式如下:
可以看出H(X/BZ)最小,因此Gain(BZ)=0.734-0.55=0.184。班组属性具有最高信息增益0.184 bit,即有关班组的信息对分类有最大的帮助,提供最大的信息量,所以选择班组属性对决策树进行划分得到决策树,如图4所示。
图4 钢铁生产成本决策树
图中Y表示实际成本满足每炉钢标准成本的要求(有利差异),N表示每炉钢实际成本超出标准成本(不利差异),0201工序以及0202工序的有利差异和不利差异分别用F和U表示。通过决策树可以看出,班组和工序两个因素中,班组是影响每炉钢实际成本超出标准成本的第1要素,而工序是第2要素。从电炉冶炼工序和LF冶炼工序对每炉钢的成本影响程度来看,电炉工序具有较大影响,在电炉冶炼工序出现成本有利差异时,每炉钢出现有利成本差异的概率较高,如班组甲电炉工序成本有利差异的概率为92.9%,则炉钢有利差异的概率为82.1%, 而班组丙正好相反。当这两道工序成本具有相同差异时,将对炉钢成本差异具有决定性地影响,因此对这两道工序消耗的控制是控制每炉钢实际成本的重点。
现将决策树的分类规则整理详细叙述如下:
规则1 If工序1实际成本<标准成本AND工序2实际成本<标准成本Then炉钢成本差异为Y。
规则2 If工序1实际成本>标准成本AND工序2实际成本>标准成本Then炉钢成本差异为N。
规则3 If工序1实际成本<标准成本AND工序2实际成本>标准成本Then炉钢成本差异为Y的概率较高。
规则4 If工序1实际成本>标准成本AND工序2实际成本<标准成本Then炉钢成本差异为N的概率较高。
可以看出,加强班组成本管理意识以及工人操作水平是控制炉钢实际成本的关键所在,此外还要加强对炼钢关键工序消耗的分析和控制。
4 结束语
基于数据仓库(数据集市)的挖掘是一个具有广泛用途的领域,本文将其引入到钢铁生产车间成本管理领域是一个较新的尝试,并取得了良好的效果,为数据仓库和数据挖掘技术在车间成本管理领域的应用提供了宝贵的的经验。(万方数据)
- 1人口信息共享:如何发挥资源整体效能?
- 2我国软件行业高速增长喜中有忧
- 3我国机械制造业管理信息化的特点及发展趋势
- 4纺织信息化:建立自主创新支撑体系
- 5计世独家:“绿色IT”节省更多资金的步骤
- 6中国动漫产业现状及弊病之解析
- 7电子政务是否还需要更多“金字”工程
- 8虚拟现实 体验网上逛街
- 9OA软件你的网络办公桌?
- 10见招拆招 化解医药分销渠道的流向之痛
- 11ERP怎样助服装业供应链“抱团取暖”?
- 12中国制造业信息化面临兵临城下的挑战
- 13中小企业提升网络营销成功率应避免五大误区
- 14运营商布局交通物流信息化需要“大统筹”
- 15煤炭企业信息化将产生两方面效益
- 16中国工程机械物流宏观环境发展研究
- 17泛普上海OA产品是如何让保障账号安全的
- 18领导干部应该以何种姿态面对网络时代
- 19选购网络摄像机需要考虑的十大关键因素
- 20如何在供电企业中构建客户为中心的CRM模式
- 21信息化车轮对于办公家具行业的意义
- 22IT冬至来临 中国制造业酝酿突围
- 23打造网络化的绿色制造产业生态链
- 24制造企业青睐泛普OA软件
- 25协同和复杂性深化 全球制造业的未来愿景
- 26中国金融业:银行CRM是怎样炼成的
- 27企业整体信息化项目建设的尴尬和顾虑
- 28生产型转向服务型 推动两化融合的战略举措
- 29商业智能在现阶段医疗行业HIS系统中的应用
- 304年是道坎 中国芯片设计公司大多短命
成都公司:成都市成华区建设南路160号1层9号
重庆公司:重庆市江北区红旗河沟华创商务大厦18楼