DM技术简介
数据挖掘(DATA MINE)常用技术
目前市面数据挖掘应用方面有着种类繁多的商品工具和软件,大致可以归纳为下列主要类型:
[1]传统主观导向系统:这是针对专业领域应用的系统。如基于技术分析方法对金融市场进行分析。采用的方法从简单的走向分析直到基于高深数学基础的分形理论和谱分析。这种技术需要有经验模型为前提.属于这类商品有美国的Metastak,SuperCharts,CandlestickForecaster和WallStreetMoney等
[2]传统统计分析:这类技术包括相关分析、回归分析及因子分析等。一般先由用户提供假设,再由系统利用数据进行验证。缺点是需经培训后才能使用,同时在数据探索过程中,用户需要重复进行一系列操作。属于这类商品有美国的SAS,SPSS和Stargraphis等。由于近年来更先进的DM方法的出现和使用,这些厂商在原有系统中综合一些DM部件,以获得更完善的功能。以上两种技术主要基于传统的数理统计等数学的基础上,一般早已开始用于数据分析方面。
[3]神经元网络(NN)技术:神经元网络技术是属于软计算(SoftComputing)领域内一种重要方法,它是多年来科研人员进行人脑神经学习机能模拟的成果,已成功地应用于各工业部门。在DM(KDD)的应用方面,当需要复杂或不精确数据中导出概念和确定走向比较困难时,利用神经网络技术特别有效。经过训练后的NN可以想像具有某种专门知识的“专家”,因此可以像人一样从经验中学习。NN有多种结构,但最常用的是多层BP(backpropagation)模型。
它已广泛地应用于各种DM(KDD)工具和软件中。有些是以NN为主导技术,例如俄罗斯的PolyAnalyst,美国的BrainMaker,Neurosell和OWL等。NN技术也已广泛地做为一种方法嵌入各种DM成套软件中。其缺点是用它来分析复杂的系统诸如金融市场,NN就需要复杂的结构为数众多神经元以及连接数,从而使现有的事例数(不同的纪录数)无法满足训练的需要。另外由受训后的NN所代表的预测模型的非透明性也是其缺点,尽管如此,它还是广泛而成功地为各种金融应用分析系统所采用。
[4]决策树:在知识工程领域,决策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则是比较直观的,因而比较易于理解,。这种方法一般限于分类任务。在系统中采用这种方法的有美国的IDIS,法国的SIPINA。英国的Clementinc和澳大利亚的C5.0。
[5]进化式程序设计(Evolutionaryprogramming):这种方法的独特思路是:系统自动生成有关目标变量对其他多种变量依赖关系的务种假设,并形成以内部编程语言表示的程序。内部程序(假设)的产生过程是进化式的,类似于遗传算法过程。当系统找到较好地描述依赖关系的一个假设时,就对这程序进行各种不同的微小修正,生成子程序组,再在其中选择能更好地改进预测精度的子程序,如此依次进行,最后获得达到所需精度的最好程序时,由系统的专有模块将所找到的依赖关系由内部语言形式转换成易于为人们理解的显式形式,如数学公式,预测表等。由于采用通用编程语言,这种主法在原则上能保证任何一种依赖关系和算法都能用这种语言来描述。这种方法的商用产品还只见诸俄罗斯的PolyAnalyst。据报导,它用于金融到医疗方面军的各种应用于,能获得者很好的结果。
[6]基于事例的推理方法(CBR—Casebasedreasoning):这种方法的思路非常简单,当预测未来情况或进行正确决策时,系统寻找与现有情况相类似的事例,并选择最佳的相同的解决方案,这种方法能用于很多问题求解,并获得好的结果,其缺点是系统不能生成汇总过去经验的模块或规则。采用这种方法的系统有美国的PatternRecognitionWorkbench和法国的KATEtools.
[7]遗传算法(GA—GeneticAlgorithms):严格说来,DA不是GA应用的主要领域,它是解决各种组合或优化问题的强有力的手段,但它在现代标准仪器表中也用来完成DA任务。这种方法的不足之处是:这种问题的生成方式使估计所得解答的统计意义的任何一种机会不再存在。另外一方面,只有专业人员才能提出染色体选择的准则和有效地进行问题描述与生成。在系统中包含遗传算法的有美国的GeneHunter.
[8]非线性回归方法:这种方法的基础是,在预定的函数的基础上,寻找目标度量对其它多种变量的依赖关系。这种方法在金融市场或医疗诊断的应用场合,比较好的提供可信赖的结果。在俄罗斯的PalyAnalyst以及美国的Neuroshell系统中包括了这种技术。
上面所列DM技术不可能是详尽的囊括,因为多年来数理统计分析以及AI与KE的研究提供了种类繁多特点各异的手段,DM开发人员完全可以根据不同任务加以选择使用,另外近年来在软计算(SoftComputing)和不确定信息处理(dealingwithUncertaintyofinformation)方法的研究,促使DM(KDD)技术向更深层次发展。
需要说明的,上面所说的DM中的数据是指数据库中表格形式中的记录和条目,这种数据称作结构型数据(Structureddata)。在一个企业中,还有一类像文本和网页形式的数据,称作非结构型数据(unstructureddata)。它来自不同的信息源,如文本图像影视和音响等,当然文本是最主要的一种非结构数据。1995年分析家已预言,像文本这样非结构型数据将是在线存贮方面占支配地位的数据形式。到1998年初,在Internet上的信息网页数,已超过5亿。随着Internet的扩展和大量在线文本的出现,将标志这巨大的非结构型数据海洋中,蕴藏着极其丰富的有用信息即知识。
人们从书本中获取知识方法是阅读和理解。开发一种工具能协助用户从非结构数据中抽取关键概念以及快速而有效地检索到关心的信息,这将是一个非常引人入胜的研究领域。目前,基于图书索引检索以及超文本技术的各类搜索引擎,能协助用户寻找所需信息,但要深入发掘这类数据中的有用用信息,尚需要更高层次的技术支持,人工智能领域有关知识表示及获取的方法(如语义网络概念映射等),和自然语言理解的研究成果,可望被采用。还可能要涉及到语言学心理学等领域。最近已出现了针对DM工具,如IBM公司的TexMiner,NetQuestion,WedCawler和megaputer公司的TextAnalyst等。
来源:博锐管理沙龙
- 1电子签名的幕后英雄 —PKI/CA在行业中的应用
- 2OA系统更好的为公司业务发展提供支撑和服务
- 3银行中间业务平台分析及实现
- 4企业信息门户商业功能和服务的双轨
- 5并行工程集成框架
- 6入侵检测:2004年出现的4种新后门技术
- 7从泰坦尼克中汲取的IT项目教训
- 8利用数据可视化工具降低导航风险
- 9看Intel如何进行知识管理
- 10企业需要知道哈尔滨OA的应用不是一蹴而就的
- 11哈尔滨OA软件与其他技术的关系如何?
- 12CMS的生命周期和工具箱
- 13渠道别搬起石头砸了自有产品的脚
- 14IBM:对招聘流程进行的创新 点燃团队创新激情
- 15如休运用AHP法筛选“物流服务供应商”
- 16企业服务器互通的价值
- 17让业务与ERP系统更好的集成
- 18IT揭开管理伤疤:波司登集团ERP实施经验
- 19中小企业UPS方案按需选
- 20MSDP扩展多播范围
- 21小专题:研发项目管理
- 22中小企业VoIP部署指南
- 23构成哈尔滨OA软件的技术是什么?
- 24大亚集团信息安全“三级跳”
- 25PLM如何实现对SCM、CRM、ERP的整合
- 26IT项目测试中作出了让步的代价
- 27如何做需求开发?
- 28XML与面向Web的数据挖掘技术
- 29构筑中小企业内部物资配送新模式
- 30下一代网络分组话音接入的实现
成都公司:成都市成华区建设南路160号1层9号
重庆公司:重庆市江北区红旗河沟华创商务大厦18楼