文本驱动的商务智能应用框架与实现过程
1 文本驱动的商务智能应用框架
文本驱动的商务智能是文本挖掘技术在商务领域中的应用,严格的讲,文本挖掘是数据挖掘领域的一个新分支,但与传统数据挖掘相比,在技术上有很大的不同,并且其应用更广,因此,笔者认为为了强调文本挖掘在商务智能中的重要性,并与传统的基于结构化数据的商务智能相区别,美国clearforest公司提出“文本驱动的商务智能”这一概念是可取的。
现在企业内外充斥着大量的文本信息,如技术报告,市场报告,各种文书,担保材料,呼叫中心的客户投诉记录,交互式访谈或客户发送的E-mail意见或建议,以及企业外部尤其是网上与行业发展有关的新闻报道,产品与技术报道以及竞争对手的动向等等。对这些非结构化以及半结构化的数据进行分析挖掘,可以发现产品存在的问题,客户的需求以及忠诚度,竞争对手的动向以及行业的发展趋势等。如图1展示了文本分析在企业管理与决策支持中的应用框架。
图1 文本驱动的商务智能应用框架
文本驱动的商务智能文本是建立在文本挖掘技术基础上的,其不但要处理大量半结构化和非结构化的文档,而且还要处理其中复杂的语义关系,因此,现有的数据挖掘技术无法直接应用。对于非结构化问题,一条途径是发展全新的数据挖掘算法直接对非结构化数据进行挖掘,由于数据非常复杂,导致这种算法的复杂性很高;另一条途径就是将非结构化间题结构化,利用现有的数据挖掘技术进行挖掘,目前的文本挖掘一般采用该途径进行处理。对于语义关系,则需要集成计算语言学和自然语言处理等成果进行分析。
文本挖掘可以通过图2有个大致理解。它由三部分组成:底层是文本挖掘的基础领域,在此基础上是文本挖掘的基本技术,最上层是应用,包括信息访问和知识发现,其中信息访间包括信息检索、信息浏览、信息过滤、信息报告等,知识发现包括数据分析、数据预测等。
图2 文本挖掘的技术构成
其中,信息抽取技术是将非结构问题转化为结构化问题的关键,同时,在商务智能中,商务信息的抽取又是发现商机的前提,因此,在文本驱动的商务智能中起着至关重要的作用。
2 文本驱动的商务智能案例——CLearForest Text Analysis Suite
ClearForest公司是将非结构化的内容转变为有价值的商业智能行业中的领导者,其创始人Ronen Feldman博士被称为文本挖掘之父。文本驱动商务智能这一概念就是QearFon}t倡导的,并提供了解决方案——C.learFoiest Text Analysis Suite。
C1esrForest的解决方案应用了对自由文本中存在的关键实体(如人、公司、地点、事实或事件)进行智能标注并提取的技术,一旦信息提取并结构化,这些信息就能够用于独立的分析应用或者载入公司既有的数据集市并与结构化数据结合以提供更全面的商务智能。下面简单分析一下其工作过程,如图3所示。
图3 CLearForest Text Analysis Suite的工作图
Tagging就是对文本进行预处理,包括文本格式识别,句法分割(Sentence Splitting),词性标注(P0S tagging),词干提取(sternnting),停用词剔除,同义词处理,歧义消除(Sense Disambiguation)等。通过这些预处理将文本分解成为有一定语言意义的语言片段,并对这些语言片段进行标记,使文本能够被转换成为更易于被信息抽取系统处理的模式。
Extraction就是信息提取,指从文本中抽取用户感兴趣的实体、事件、关系等特定信息,除了一般的概念、术语外,更重要的是人名、地名、公司名、时间、地点等未登陆词的提取,并通过句法分析与推理识别文本中的共指现象,发生的事件,最后还要合并描述同一事件或实体的信息片段,以形成实体或事件的完整描述。G1esrForeat采用统计分析与语义分析相结合的方法,对文本的内容进行分析提取,提取的信息可用XML语言结构化表示,或进一步导入关系数据库中以进行分析挖掘。图4为信息抽取的例子。
图4 CLearForest Text Analysis Suite信息抽取的图例
对于抽取的信息进行结构化表示后,一部分如与客户,产品有关的信息可以与传统商务智能相结合,以追踪业务数据中反映出的某些问题的来龙去脉。此外,还可以单独的进行分析挖掘,如分类、聚类、文本总结以及关联规则挖掘等处理,以供检索利用以及新信息新知识的发现。分类聚类是大规模文本组织、开发和检索的基础,也是从大量文档中发现规律与趋势的基础。例如,可以对来自不同客户的E-mail进行聚类以发现某些具有共性的问题。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释,帮助用户快速浏览选择。关联规则分析就是找出两个或多个变量的取值之间存在的某种规律性,在商务应用中,就是通过设定关联的条件与规则,如实体(如技术、产品、人物或事件)在某些条件共同出现的频次,来找出不同实体之间的关系,从而支持决策分析。对一些预先设定的信息监测或预警目标,当分析挖掘的结果满足某种条件时,则给出相应的报告与预警。
ClearForest Text Analysis Suite有个特色就是内容衍生应用(Content Derivative Applications)。内容衍生应用就是将现存的内容重新调整以展示出其间包含的内在价值,并集成到用户的工作当中,帮助用户解决问题,是启发观点的交互式应用。这种应用不是简单的组织文档以供检索利用,而是直接深入文档的内容,在信息提取的基础上,对文档中的关键信息进行重新组合,为用户提供直接的答案,省却大量查阅之苦。如图5为一个反映人物概况(People Profiles)的内容衍生应用例子。
图5 内容衍生应用的例子:人物概况(People Profiles)
目前ClearForest弹产品已受到汽车、医药、金融等行业中的一些重要公司的青睐,并在质量管理,客户忠诚度管理,竞争情报等领域有着相应的解决方案与应用。
3 文本驱动的商务智能在中国发展的障碍与前景分析
3.1 中国发展文本驱动的商务智能的技术瓶颈——中文信息抽取
文本驱动已成为商务智能的热点,尤其是在美国,IBM、SPSS、SAS以及其他一些著名的商务智能产品提供商都陆续提供文本挖掘产品,如IBM Intelligent Miner for Text,SPSS Predictive Text Analytics,SAS Text Miner等等。但是从全世界范围内来看,文本驱动的商务智能还没形成气候,尤其是在中国。除了中国的企业信息化建设滞后这一根植于社会的基本原因外,还有一个很关键的技术瓶颈——中文信息抽取。
信息抽取与信息检索不同,信息抽取不是利用关键词匹配技术从大量文档集中找到与用户需求相关的文档,而是借助自然语言处理技术对文本中的句子以及篇章进行分析处理后直接获得用户感兴趣的事实信息。根据消息理解会议(MUC)的定义,信息抽取的任务有5个层次。
(1)命名实体(NE)的识别。抽取文档中的人名、地名、组织名、日期、时间和涉及的一些数额等信息内容。命名实体的识别技术是信息抽取技术中最简单,也是最可靠的技术。
(2)指代(CO)的解析。分析文档内以及文本间(跨文本)实体之间的指代关系,将不同的指代连接到同一实体上。
(3)模板元素(TE)的构建。将描述性信息联系到实体上,形成对实体的完整描述。
(4)模板关系(TR)的构建。发现实体之间的相互关系,在模板元素的基础上,寻找实体之间可能存在的关系。
(5)场景模板(ST)的产生。场景模板是信息抽取系统输出的原型,场景模板的产生就是将各实体联系到一起形成事件或关系的完整描述。
中文信息抽取的研究起步较晚,目前还集中在命名实体识别方面,遵照MUC规范的完整的中文信息提取系统目前还处于探索阶段。与英文信息抽取相比,中文信息抽取面临着更多的困难,其中首要是自动分词问题,因为汉语中词的概念缺乏清晰的界定,词与词之间缺乏像英文一样的空格切分符,更难的是歧义切分字段的处理,虽然经过是十几年的研究,在速度与精度上取得了令人瞩目的成果,但还有待进一步的研究与提高。此外可供利用的语料库、本体库也较缺乏,目前中文信息抽取的一些实验研究成果(主要在命名实体的识别方面)在开放的语料库上测试的召回率与准确率都不太理想,系统可移植性的实施还存在困难。信息抽取技术是文本挖掘的重要基础,这一点从图2与图3就可以看出来,因此中文信息抽取技术得不到突破,文本驱动的商务智能就难以在中国发展。
3.2前景分析
根据计世资讯(CCW Research)的分析,信息化建设像搭建一个金字塔,它可分为三个层次,BI位于这三个层次中的最顶层,它的建设需要其他系统的支持,如图6显示信息化建设层次图。
图6 信息化建设层次图
商业智能(BI)系统已经成为继企业资源计划(深圳OA)之后最重要的信息系统。在中国,商业智能也已经被越来越多的企业管理者所认识,并且在电信、金融、零售、流通等行业,商业智能已经成为信息化建设的重点。根据计世资讯的相关数据显示,2004年国内BI的销售额为4.2亿,2005年则达到6.1亿,增长率为45%,但计世资讯的调研结果也表明,我国企业的信息化水平普遍偏低,目前仍处于初级阶段,其中,在大型企业中信息化水平处于业务整合的比例为17%,达到成熟阶段水平的比例仅为1%,而在中小企业中,业务整合、系统整合和成熟阶段三个阶段之和占总体信息化水平的比例不足1%。因此如果不能快速提高国内信息化水平,未来几年BI系统在国内市场将很难得到快速发展。
虽然商务智能是建立在企业系统集成阶段之上的应用,但文本驱动的商务智能作为商务智能系统的一个子系统(如竞争情报的搜集与分析系统),可以不经过业务与系统的集成而直接开发应用,发挥企业的决策支持作用。因此随着企业对商务智能的认识的不断深入,随着中文信息抽取以及文本挖掘技术的发展,文本驱动的商务智能必将得到国内IT以及企业界的重视并得到快速的发展与应用。
4 结 语
从大量的文本中寻找关联,发现新知已不是什么新鲜话题,但是采用先进的文本挖掘技术并应用在商业领域则是近几年的一种新气象。从目前国际商务智能技术与产品的发展走向看,文本驱动的商务智能是一种必然的趋势。目前,虽然我国还存在着这样那样的困难与障碍,使得发展文本驱动的商务智能还为时过早,但随着国内商务智能发展热潮的到来以及中文信息抽取及文本挖掘技术的发展,文本驱动的商务智能必将得到IT以及企业界的重视并得到快速的发展与应用,并且带来巨大的商业利益。(万方数据)
- 1协同办公OA软件在企业中的深度管理数据挖掘
- 2高级计划与排程如何解决供应链的应用问题
- 3如何理解信息化项目成败的判定标准
- 4企业如何做好深圳OA项目启动会的准备?
- 5送你一双慧眼 识破伪知识管理软件
- 6信息化是否是中小企业最后的救命稻草
- 7收集用户要求改进的建议,不段完善OA系统
- 8如何给深圳OA系统软件进行合理定价
- 9初学者入门:供应链管理软件基本功能
- 10互联网营销成为降低中小企业成本的新招
- 11阻碍企业信息化建设的七大因素
- 12面向服务的架构SOA有哪些基本原则
- 13不要抛开业务谈流程管理
- 14开源软件SOA解决方案对企业三大好处
- 15实施深圳OA需要避开的三大误区
- 16企业实施SOA都有哪四大基本收益?
- 17采用绿色IT方式会不会增加企业的投资?
- 18BPR应用:全面质量管理和6σ协同的业务
- 19痛苦的抉择 ITIL三大产品怎么选
- 20沸腾的深圳OA时代 企业IT面临新挑战
- 21企业级用户如何选择VTL(虚拟磁带库)
- 22SaaS深陷争议“泥潭”
- 23深圳OA实施如脱缰野马 里程碑式管理立奇功
- 24SOA实施技巧:对技能集和文化进行分析
- 25采用绿色IT方式是否会增加企业的投资?
- 26时间,如何左右企业的信息化项目计划?
- 27中小企业应如何租用和购买销售管理软件
- 28专家称门户服务将成为SOA架构的关键
- 29SaaS给成长型的企业CIO带来新机遇
- 30OA为整个资产OA系统的实施推进起到了关键作用