网络信息获取的应用 提高信息获取的质量
一、高质量信息获取的背景
互联网的发展,给人们带来了各个领域、形式多样的数字化媒体信息,对这些信息进行有效获取和使用,将促进人们的学习和工作效率。随着互联网的进一步发展,各种基于互联网的应用也会逐渐产生,大量应用在本质上可以抽象为信息的有效获取和使用,当信息从发送者传递到需求者的手中时,价值将随之产生,应用将随之形成。因此,信息的个性化服务,即如何将信息传递到真正需要这些信息的用户手中,成为互联网应用的基础性研究。
为帮助用户获取信息,首先产生了信息获取的研究,它可以让用户根据自己的信息需求,方便地找到在信息内容上与之匹配的网络信息资源,例如数据库的网络检索系统、网络目录、网络搜索引擎等。用户每次进行信息获取时,都要明确地表达自己的需要,通常通过关键词组合。这种方式存在如下不足:一方面,用户有时难以找到合适的关键词表达自己的需要,另一方面,随着网络信息资源的日益膨胀,检索结果中存在越来越多的非相关信息,信息获取的精度不足。
信息获取主要关注用户的短期信息需求,为提高使用的方便性和信息获取的质量,就要关注用户的长线信息需求,因此出现了对信息过滤技术的研究,信息过滤技术假设用户的兴趣将维持一段时间基本不变,利用有关用户兴趣的知识,建立用户的模型,从大量的动态信息流中,根据用户模型找出用户感兴趣的信息。
通常,我们会将经由信息过滤形成的结果主动推荐到用户手中,从而形成了个性化主动信息推荐,目前主要基于信息Agent进行。通过信息推荐技术,计算机以人为中心,主动向用户推荐信息,满足用户的信息需求,这将节省用户的时间,提高其学习和工作效率。
通过信息推荐,各种网络应用可以将相关的信息主动推荐到需要该信息的用户手中,这一方面实现了应用的价值,另一方面也提高了用户的工作与生活质量。例如企业竞争情报信息的获取、名人资讯获取、学术研究资料的获取。高质量的信息获取将成为高质量网络应用的基础,这既是网络应用提供者的需要,也是网络用户的需要。
二、高质量信息获取的含义
高质量信息获取通常包括如下含义:
1、信息要准确:信息推荐系统提供的信息要尽可能地满足用户的需求,这就需要对用户需求的准确把握、对信息内容的准确把握、对信息内容和用户需求之间相关性的准确把握;
2、信息要及时:网络的开放式环境决定了网络上的信息随时都在变化,一方面,不断有新的信息出现;另一方面,原有的信息随时都可能成为过时的信息,因此推荐系统要及时提供用户关注的信息;
3、用户为中心:信息推荐系统要以用户为中心进行服务,这就要方便用户的使用,例如,系统主动将信息推荐给用户;用户可以方便地表达自己的需求;系统要及时适应用户需求的变化。
三、高质量信息获取的相关技术
在信息获取领域,有两类研究方向:基于内容的信息获取和基于合作的信息获取。基于内容的信息获取通过分析资源的内容建立资源的特征向量,根据其与用户需求的相关性,决定是否将该资源推荐给用户。合作信息获取基于网上不同用户之间的相似性进行信息推荐,例如用户x和用户y有相似的信息需求,将用户x感兴趣的信息资源推荐给用户y将比较自然。下面对这两类信息获取技术的研究现状进行简介。
1、基于内容分析的信息获取
在基于内容分析的信息获取中,为判断用户是否喜欢某个信息资源,首先需要建立资源的特征向量,通常采用TFIDF (Term Frequency Inverse Document Frequency)方法生成加权关键词向量。目前,有两种常用的方法来预测用户是否喜欢某个资源:
1) 关键词匹配法。用户需求通过加权关键词向量表达,在预测用户对新资源是否感兴趣时,通过计算两个关键词向量的相似度进行,也称为矢量相似度法或矢量夹角的余弦值;
2) 向量空间法。通过用户评价过的资源集来描述用户的兴趣。当要预测用户对新资源是否感兴趣时,需要将资源转化为向量,在向量空间内进行分类计算(分为用户感兴趣的资源和不感兴趣的资源)。这种方法计算量大,但准确率高,一般需要离线进行。
基于内容分析的信息获取技术通常存在如下障碍:
1) 基于目前的技术,我们对信息资源只有有限的特征提取能力,通常只能对文本内容进行比较简单的特征提取,在很多领域,目前还没有有效的特征提取方法,如:图像、视频、音乐等;
2) 用户喜欢一个事物的原因各种各样,例如对一幅画,用户可能由于不同的原因喜欢它,例如“画中有太阳”、“画中有大海”、“画中是傍晚的景色”、“画是宋朝的”等等,这种复杂性和多样性,使得我们难以建立统一的用户模型及资源模型;
3) 有些需求难以对计算机精确地描述清楚,例如需要的文章的质量、风格或者观点;
4) 有时用户虽然明白自己喜欢什么,但是难以清楚地表达自己具体需要什么。
以上障碍影响了信息获取的质量,为提高获取质量,我们一方面可以采用新的算法,另一方面,合作信息获取也有助于解决这些问题。
2、基于合作的信息获取
人工智能主要通过计算机来模拟人的智能,在机器智能的发展过程中,我们取得了非常丰硕的成果,但是,人们也发现其存在固有的缺点,例如难以把握用户的需求、缺乏联想能力和创新性等,机器智能在很多领域难以超越人的智能。基于内容的信息获取相当于纯粹的机器智能。网络的发展,使得计算机可以通过网络相互连接,它们之间的合作将形成多机合作智能。同时计算机的背后是作为用户的人,计算机的互联也体现为人与人之间的互联,这种互联为我们提供了挖掘人的智能的环境,并将使计算机活起来,此时的智能可能不仅是机器智能,其中大量融合了人的智能,“人工智能”与“真人智能”将全面融合。这种合作智能在信息获取中的应用,就形成了合作信息获取。
四、高质量信息获取的商业意义
第十一次CNNIC调查结果显示,就网民上网目的来看,获取信息是第一位的,53.1%的人将其作为上网最主要的目的。其次是休闲娱乐(24.6%),交友排在第三位(7%)。获取信息仍然是网民上网最主要的目的。
根据互联网实验室的一份研究报告,11.5%的网民使用过付费网络服务(这里所指的付费网络服务是指除去在线购买书籍、光盘等实物产品之外的服务类网络消费项目),略高于10.3%的网上购物比例。这表明付费网络服务已经在中国启动。其中,电子邮箱以54.3%的绝对优势排名第一,网上游戏28.3%排名第二。有偿信息获取的比例几乎可以被忽略。
这就存在一个巨大反差,53.1%的人将获取信息作为上网的最主要目的,但是很少有人为之付费。
有人将值得付费的内容划分为四大类,即:稀缺、独家的内容;专业、权威的内容;不可或缺、赖以生活或者工作的内容;精品的授权内容或某一领域的汇总整合内容等。高质量的信息获取就是通过先进的信息处理技术,将第三类和第四类的信息进行整合,以用户为中心,及时提供准确的信息,为用户创造价值,从而推进有偿信息服务的发展。(CBISMB)
- 1各大公司实施合肥OA的经典方法论汇总
- 2SOA核心价值体现 IBM专家谈SOA服务重用
- 3HR战略分析:假如唐僧团队裁员你会先裁掉谁
- 4企业如何正确运用合肥OA的“魔法棒”
- 5信息化项目支持 知识管理迫在眉睫
- 6商业智能的普及之道 开拓思维和加强协作
- 7信息化中企业物资编码管理实现方法
- 8为何ITIL难以深化 IT服务管理系统构建对策
- 9详解业务流程重组对企业财务管理的影响
- 10泛普OA软件的自定义报表与分享微博
- 11合肥OA进入普及时代 管理软件行业拐点到来
- 12合肥OA攻略之贴牌生产企业合肥OA选型总结
- 13企业整体信息化项目建设的尴尬及顾虑
- 14五个技巧成功实施服务器虚拟化
- 15离散性企业合肥OA实施能力的研究与分析(中)
- 16中小企业如何智选PC 考虑因素面面观
- 17泛普OA软件的功能点9:微博动态元素
- 18关于产品生命周期管理项目的风险管理
- 1910步为企业定制科学有效合肥OA软件选型流程
- 20合肥OA实务 业务流程评述之货款折让流程
- 21可配置合肥OA 让渠道商成为信息化专家
- 22关注:关于合肥OA报表体系几个方面的思考
- 23日式制番管理在企业合肥OA系统中的实现
- 24管理革命先行 走出企业信息技术化误区
- 25ITIL的“三要”、“三不要”
- 26及时应对企业变化 合肥OA要走出服务链断裂迷局
- 27浅析产品设计中的设计流程管理
- 28网络信息获取的应用 提高信息获取的质量
- 29诊断中小企业软件项目管理难题
- 30企业用好业务流程管理将如何跨越五大栏