应对超大访问流量统计
应用背景
新华网在世界网站的排名中名列我们国家新闻网站首位,网站的点击率非常高,访问流量很大。为了获取网站的信息流量和使用情况,以及用户访问网站的相关信息,实现对各类业务信息流数据的统计分析,传统的解决方法是由分析系统提取网站中所有服务器上的LOG日志文件,对LOG日志文件中所记录的服务器访问记录进行统计分析,最终得出整个网站的访问量的统计分析结果。
目前,新华网的服务器数量已达数十台之多,如果使用这种方法来实现对整个网站的访问情况的统计分析,则分析系统必须分别访问并提取各个服务器的LOG文件,这样就会给服务器以及整个网络造成正常运行之外的额外系统开销。假设每个服务器的LOG日志文件为10-100M字节量级,那么,数十台服务器的LOG日志文件就是几千兆字节,甚至几十千兆字节,分析系统在提取这些日志文件时,一方面要加重服务器的访问开销,另一方面还要加重网络交换机的负担,损耗整个网络的性能。另外,使用服务器LOG日志文件进行统计分析还不利于实时统计分析,因此,通常的解决方案不适合这种大型网络的访问流量的分析统计需求。
基于上述应用背景和分析,我们提出了一种全新的技术思路来实现新华网访问流量统计分析的需求,即从网络上实时采集数据流,从数据流中提取网络会话并处理对网站中各类服务器群的访问请求与应答信息,生成LOG项写入LOG日志文件。在实际应用中我们选用了CAPTECH公司的网络会话流采集分析系统NSCAS,其特点是针对高速网络的数据采集、提取会话处理以及生成LOG日志文件。
NSCAS技术解析
NSCAS的网络会话实时采集处理技术是在网络线路上采用线路分向旁路监听方式,高速地采集网络上所有数据流,从所采集到的数据包中提取网络会话,对会话按相应的应用协议进行处理,生成LOG记录项,按标准LOG日志文件格式进行记录,形成标准的LOG日志文件,这样就可以不用访问服务器而获得与服务器LOG日志文件格式相同的日志文件。
这项技术的优势在于,它不依赖于各种应用服务器的应用系统而独立工作,不对系统和网络的性能和负载产生任何影响。并且,由于日志文件的形成是可以由用户自己定义,因此用户可以将访问某一类服务器的记录放在同一个LOG日志文件中,这样有利于后端统计分析软件的运行效率,提高统计分析系统的处理能力。
新华网的应用效果
新华网采用NSCAS系统后,经过一段时间的实际运行,完全满足了新华网针对超大访问流量统计分析的需求,同时,网络自身的性能没有受到任何影响。该方案中几个关键技术点,如:高速数据采集的性能经过在新华网中的实际测试,根据对网络中实际传输的各种尺寸数据包类型的分布统计,得出其采集能力在700Mbps以上;在满足对本地服务器LOG日志文件的合并处理的需求的基础上,还实现了将新华网的各地区分社频道以及国外分社频道的LOG日志文件同本地服务器一同合并处理的附加功能,同时还解决了访问流量的实时统计问题。
- 1彪悍的移动互联时代 彪悍的移动OA
- 2“主动防御”的技术实现
- 3间谍软件的惯用手法
- 4数据集市技术应用一瞥
- 5提问的智慧 for Oracle
- 6IMS技术简介
- 7OA办公平台在质监信息化管理中的作用
- 8酒店管理难题利用协同OA系统来解决
- 9一项好的邮件服务器灾难恢复计划
- 10如何改善无线连接质量
- 11实现JSP与MySQL的连接
- 12Linux安全十二法则
- 13浅谈集团OA系统的建设策略
- 14存款准备金率结构性调整还有一个优势
- 15OA行业产品型定制型谁主沉浮
- 16OA项目需要勇闯三关:选型关、实施关、维护关
- 17什么是高效安全远程连接
- 18泛普软件:中型企业OA办公系统选购攻略
- 19动态数据仓库发展演变的五个阶段
- 20网络机房发展回顾及技术趋势预期
- 21服务器常见软件故障解析
- 22泛普软件:党政机关办公系统采购9项必读
- 23OA软件中哪些功能模块最受企业欢迎?
- 24OA系统软件四大生态阵营透视
- 25选型OA切忌眼光过分“长远”
- 26中小企业常用的无线路由器设置名词
- 27电子邮件存档技术
- 28高度警惕OA办公自动化软件中的难用产品
- 29为什么网络只发不收?
- 30无线局域定位系统的分析与设计