网站性能测试实例:5分钟内定位线上问题
我们最近为我们的大多数实际运行的网站改变了验证服务。验证服务发生变化是一件大事,我们先在测试环境上上测试了这个变化,之后才部署到线上的生产环境。测试环境下一切看起来很好。结果部署到线上环境之后发现,有一个方面我们遗漏了,导致特定的用户组当中有几个用户受到了影响,他们现在访问不了网站上的某些内容。
我前前后后花了5分钟时间来查找这个问题、确认带来的影响,并且为我们的操作部门提供了足够多的信息,以便解决问题。
第一个问题:有没有问题是我们在测试环境中没有发现的?
打开应用程序概况图后显示,我们的门户网站上某个事务出现的失败率非常高:
应用程序概况图表明了我们的其中一个事务出现的失败率很高。
先来回答第一个问题:没错,我们确实遇到了问题!
第二个问题:究竟是什么问题?
下一步是查看自动检测到的错误,这些错误表明这种问题与HTTP 4xx请求有关——这意味着,许多用户访问几个页面的请求被拒绝:
访问拒绝问题是导致失败率很高的根源。
现在,我们完全知道了访问这些页面出现了限制问题。至于这是个实际的问题还是只是用户试图访问受限制的内容,还没有搞清楚。
第三个步骤:这是个实际的问题吗?如果是,我能为操作部门提供什么样的信息以解决问题?
正如前面所说的那样,这可能是由于许多用户只是试图访问受限制的内容——这种情况下,我们觉得这些错误没什么大不了,因为本来就会是这样。查看了底层的错误信息(比如异常)后,我们发现,问题实际上与我们的验证服务有关。看来我们在改用新的验证系统之后没有把所有的安全组迁移过去:
异常详细信息表明,我们的安全组遇到了一个问题。
这些信息足以让操作部门搞清楚为什么这些安全组没有被迁移过去。
第四个问题:哪些用户受到了影响?我们能够积极主动地联系这些用户、表示歉意吗?
由于我们现在知道这个问题出在我们身上,我们想知道哪些用户受到了影响。作为应用程序所有者,我想积极主动地联系这些用户,解释他们看来遇到了问题(尽管他们还没有报告这些问题),并且让他们知道我们正在积极寻求解决办法。借助我们的用户体验解决方案,我们完全搞清楚了遇到这些异常的每一个访客的具体情况:
受到验证问题影响的访客
结束语
幸好,我们在测试环境测试了这套系统,因而我们得以解决了这方面的问题。但要是能真正看清生产环境下出现的问题,那就更好了,因为并不总是可能测试每一种场景。
【推荐阅读】
◆设备管理系统运维管理专区
◆泛普BTIM软件协助吉林省政府网站提高服务效率
◆设备管理系统维护技巧:如何完成网络测试
◆网站安全防护软件弥补三大漏洞
◆设备管理软件软件专区
本文来自互联网,仅供参考- 1设备管理系统能提升企业设备管理水平
- 27个技术趋势影响2013年企业发展
- 3正确看待虚拟桌面成本问题
- 4新时代好IT人必须掌握的六项技能
- 5高效的设备管理系统软件助设备管理系统解决难题
- 6网络拓扑管理三部曲
- 72013年IT网络安全重大威胁预测
- 8Gartner:关于私有云的五大是非
- 9未来IT技术展现——虚拟化技术大盘点
- 10运维人员须时刻谨记的十条安全法则
- 11IT技术发展趋势预测:BYOD、大数据上榜
- 12IT运维管理体系转变维护观念
- 13七大云安全核心技术盘点
- 14智能设备管理系统的作用有哪些?
- 15数据中心机房巡检管理该检查什么?
- 16数据中心网络架构的发展趋势
- 17IT业界面临的九大最严峻安全威胁
- 18企业应用云计算的十大理由与注意事项
- 19求一个电厂的设备台帐管理系统软件?
- 20设备管理系统与传统模式的区别
- 21网络安全管理:网络安全领域预测
- 22工厂生产设备管理台账怎样制作?
- 23企业搭建设备管理系统有用吗?
- 24设备管理系统能为企业带来什么?
- 25IT运维管理发展之路回顾
- 26高手自述:运维工程师的13种技能
- 27建筑设备管理软件解决方案?主要功能
- 28IT网络安全管理:如何保护远程桌面协议网络端点安全
- 29调查:2013年十大最热IT职业
- 30数据中心运维管理的流程要求与范围