分析网站日志:那些莫名其妙的url到底是怎么回事
Mei0.com提示:关于网站日志中的不完整url或莫名其妙的url抓??/font>
在分析日志的过程中,往往会发现404状态下有一些或者很多的不完整的url或者比原url多出字段的莫名其妙的网站本身不存在的url的抓取。在群里面也见有人问过类似的情况,觉得这是一个大家普遍都会遇见的问题,有猜测过有可能是被别人采集才导致这样的问题出现,在上课的时候问过国平老大,当时国平老大说有可能是爬虫在抓取url的时候下载不完整,但是这都没有一个具体的数据来支撑,总是觉得很朦胧没把握。
现在,google管理员工具可以很清晰的用数据为你揭晓这其中的诧异了,google管理员工具是国平老大非常推崇的一个seo工具,有人觉得做百度的人不需要google的东西,因为百度和google的算法有差别,那下面介绍google管理员的这个功能可以告诉你这样的想法是大错特错的,管理员工具是一个按照网站seo各项考核标准制定的一个最最权威的seo工具,做seo需要的数据,绝大部分都可以从这里面获取,下面就来介绍管理员工具的这个功能(好像是最近更新的,以前不是这样子)。
首页看下百度日志里面的怪异404
这些url的入口在哪里呢?搜索引擎是从什么地方获取这些url的?
Google告诉你
首先介绍下google管理员工具关于抓取错误的功能
下面是另一个网站由于改版问题没做跳转和抓取拦截所造成的找不到抓取错误,有一很完整的曲线可以让你很清晰的看见网站存在的这方面的问题的变化趋势
和服务器问题造成的抓取错误
接第一张图(同一个网站)
一开始从日志中观察到这些错误,但是不知道这些错误的来源
现在可以知道这些错误的url是从何而来
点击第102条,弹出下面的框,url不在sitemap中,但是在自己的其他网站里面出现,说明网址是网站自身存在的但是已经被删除了
点击第110条,弹出下面的框,可以看到搜索引擎是从其他网站过来的(或是采集站,或是其他)
点击进入具体的来源页面可以看到
至此,可以很明确的知道,到底网站日志里面的出现的那些莫名其妙的url到底是怎么回事了,是自己站内存在的还是站外错误构成的。最近更新的还有其他的功能,感兴趣的朋友可以亲自用用体验下。
- 1网站分析是干什么?挖掘网站分析的实际价值
- 2WordPress博客优化:制作搜索引擎友好的面包屑
- 3WP-PostViews开启WP-Super-Cache后计数问题
- 4网站运营经验谈:运营不是用户数字堆砌
- 5网站建设公司总计“9大”使用经验技巧
- 6新手做淘宝客网站建议:做细分领域类网站
- 7科技博客GigaOM:论坛或社交网站盈利的建议
- 8地方网站最终目的:帮助当地商家提供信息服务
- 9网站搜索框设计避免的错误 分享优秀搜素框设计
- 10完美的去掉disciz论坛中forum.php
- 11企业微博营销:企业微博产品和发展策略
- 12网络推广经验总结:容易引起网民传播兴趣的推广内容
- 13小企业网络营销:个人总结的微博营销的方法
- 14社会化媒体营销:配置人员及预算编列
- 15美丽说的流量来源分析:把用户分享做到极致
- 16用户眼中的电商网站:体验购买过的电商
- 17DZx2.5论坛伪静态设置:windows主机和linux主机设置技巧
- 18使用ga的url生成工具将关键词记录到CRM中
- 19网站建设公司整理“几大”开展窍门
- 20网站建设公司统计“9大”采取诀窍
- 21垂直网站建站经验分享:网站赚钱和经营思路
- 22淘宝宝贝搜索排名关键和宝贝页面的注意事项
- 23在线视频最佳方法:产品页面的SEO技巧
- 24影响点击转化率的两大因素:流量和成交
- 25WP3.4版本Custom Backgrounds和Custom Headers的新方法
- 26提升网站高质量的内容的搜索引擎优化办法
- 27中小电商的出路在哪里:走出自己的特色做专做精
- 28网站建设公司剖析“9大”使用阅历总计
- 29电子商务布局规划方案:宝丽姿伞业电商发展规划
- 30网站运营经验谈:如何超过竞争对手的网站