如何从网站日志判断蜘蛛是否抓取自己的网站?

时间: 作者:励志人生 浏览:
其实,我经常有一个错觉,就是当我很用心去优化一个网站的时候,这个网站的优化效果反而没有那么随意而为之的网站优化效果好,仿佛百度知道我们在刻意对某个网站做优化一样,反而是那个不怎么管理的网站,百度倒是很关照,还是说自己的优化水平不够?我也还没想明白到底问题出现在哪里,还是这本身就是个错觉,是我太心急了?拿到一个网站后,该优化的优化了,该更新的更新了,甚至很多细节的东西都优化完毕了,可是网站连个展现量都没有,就算有也是排名很后,难道是优化过度了,被惩罚了吗?算了,不去想这么多了,只是跟大家分享自己的一个感受。

今天要讲的是如何通过网站日志去看你的网站到底有没有被蜘蛛抓取,其实我自己都是用万网上面的主机,所以我也就只讲万网虚拟主机的日志在哪里,我们通过FTP软件链接到万网主机后台的时候,我们的主文件都是放在htdocs这个文件夹下面的,同目录下的wwwlogs文件夹里面装的就是日志文件,不过是以压缩文件的形式出现的,每一天的日志都有,详细记录了你的网站被蜘蛛所爬过的痕迹,非常清楚,想要获得日志就直接下载某天的日志下来打开看就可以了,前提是你要先登录万网虚拟主机控制后台,去申请开通网站日志功能,这样你的wwwlogs文件夹里就有每一天的网站日志文件,想看的时候随时下载来看,不顾日志文件也占主机空间的哦,短时间可能不是很大,长期下来也是不小的,所以可以定时的进行删除。

那么拿到日志文件怎么看呢?

其实很简单。一般的日志格式如下:


123.125.71.91 - - [18/Oct/2015:06:22:59 +0800] "GET /lizhigushi/78.html HTTP/1.1" 200 11382 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" qxu1132170151.my3w.com text/html "/usr/home/qxu1132170151/htdocs/lizhigushi/78.html" 19291


从IP开始,这个IP是百度蜘蛛的来源,就是这个蜘蛛是从什么地方的哪台服务器来爬你的网站的,百度一下这个IP就知道具体地址了,然后[]里面的这些很明显就是蜘蛛来的时间啦,GET后面代表蜘蛛爬到的内容,http/1.1  200代表抓取成功,如果是304则抓取的内容和上一次抓取没有变化,404代表这个页面不存在了,抓取失败。还有其他的代码大家可以再去查一下,Mozilla/5.0是对方使用的浏览器软件,compatible代表对方使用的浏览器可以兼容你的网站,接着Baiduspider就是百度蜘蛛了,后面接着的就是百度蜘蛛的来源网址,下面的可以不用看了。其实就简单的通过状态码200我们就可以判断抓取成功了,304就是抓取了,但是内容没变化,404那就是抓取失败啊,所以只要懂得这几个状态码就可以了,没那么复杂,但是如果你查找你的日志整片都没有Baiduspider或者googlebot,那代表你的网站是真的没有蜘蛛来爬。那你可就得多点提交网址,发几个外链才可以了,这是网站的门口。打开大门,蜘蛛不会不来的。好了,今天就讲到这了。谢谢
微信公众号
微信公众号:
  • 前端全栈之路(微信群)
前端QQ交流群
前端QQ交流群:
  • 794324979
  • 734802480(已满)

更多文章

栏目文章


Copyright © 2014-2023 seozhijia.net 版权所有-粤ICP备13087626号-4