首页 > 网站SEO优化 > 怎么人工手动查看蜘蛛日志?
201406月20

怎么人工手动查看蜘蛛日志?

网站SEO优化 1,824 views 评论关闭

东莞SEO是安装蜘蛛日志插件的,

什么是蜘蛛日志?

了解搜索引擎蜘蛛原理就很容易理解,搜索引擎借助蜘蛛在某个网站爬行,从而通过网站的一个又一个链接抓取该网站的内容,找到新的内容后,根据复杂的算法最终对网站进行排名,储存在数据库中。最终通过搜索引擎提供给用户搜索。

蜘蛛日志便是搜索引擎通过蜘蛛爬行所留下的痕迹。

分析日志可以让我们知道搜索引擎(百度、谷歌、360)蜘蛛的访问次数、访问时间、及访问状态信息。

如何查看蜘蛛是否爬行袭击网站?

如果你想查看各搜索引擎的蜘蛛是否准时来爬行自己的网站,那就要学会自己查看网站日志文件了。结合seo博客做为一个实例来做一个介绍:

首先利用FTP工具连接服务器,不过这里注意一点事不同的服务器类型操作方法会有一点不同,但通常在服务器的更目录会有一个logs文件夹,里面装的都是网站日志,日志文件的扩展名是log。

我的服务器是万网所以比较特别的是文件夹名字是wwwlogs。

image

进入日志文件夹,你会发现,日志文件是按每一天的访问情况为一个文件保存的。

image

打开日志文件夹,日志文件是按照每一天做一个单独的文件保存。一般的日志直接都是txt文件,我这个比较特殊是一个压缩包。虽然里面只有3天的日志文件,这个是因为我没有把这一个月的日志文件都下载到服务器,不过注意下不同的服务器能保存的日志文件天数也不一样。

现在我先随便下载一天的日志文件用文本工具打开该日志文件,你会发现看到一堆非常像打码的字符,不过仔细一看天啊,这到底是什么天书。

image

注意看有背景的这一部分,我用ctral+f搜索功能查找baiduspider,为什么我要查找baiduspider,因为各大搜索引擎的蜘蛛都是有名字的,这里先普及一下关于搜索引擎蜘蛛的一点小知识:

百度的叫baiduspider;

谷歌的叫Googlebot;

微软的叫bingbot;

搜狐的叫Sogou web spider;

腾讯的叫Sosospider;

360搜索的叫360Spider;

因为国内自从谷歌退出中国市场后,虽然说360搜索已经抢占了10%的市场,但大部分人都是使用百度来搜索,因此主要是以百度为优化对象,现在我们来看看关于百度蜘蛛爬行记录的信息分析,在日志记录中随便找一个百度蜘蛛的信息:

125.90.88.96 [07/Feb/2013:16::45:22 +0800]“GET / HTTP/1.1″

200 5374″”"Mozilla/5.0 (compatible; Baiduspider/2.0; +

http://www.baidu.com/search/spider.html)” 怎么解读这些信息呢?蜘蛛IP–【访问时间】“获取路径”HTTP反馈值200 反馈字节数5357 百度蜘蛛标记。

好吧,这里面获取路径与HTTP反馈值是非常重要的信息,200为正常读取,读取了5374个字节。我们再分析一条记录:

220.181.51.118 [07/Feb/2013:16::45:22+0800] “GET /seo/post=93

HTTP/1.1″ 301 249 “” “Mozilla/5.0 (compatible; Baiduspider/2.0;

+http://www.baidu.com/search/spider.html)”

认真看获取路径这一项,因为我的网站原来改动过一次,被收录的路径/seo/post=93,百度蜘蛛同样爬行,结果我的更改后网站里肯定不会有这一条信息,由于HTTP反馈了301,而301代表已移动 — 请求的数据具有新的位置且更改是永久的。其实这对于我来说是一件好事,蜘蛛爬行不通,知道这条收录记录已经失效,慢慢就会从百度的收录数据库中删除。现在 百度正在审核我的新站点,一天爬行只有18次,也很不错了的。

当然,有朋友会说为什么不利用一些日志查看工具,人工手动察看费时费力,是的,有些不错的工具可以提供更便捷的操作,今天笔者所述内容旨在用最初级的方法教会大家学会察看自己网站的日志。希望以上内容能对你有点帮助。

文章作者:admin
本文地址:http://www.wyxseo.com/252.html
版权所有 © 转载时必须以链接形式注明作者和原始出处!

本文的评论功能被关闭了.