网站蜘蛛日志分析是一个非常重要的环节。作为SEO优化人员,一定要掌握这个技能。通过对网站蜘蛛日志的分析,我们可以总结出:每天有多少蜘蛛爬上我们的网站,那些链接都被爬上来了?那些被成功捕获了吗?那些没抓到的?为什么抓取失败?原因是什么?网站是否涉嫌K!这对我们的SEO优化非常重要,下面我们会详细说明。
哪里可以得到网站蜘蛛日志?
如果您是虚拟主机,您可以使用文件传输协议链接空间,您的蜘蛛日志存储在“日志目录”中。如果你找不到他们,你可以问你的空间提供商,他们会告诉你。如果你使用WDCP面板和宝塔面板,你需要在“www/wwwlogs”目录下下载你的网站蜘蛛日志。如果使用windowsserver,请点击“Btsoft\Websoft\Apache”另外,蜘蛛日志都是以结尾的文件。日志”。如果是“_log”,可以本地下载,直接重命名为”。日志"!
用什么软件分析web蜘蛛日志?
当你把蜘蛛日志下载到本地的时候,你需要把日志放到软件里进行分析。常用的软件有两种,第一种是在线www。loghao.Com”日志分析工具,二是下载“光年日志分析软件”。这两个日志分析工具都很好,我们平时一起用,效果很好!
如何识别蜘蛛来自哪些搜索引擎?
下图是我用Notepad++软件打开的网站日志的图片。详细评论如下,可以通过分析搜索引擎蜘蛛来自哪个来区分。
Baiduspider:百度蜘蛛,针对百度搜索引擎的爬行。
Googlebot:是Googlebot蜘蛛,针对Google搜索引擎的爬行。
搜狗:是搜狗蜘蛛,目标是捕捉搜狗搜索引擎。
360Spider:是360蜘蛛,针对360搜索引擎的爬行。
我们可以用光年日志工具分析蜘蛛的爬行数据,非常直观!
网络蜘蛛返回的状态码分析
蜘蛛返回状态码,即上图中的“蜘蛛返回状态码”。根据不同的返回状态代码,我们可以分析爬行成功、爬行不成功、是什么原因导致的等信息。以下是各种状态码所代表的含义!
200:表示搜索引擎蜘蛛访问成功;同时也意味着成功。
404:代表性页面不可访问;蜘蛛访问了页面,但没有找到任何资源。
410:请求的资源已被永久删除,蜘蛛爬行资源已被永久删除。
301:代表页面跳转;意思是蜘蛛抢资源的时候我们的链接跳了。
403:状态代码表示服务器拒绝了请求。应检查机器人或服务器访问。
500:(服务器内部错误)服务器遇到错误,是服务器不稳定导致的。
一般来说,我们使用在线工具“logohao”获取蜘蛛状态代码。Com”查看更方便!
当然也可以用光年日志分析软件分析蜘蛛爬行状态代码!
如何查看蜘蛛抓取哪些链接目录?
链接和目录可以通过上图的蜘蛛爬行目录进行分析。比如“/robots.txt”就是我们的“域名/robots.txt”。我们通过光年日志分析更直观!我们可以通过点击光年日志左侧的“目录抓取”和“页面抓取”来检查和分析!
按IP段分析蜘蛛类型
IP段指的是上图中的“蜘蛛IP”,意思很多,包括下降蜘蛛、沙盒蜘蛛、高权重蜘蛛、低权重蜘蛛等。我们可以通过spiderIP段来分析我们网站的整体质量,下面详细说明!
123.125.68.*:这个蜘蛛经常来,其他的很少来,这意味着网站可能进入沙盒,或者受害者的权利可能减少。
220.181.68.*:每天这个IP段只会增不会减,很有可能进入沙盒或者k站。
220.181.7.*,123.125.66.*:代表百度蜘蛛IP访问,准备抓取你的东西。
121.14.89.*:该ip段用作新车站的检查期。
203.208.60.*:该ip段出现在新站和站后有异常现象。
210.72.225.*:该ip段持续巡视车站。
220.181.108.*:基本上你的网站每天一夜都会拍快照,绝对不会错,我保证。
220.181.*:版块属于权重IP版块,该版块抓取的文章或首页基本24小时发布。
123.125.71.106:从内页抓取的权重较低,爬上内页的文章不会很快发布,因为不是原创或收藏的文章。
220.181.108.91:比较全面,主要抓取首页和内页,属于加权IP段,抓取的文章或者首页基本上24小时发布。
扫一扫
全国免费服务热线
18855106346