帝国cms蜘蛛来访记录 帝国cms phpcms

在linux系统下,如何查看百度蜘蛛爬取日志

这个要根据你容器的不同来决定的,

目前成都创新互联公司已为近千家的企业提供了网站建设、域名、雅安服务器托管成都网站托管、企业网站设计、荔城网站维护等服务,公司将坚持客户导向、应用为本的策略,正道将秉承"和谐、参与、激情"的文化,与客户和合作伙伴齐心协力一起成长,共同发展。

默认的路径是你安装时候指定的

如果用的LNMP之类的安装包

你可以在SHELL下

whereisnginx

找到相应的路径之后

在NGINX下的CONF文件夹里看配置文件,日志文件如果记录了话

在配置文件里有路径的,这个还是比较麻烦现在的都是使用系统类似的有dedecms,wordpress,帝国cms,搜外6系统可以直接在根目录下或者功能统计里面直接查看百度蜘蛛爬取日志。

如何查看蜘蛛访问网站的记录

对于很多做网站的新手来说,都没有经过系统地授课进行网络技术和建站知识学习,做网站都是靠自学,遇到难题在论坛发帖提问,更不会懂得网站优化,对于较基本操作——通过网站日志看蜘蛛来访情况都不知到哪里看,怎么看。前两天看到很多人发帖提问,回复者的答案却比较精炼,不具体,提问者还是云里雾里的,现我就以自己的网站来系统地操作一次,提交给大家参考,有说错的地方,请批评指正。

1、打开FTP登录软件,我用的是FlashFXP,登录空间FTP

登录FTP后,你会发现根目录下有一个wwwlogs文件夹,(有的是weblog,注:不同的服务器空间生成的日志文件目录名称不一样,仅供参考,一般文件夹中包含Log字符的就是日志文件夹)。

2、打开wwwlogs文件夹后,里面有一些以日期格式特征为文件名的.gz后缀结尾的文件,这些就是我们需要下载到本地的日志文件。

3、下载到电脑桌面后,解压缩打开,里面是一个记事本格式的文件,打开文件,看到的是下图这样的代码,我下载的是3月7日的那个文件。

4、分析代码

上图1是百度蜘蛛的IP地址;

2是蜘蛛来访日期时间(2012年3月6日1时21分22秒),3月7日的日志文件记录的是从3月6日凌晨开始,至3月7日1时11分39秒整个时间段的n多次来访记录);

3是百度蜘蛛baiduspider

4是我网站被访问的网页地址;

5是sogou 搜狗蜘蛛的来访,同样也能看到时间和被访网页。

如果是简单的查看,您可以在记事本中搜索baiduspider ,如果想精确分析,可借助一些专用的分析软件。分析下哪些时间段百度蜘蛛来的最频繁,那么我们就在这个时间段更新我们的网站内容,很容易被百度收录的。

通过分析蜘蛛来访纪录,可以了解本站的大体情况,而不用再为百度不放出内页或者不收录的问题而苦恼了。

蜘蛛来访正常,可以确切的说,搜索引擎对你的站很友好的,坚持更新自己的网站,会有不错的收录的。

注:有些共享IP空间可能不支持日志功能,对于独立ip虚拟主机则提供每天的日志下载,而实在没有可以日志功能的空间可以参考使用蜘蛛爬行插件的一些方法进行分析。

怎么查看蜘蛛抓取情况

百度用于抓取网页的程序叫做Baiduspider - 百度蜘蛛,我们查看网站被百度抓取的情况主要是分析,网站日志里百度蜘蛛Baiduspider的活跃性:抓取频率,返回的HTTP状态码。

查看日志的方式:

过FTP,在网站根目录找到一个日志文件,文件名一般包含log,下载解压里面的记事本,这即是网站的日志,记录了网站被访问和操作的情况。因为各个服务器和主机的情况不同,不同的主机日志功能记录的内容不同,有的甚至没有日志功能。

日志内容如下:

61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider+(+)"

分析:

/bbs/thread-7303-1-1.html 代表,抓取/bbs/thread-7303-1-1.html 这个页面。

200 代表成功抓取。

8450 代表抓取了8450个字节。

如果你的日志里格式不是如此,则代表日志格式设置不同。

很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。

抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断。当然,我们希望百度蜘蛛每日抓取的次数越多越好。

让蜘蛛经常光临

文章需要经常更新

蜘蛛就和一个人一样,想要吸引它,必须要有最新鲜的内容。如果都是一些老旧的内容,谁还会还看呢?每天或者数天一篇新的原创文章能够很好地勾引蜘蛛,同时也能够让更多的访客来你的网站上留下足迹。

页面简洁,保证打开速度

一个干净、简洁的页面能够比一个满是广告、无用信息的页面更页面更能够吸引用户,这对于蜘蛛也是。越少的需要抓取的内容,越快的打开速度,能够保证蜘蛛的高效率抓取,蜘蛛来访的频率也会越高。

内部链接结构良好,无死链和大量重复链

蜘蛛的爬行除了抓取页面,还通过页面上的链接进行“行走”。如果正好步入了一个死链,正如同步入深渊一般,蜘蛛可能需要一段时间之后才能继续抓取。同样的,如果有大量的重复链接,一直爬到这个页面上去,蜘蛛就会认为这个页面没有太大的意义,甚至会停止爬行。

为蜘蛛指路——建设网站地图

网站地图就好比是一个指向标,唯有清晰明了的指向标才能指引蜘蛛的去向。方便快捷的道路也会勾引来更多的蜘蛛。

每个页面都有完整的meta标签

拥有完整的meta标签可以更快地告诉蜘蛛这个页面里有什么,提高蜘蛛的抓取效率。这主要包括keywords(关键词)和description(描述),如果想让meta更完美,可以加上generator(作者)、robots(蜘蛛)、copyright(版权)等等。

确保服务器能够正常运作,避免宕机

在建网站之前,就要考虑好选择一个稳定的服务器,宁可多花点钱,也不要贪小便宜。稳定的运作能够使蜘蛛更好地进行抓取并不中断,还能容纳下更多勾引来的蜘蛛。

确保服务器返回信息正常

千万不要限制服务器返回信息,这对于蜘蛛来说很重要。一旦无法获取到正确的返回信息,蜘蛛将会迷失方向。

监测蜘蛛的爬行

可以利用日志知道蜘蛛正在抓取哪些页面,知己知彼,方能根据蜘蛛的喜好对页面进行调整,以勾引来更多的蜘蛛。

利用Google管理员工具查看爬行速度

可以利用Google专门为站长提供的管理员工具对蜘蛛的爬行速度进行查看,合理分配资源,以达到更高的抓取速度和勾引更多的蜘蛛。

增加网站的外链

这一条和第三点相类似,因为蜘蛛的通过链接爬行。别的网站上也有蜘蛛,就可以想办法将蜘蛛勾引过来,这办法就是在网站上发外链。

怎么查看百度蜘蛛有没有来过我的网站

判断蜘蛛有没有来过自己的网站可以查看IIS日志代码。 或者联系空间商开通了蜘蛛访问记录也可以。如果你的空间商给你的空间支持查询蜘蛛访问记录的话。可以在ftp找到WebLog的文件夹,具体步骤如下:1. 打开FTP登陆软件(这里以FlashFxp为例),登陆你的空间FTP。登陆进FTP后,你会发现在根目录下有一个WebLog的文件夹 (注:不同的IDC空间生成的日志文件目录名称不一样,仅供参考.一般文件夹中包含Log字符的都是日志文件夹) 2.打开WebLog目录后,里面有一些以日期格式特征为文件名的.gz后缀结尾的文件.这些就是我们需要下载到本地的日志文件. 3.打开压缩文件,发现里面只有一个以.log结尾的日志文件,我们需要的就是这个文件了. 4.解压后,打开日志文件.Ctrl+F查找baidu.com/search 特征字符(这里以百度蜘蛛为例) 通过分析蜘蛛来访纪录,可以了解本站的大体情况,而不用再为百度不放出内页或者不收录的问题而苦恼了. 蜘蛛来访正常,可以确切的说,搜索引擎对你的站很友好的,坚持更新自己的网站,会有不错的收录的.注:有些共享IP空间可能不支持日志功能.对于独立ip虚拟主机则提供每天的日志下载.而实在没有可以日志功能的空间可以参考使用 蜘蛛爬行插件 的一些方法进行分析.


当前文章:帝国cms蜘蛛来访记录 帝国cms phpcms
转载来源:http://myzitong.com/article/doeepdo.html