新手站长分析网站日志的方法 蜘蛛日志分析在线


怎么从网站log日志判断百度蜘蛛来过那么我们如何判断百度蜘蛛来过呢?答案是要根据网站log日志,如果百度蜘蛛来过那么网站log日志中会有相关记录 。一个是百度蜘蛛名字 Baiduspider,一个是百度蜘蛛ip,这两点要综合考虑才能正确分析,下面我们说说具体如何操作 。
1、先确认log日志对客户端访问机器名以及访问ip进行了记录 。
如果没有记录这两项就没有Baiduspider字样显示,也没有百度蜘蛛IP记录 。可以问下你虚拟主机的空间商,如何设置日志记录蜘蛛踪迹,如何下载下来日志,客服会详细告诉你 。
2、下载网站log日志,可记事本打开文件,用查找 找 Baidu,字样并记录,各条数据IP 。
因为有些站是仿百度蜘蛛来访问你的网站,他们名字也起的是Baiduspider,所以,为了避免被迷惑,我们还要根据IP进行反查,来确定这些IP对应的服务器名 。下面是一些log日志中含Baiduspider的记录:
123.125.71.26 - - [14/Feb/2014:01:03:29 +0800] "GET / HTTP/1.1" 200 10599 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
123.125.71.41 - - [14/Feb/2014:07:04:36 +0800] "GET / HTTP/1.1" 200 10599 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
220.181.108.117 - - [14/Feb/2014:01:03:49 +0800] "GET / HTTP/1.1" 200 10599 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
220.181.108.100 - - [14/Feb/2014:07:05:14 +0800] "GET / HTTP/1.1" 200 10599 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
117.28.255.53 - - [14/Feb/2014:08:30:11 +0800] "GET / HTTP/1.1" 200 4111 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
60.172.229.61 - - [14/Feb/2014:09:37:56 +0800] "GET / HTTP/1.1" 200 4123 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
3、点“开始” “运行”》 输入cmd 点“确认”进入命令行模式,在命令行模式 输入 nslookup 回车 进入反查操作 。输入你记录的百度蜘蛛ip 回车 看是否返回百度蜘蛛相关信息 。如果返回就证明是百度蜘蛛;如果没有,证明是其他站仿的百度蜘蛛 。
iis日志分析(搜索引擎蜘蛛抓取记录) 100分可以通过判断http头来截取数据,然后再判断头部信息是否为蜘蛛程序就可以得到结果了
百度蜘蛛爬行日志分析Google的蜘蛛的名字:Googlebot
baidu的蜘蛛的名字:baiduspider
Yahoo的蜘蛛的名字:Yahoo Slurp
看了一看状态码,还没有发现它们的踪影哦……
新手站长分析网站日志的方法 感谢A5给予我们爱分享的人一个机会分享发现一个规律现在好多人都没有分析百度日志的习惯,其实我觉得分析百度日志还是蛮有好处的,至少能看清楚蜘蛛对我们网站的一个认知度 。有些人总在说为什么百度不更新我的快照啊,为什么百度不收入我的文章呢?下面通过日志给大家解答下:
什么是网站日志?
网站日志其实也就是我们的空间日志,就是记载每天各种蜘蛛抓取记录的存储地方,在这里可以看到每天什么时候那个搜索引擎蜘蛛访问了我们的那个页面,如何下载日志文件呢?通常日志文件文件都在log的文件夹内,没有一般在空间商的后台去设置下 。
如何分析网站日志?
首先我们将网站日志下载下来是一个压缩包,我们不用解压,直接用工具就可以分析,我们下下面分析
范思佳在分析概要中可以看到蜘蛛的访问次数和总停留时间,在这里我们可以蜘蛛每天蜘蛛访问我们网站几次?
有没有来到我们网站,如果没有来,要怎么要他经常来?总停留时间可以看出来蜘蛛是不是喜欢我们的网站,因为我的.网站新站也没什么内容,所以导致停留时间低,但是这个数据可以明确的表现出来我们网站蜘蛛是不是喜欢其中的文章,如果喜欢,那几乎就是在网站上呆的时间很长,只要发表文章就被蜘蛛抓取,通过网站日志就可以看出其中的数据,如果要是在前台看,如何看出?
这个页面是蜘蛛抓取的目录,可以看出我们的分类目录有没有被抓取 。那个目录被抓取的更多,蜘蛛更喜欢我们网站那个栏目?
我们看到这个是页面抓取,首先我们看以看到蜘蛛抓取我们的那个页面,我们总说我们的文章不收入,也不知道是不是文章质量?但是通过这个我们可以看出,到底我们的文章有没有被蜘蛛抓取过,如果没有抓取过我们该怎么做?有抓取过我们又该怎么样?都是我们下一步要修改的地方,
这个页面是蜘蛛抓取的状态码,通过这个可以看出我们网站那个页面是错误页面?如何修改?小作分析了下是不是日志分析很重要啊,其实日志分析还有好多的作用等着你去挖掘 。
百度蜘蛛是什么,常见百度爬虫有那些问题简单理解,百度蜘蛛又名百度爬虫,主要的工作职能是抓取互联网上现有的URL,并对页面质量进行评估,给出基础性的判断 。
通常百度蜘蛛抓取规则是:
种子URL->待抓取页面->提取URL->过滤重复URL->解析网页链接特征->进入链接总库->等待提取 。
1、如何识别百度蜘蛛
快速识别百度蜘蛛的方式有两种:
① 网站<a href=https://pipe99.com/luoxuan/网址>蜘蛛日志分析,可以通过识别百度蜘蛛UA,来判断蜘蛛来访记录,相对便捷的方式是利用SEO软件去自动识别 。关于百度UA的识别,你也可以查看官方文档: ② CMS程序插件,自动嵌入识别百度爬虫,当蜘蛛来访的时候,它会记录相关访问轨迹 。
2、百度蜘蛛收录网站规则有那些?
并不是每一个网站的蜘蛛来爬寻抓取就会被收录的,这样就会形成一个搜索引擎主要流程,这个流程主要分为,抓取、筛选、对比、索引最后就是释放,也技术展现出来的页面 。
抓取:爬虫是根据网站URL连接来爬寻的,它的主要目的是抓取网站上所以文字连接,一层一层有规则的爬寻 。
筛选:当抓取完成后,筛选这个步骤主要是筛选出垃圾文章,比如翻译、近义词替换、伪原创文章等,搜索引擎都能够识别出来,而是通过这一步骤识别 。
对比:对比主要是实行百度的星火计划,保持文章的原创度 。通常情况下,经过对比的步骤的时候,搜索引擎会对你站点进行下载,一来对比,二来创建快照,所以搜索引擎蜘蛛已经访问你的网站,所以网站日志中会有百度的IP 。
索引:通过确定你网站没有问题的时候,才会对你网站创建索引,如果创建索引了,这也说明你的站点被收录了,有时候我们在百度搜索还是不出来,可能原因是还没有被释放出来,需要等待 。
3、关于百度爬虫一些常见问题:
① 如何提高百度抓取频率,抓取频率暴涨是什么原因
早期,由于收录相对困难,大家非常重视百度抓取频率,但随着百度战略方向的调整,从目前来看,我们并不需要刻意追求抓取频率的提升,当然影响抓取频次的因素主要包括:网站速度、安全性、内容质量、社会影响力等内容 。
如果你发现站点抓取频率突然暴涨,可能是因为:存在链接陷阱,蜘蛛不能很好抓取页面,或者内容质量过低,需要从新抓取,也可能是网站不稳定,遭遇负面SEO攻击 。
② 如何判断,百度蜘蛛是否正常抓取
很多站长新站上线,总是所发布的文章不收录,于是担心百度爬虫是否可以正常抓取,这里官方提供两个简单的工具:
百度抓取诊断:
百度Robots.txt检测:
你可以根据这两个页面,检测网页的连通性,以及是否屏蔽了百度蜘蛛抓取 。
③ 百度爬虫持续抓取,为什么百度快照不更新
快照长时间不更新并没有代表任何问题,你只需要关注是否网站流量突然下降,如果各方面指标都正常,蜘蛛频繁来访,只能代表你的页面质量较高,外部链接非常理想 。
④ 网站防止侵权,禁止右键,百度蜘蛛是否可以识别内容
如果你在查看网页源代码的时候,可以很好的看到页面内容,理论上百度蜘蛛就是可以正常抓取页面的,这个你同样可以利用百度抓取诊断去解析一下看看 。
⑤ 百度蜘蛛,真的有降权蜘蛛吗?
早期,很多SEO人员喜欢分析百度蜘蛛IP段,实际上官方已经明确表示,并没有说明哪些蜘蛛的爬行代表降权,所以这个问题不攻自破 。
⑥屏蔽百度蜘蛛,还会收录吗?
常规来说屏蔽百度蜘蛛是没办法收录,虽然会收录首页,但是内页却不能收录的,就好比“淘宝”基本上都是屏蔽了百度蜘蛛,只有首页但是依然排名很好 。
总结:很多市面上就会出现一个蜘蛛池这样的字眼呈现,这是一种并不好的一种变现的方式,搜外seo并不建议大家使用,上述仅供大家参考 。
如何查看蜘蛛日志网站日志,是服务器端自动生成的一个文本记录,详细记载了网站的访问详情,做为站长的你,如果是需要查看访问统计数据,那用51.la或者百度统计 工具就可以了,但是如果你想查看各搜索引擎的蜘蛛是否准时来爬行自己的网站,那就要学会自己查看网站日志文件了 。结合我们自己的网站做为一个实例来做一个介绍:
首先利用FTP工具登录服务器端,一般在服务器根目录之下存在一个logs文件夹,这里面装的就是网站日志,当然不同的服务器类型,日志文件的文件夹名称和我介绍的不一样,但没关系,日志文件的扩展名是log 。
日志中蜘蛛的访问行为
进入日志文件夹,你会发现,日志文件是按每一天的访问情况为一个文件保存的:
日志中蜘蛛的访问行为
好吧,我的服务器只保留最近三天的日志文件,真小气,我还用过一个国外的服务器,人家是按月记录,并且当月结束后会将当月的日志打包供下载,只要你不人为删除,该日志文件会永远存在,这才叫个性化,但是没办法,谁叫我们只能用国内的服务器 。
OK,报怨了几句,随便下载一天的日志文件,用Windows文本工具打开该日志文件,会看到一堆酷似代码的字符,祝文件大小打开速度也不同:
日志中蜘蛛的访问行为
注意看有背景的这一小部分,我用CTRL+F搜索功能查找baiduspider,好吧,为什么要查找baiduspider,这里先普及一下关于搜索引擎蜘蛛的一点小知识,各大搜索引擎的蜘蛛都有名字:
百度的叫baiduspider;
谷歌的叫Googlebot;
微软的叫bingbot;
搜狐的叫Sogou web spider;
腾讯的叫Sosospider;
因为国内主要是以百度为优化对象,我们来看看关于百度蜘蛛爬行记录的信息分析,在日志记录中随便找一个百度蜘蛛的信息:
125.90.88.96 - - [07/Sep/2012:19:16:21 +0800] "GET / HTTP/1.1" 200 5374 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
怎么解读这些信息呢?蜘蛛IP--【访问时间】“获取路径”HTTP反馈值200 反馈字节数5357 百度蜘蛛标记 。
好吧,这里面获取路径与HTTP反馈值是非常重要的信息,200为正常读取,读取了5374个字节 。我们再分析一条记录:
220.181.51.118 - - [07/Sep/2012:09:54:15 +0800] "GET /product/disp.php?id=93 HTTP/1.1" 301 249 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
认真看获取路径这一项,因为我的网站是老域名,原来的主人被收录的路径/product/disp.php?id=93,百度蜘蛛同样爬行,结果我的 新网站里肯定不会有这一条信息,由于HTTP反馈了301,而301代表已移动 — 请求的数据具有新的位置且更改是永久的 。其实这对于我来说是一件好事,蜘蛛爬行不通,知道这条收录记录已经失效,慢慢就会从百度的收录数据库中删除 。现在 百度正在审核我的新站点,一天爬行只有23次,也很不错了的 。
好了,大家是不是可以举一反三的学会看其它搜索引擎蜘蛛的爬行记录了呢?下次,笔者将重点再分享一下HTTP的反馈值,大家通过这个反馈值可以获悉自己网站的健康状态哦,非常重要 。
当然,有朋友会说为什么不利用一些日志查看工具,人工手动察看费时费力,是的,有些不错的工具可以提供更便捷的操作,今天笔者所述内容旨在用最初级的方法教会大家学会察看自己网站的日志 。希望以上内容能对你有点帮助 。
【新手站长分析网站日志的方法 蜘蛛日志分析在线】关于蜘蛛日志分析和蜘蛛日志分析在线的内容就分享到这儿!更多实用知识经验,尽在 www.hubeilong.com