網(wǎng)站建設(shè)中一項(xiàng)重要的工作就是改版,每次改版肯定是往好的方面進(jìn)行,因?yàn)槊總€(gè)階段的定位不同,我們要網(wǎng)站所表現(xiàn)的企業(yè)形象也不同,而且一個(gè)好看大氣的網(wǎng)站絕對(duì)能夠在潛在客戶心里提升我們公司的地位。但是多數(shù)的改版對(duì)于我們網(wǎng)站的SEO都會(huì)造成一定的影響,這里就需要我們對(duì)網(wǎng)站的情況掌握的非常熟悉之后,然后進(jìn)行有效地控制,減少改版造成的404頁(yè)面過(guò)多情況。
最近有一個(gè)新網(wǎng)站上線,因?yàn)槭且荒甓嗟挠蛎熬W(wǎng)站和新站內(nèi)容完全不同,網(wǎng)站結(jié)構(gòu)也做了很大的調(diào)整,所以帶來(lái)了很多的404錯(cuò)誤抓取頁(yè)面,當(dāng)時(shí)并沒(méi)有特別注意這個(gè)問(wèn)題,后來(lái)持續(xù)更新了2個(gè)星期左右,發(fā)現(xiàn)快照都沒(méi)有更新,發(fā)了一些簡(jiǎn)單的外鏈也沒(méi)有作用,這個(gè)問(wèn)題就引起了我的注意。下面具體的跟大家分析下自己的一些思路:
1、利用日志分析工具找到404錯(cuò)誤抓取頁(yè)面
日志分析工具利用最常用的光年日志分析工具就可以了,首先利用FTP下載好最近幾天的網(wǎng)站LOG日志,當(dāng)然,想更多的分析,那么多下載一段時(shí)間的LOG日志也可以,利用日志分析工具新建任務(wù)分析各個(gè)階段的百度蜘蛛抓取情況,這里主要考慮百度抓取情況,因?yàn)榻⑦@個(gè)分析工作的前提是快照停滯,收錄為1。
這里建議大家分為三個(gè)時(shí)間段來(lái)分析:
A、分析最近一天的LOG日志,可以是今天的,但是最好是昨天的,因?yàn)樽蛱斓臅?huì)比較全,今天的你即使是晚上來(lái)分析也會(huì)有一部分時(shí)間沒(méi)有統(tǒng)計(jì)到。
B、分析改版之后的LOG日志,因?yàn)檫@涉及到百度蜘蛛對(duì)于網(wǎng)站改版的一些判斷,例如我們可以分析百度蜘蛛什么時(shí)候開始判斷網(wǎng)站已經(jīng)改版,或者什么時(shí)候已經(jīng)放棄對(duì)于舊站URL的抓取等等。
C、改版前后抓取量的對(duì)比,分析改版對(duì)于百度蜘蛛的抓取量影響多大。
至于日志分析工作后面的分析工作都是一鍵式的,具體的分析思路有了之后,我們對(duì)照著進(jìn)行分析,就會(huì)找到很多平時(shí)我們沒(méi)有注意到的問(wèn)題,例如下面出來(lái)改版造成的404頁(yè)面,還有不少的頁(yè)面也是404錯(cuò)誤,我并沒(méi)有意識(shí)到,例如下面的wp-login.php頁(yè)面就是一個(gè)最典型的例子:
404錯(cuò)誤抓取頁(yè)面
2、利用百度站長(zhǎng)工具中的死鏈提交工具進(jìn)行死鏈提交
百度站長(zhǎng)平臺(tái)LEE團(tuán)隊(duì)說(shuō):404狀態(tài)碼代表‘Not Found’,spider更新時(shí)會(huì)認(rèn)為該頁(yè)面已失效,此時(shí)呢將在索引庫(kù)中刪除,短期內(nèi)spider再次發(fā)現(xiàn)該url不再會(huì)抓取。當(dāng)然,百度的說(shuō)法只能作參考,因?yàn)榉治鼍W(wǎng)站日志發(fā)現(xiàn),2個(gè)多星期百度蜘蛛還是來(lái)抓取這些錯(cuò)誤頁(yè)面,當(dāng)然,百度對(duì)于404錯(cuò)誤頁(yè)面的指導(dǎo)性操作,還是非常有針對(duì)性的。
百度站長(zhǎng)平臺(tái)對(duì)404頁(yè)面的看法
特別是死鏈提交工具中提交死鏈sitemap,這一條大家可以根據(jù)自身的情況進(jìn)行死鏈提交,我這邊提交后暫時(shí)還沒(méi)有大的效果,因?yàn)榇蠹叶贾腊俣鹊男Ч宫F(xiàn)周期一般都比較長(zhǎng)。
3、利用robots.txt和nofollow標(biāo)簽引導(dǎo)蜘蛛抓取
404錯(cuò)誤頁(yè)面一個(gè)最大的壞處就是給蜘蛛帶來(lái)一些錯(cuò)誤的抓取,浪費(fèi)了蜘蛛抓取資源,舉個(gè)例子,首先我們要達(dá)成這樣的一個(gè)共識(shí):任何一個(gè)網(wǎng)站的蜘蛛抓取訪問(wèn)資源都是有限的,小網(wǎng)站自然要少很多,而大網(wǎng)站就要多很多,要想蜘蛛抓取率更高,抓取的更合理,那么一些錯(cuò)誤的鏈接造成的404錯(cuò)誤量就要盡可能的減少。
所以我這里針對(duì)網(wǎng)站的這些資源的浪費(fèi)進(jìn)行了適當(dāng)?shù)囊龑?dǎo),讓蜘蛛抓取我想讓他抓的一些頁(yè)面,對(duì)于/wuchenshi/、/gaoxiao/等類似的欄目頁(yè)面都進(jìn)行robots限制抓取,對(duì)于網(wǎng)站中一些不參與排名的鏈接實(shí)行nofollow,引導(dǎo)蜘蛛抓取重要頁(yè)面。下面看看蜘蛛6.3號(hào)抓取的情況,首先目錄抓取中已經(jīng)沒(méi)有了網(wǎng)站中不存在的目錄:
蜘蛛對(duì)目錄的抓取情況
對(duì)于蜘蛛訪問(wèn)的404頁(yè)面,就只剩下一個(gè)圖片的404錯(cuò)誤抓?。?
改進(jìn)后404錯(cuò)誤抓取
目前還沒(méi)有看到快照更新和收錄增加,當(dāng)然,理論上這種操作應(yīng)該會(huì)幫助網(wǎng)站更快的獲得搜索引擎的認(rèn)可,后面如果有恢復(fù),會(huì)在文章中為大家做一個(gè)補(bǔ)充。
總部商務(wù)中心:溫州市龍灣區(qū)玉蒼西路80號(hào)6幢(溫州故事文創(chuàng)園)401室
手 機(jī):18668707377、18906775927 聯(lián)系人:陶先生
傳 真:0577-86866500
E-mail:inj@injnet.com 郵編:325000
聯(lián)系我們騰龍國(guó)際公司上分電話19188566669(首頁(yè))-版權(quán)所有 Copyright? 2017 www.injnet.com All Rights Reserved.浙ICP備16006375號(hào)
掃一掃關(guān)注我們
掃一掃關(guān)注我們