前方高能——本篇文章是攻城獅們根據日常收到的case整理而來,親自編寫,希望站長親們給個好評哦!
平臺攻城獅近日接到了百度內部用戶的反饋,說lvshi.baidu.com站點的收錄情況比較差,希望協助追查原因。
攻城獅追查的過程如下:
首先通過site語法檢索,發現收錄量確實比較少,只有11條,而且還發現一部分是死鏈數據。
然后根據用戶反饋的部分url,檢測發現這批鏈接在2016年12月26日當天已經就已經抓取回來了,首次抓取上是沒有問題;緊接著發現這批網頁都被百度爬蟲判定為空短頁面,從網頁庫中獲取當時的抓取頁面,檢查發現這些頁面抓取回來的內容是一樣的,都是提示讓輸入邀請碼。
被百度爬蟲判斷為空短頁面,肯定是不能被百度搜索收錄的。
有站長可能會問,那等網站全部開放后,是不是就可以收錄了呢?對于百度爬蟲來說,當對一個網站抓取后發現大面積都是低值的空短頁面時,爬蟲會認為這個站點的整體價值比較低,那么在后面的抓取流量分布上會降低,導致針對該站點的頁面更新會比較慢,進而收錄也會比較慢。這里學院君再次強調一下,不要讓爬蟲給站點畫上不優質的標簽哦,后果很嚴重!
那么該如何避免呢?方法其實比較簡單,網站在邀請測試階段使用robots封禁就可以。
掃一掃在手機上閱讀本文章