網站SEO必備:網站日志分析

2016-04-06 14:06 來源: 站長資源平臺 編輯: 佚名 瀏覽(2723)人   

  作為一名seoer,對網站日志分析是必需要掌握的一項基本的技能,通過日志分析可以分析爬蟲抓取頁面有效性,通過日志分析蜘蛛返回的狀態碼能及時發現網站里面是否存在錯誤或者蜘蛛無法爬取的頁面,排查網站頁面中存在的404錯誤頁面,500服務器錯誤等這些噪音內容上噪音頁面上(重復頁面,低質量頁面,空內容頁面,404頁面,不排名頁面等)

     1.png

  網站日志分析


  一、網站日志可以為我們做什么?


  1、 可以分析爬蟲抓取頁面有效性(減少搜索引擎在一些噪音頁面上:重復頁面,低質量頁面,空內容頁面,404頁面,不排名頁面 的抓取頻率);


  2、排查網站頁面中存在的404錯誤頁面,500服務器錯誤等


  3、頁面重要內容是否被爬蟲完整爬到并且快速遍歷;


  4、正確分辨蜘蛛爬蟲


  二、常見HTTP狀態碼解讀


  1、200代碼,表示蜘蛛爬取正常


  2、404代碼,訪問的這個鏈接是錯誤鏈接


  3、301代碼,永久重定向


  4、302代碼,表示臨時重定向


  5、304代碼,客戶端已經執行了GET,但文件未變化。


  6、500代碼,表示網站內部程序或服務器有錯


  接著,我列舉一個網站日志的案例:

    2.png


  日志里的含義,可以大家看下網站日志中各個數據都代表什么意思,總之這個文件是記錄的一天發生在網站上的一些行為。當我們拿到這么一個網站日志,我們就可以審視我們的日志,并且通過對日志文件分析解決網站存在的問題;


  三、日志代碼解讀

     3.png


  從日志文件當中可以解讀出兩個部分內容:


  1、搜索引擎抓取情況

    4.png


  從日志文件中,可以大家看到搜索引擎抓取了一些404頁面及低質量重負頁面(噪音行為)


  備注:可以通過nslookup  ip 識別蜘蛛的真假


  /date-2016-01.html(低質量重負頁面)


  /author-1.html(低質量重負頁面)


  /downloads/(低質量頁面)


  /contact.html(死鏈接接),但這里有個問題,這個頁面返回的狀態碼為200而不是404,但頁面卻跳轉到404頁面,從中可以發現服務器設置一定有問題;


  所以,當我們有一些頁面不希望他們抓取的時候,我們需要在robots中進行規范。規范robots一個重要的手段,就是robots.txt。爬蟲糾偏,讓爬蟲花更多的精力放在我的詳情頁面上。


  2、用戶訪問網站情況


  關于用戶網站訪問情況, 主要分析用戶訪問網站行為軌跡及用戶屬性,在這就不進行講述


    本文來源于互聯網,如有疑問請及時聯系站長資源平臺官方客服,謝謝!


【版權與免責聲明】如發現內容存在版權問題,煩請提供相關信息發郵件至 [email protected] ,我們將及時溝通與處理。 本站內容除了2898站長資源平臺( 辽宁十一选五电脑版走势图连线 www.wspjh.icu )原創外,其它均為網友轉載內容,涉及言論、版權與本站無關。

發表評論

您已輸入/300字發布

全部評論

压龙虎技巧公式 时时彩大小稳赚法 斗牛看三张牌抢庄技巧 内蒙古时时快三走势图带连线 2019免费注册送30元体验金 3分赛车计划彩票稳赚技巧 杰克棋牌 双色球走势图表 近期电子送彩金网址 最新大乐透中奖规则表 三公游戏规则技巧 吉祥体育手机投注登入 天津时时彩开奖纪录 时时彩最准计划网站 快乐时时官网下载手机版下载 赢钱棋牌游戏平台