緋知之艱，行之: 搜尋引擎＆蜘蛛

2012年4月3日星期二

搜尋引擎＆蜘蛛

搜尋引擎工作原理：網頁自動索引程式+分詞+索引+查詢+用戶體驗

搜尋引擎蜘蛛來讀取你的網站的時候，主要以文字資訊為主，因此蜘蛛需要把頁面中的內容索引出來，然後過濾掉如flash等多媒體內容，同時記錄文字的版面格式和資訊，讀取到頁面資料後會執行四項工作：

關鍵字的索引
重複、轉載的去除
連結分析
網頁重要程度運算

然後將結果放入搜尋引擎索引資料庫中。

搜尋引擎蜘蛛 ( Web Spider)

主要工作就是來蒐集網站資料回去供，搜尋引擎分析後排名

所以當使用搜尋引擎搜尋時，載出的頁面早在之前就已經準備好了！

搜尋引擎在收集網頁的時間點可分為兩種：

定期收集網頁：每隔一段時間，搜尋引擎就會對整個網路上的網站從頭到尾收集一遍，但是全世界網頁資料龐大，從頭到尾更新一次，就算網站沒有更新資料，也會被重新蒐集一次網頁資料，所需時間要一兩個月以上。
增量收集網頁：針對各個不同權重的網站，給予不同的拜訪次數及拜訪時間的長度。因此為什麼常常說網站要持續穩定的更新原因就在這，更新越是頻繁那蜘蛛拜訪的時間就越快。相反地，如果每次來拜訪你的網站，都沒發現新的資料，那搜尋引擎來的速度就會越來越慢。

搜尋引擎抓取網頁的方式分為兩種：

廣度優先：網路蜘蛛會先抓取導覽列所有網頁，然後再選擇其中的一個網頁往下抓一整層，類似水平抓法。這是最常見的方式，主要對於新的網站或是權重較低的網站採取廣度優先，因為這個方式可以讓蜘蛛並行處理，提高抓取速度。
深度優先：網路蜘蛛會從首頁的第一個連結一個連結往下抓，抓到沒有連結頁面之後再回首頁從第二個連結往下抓，類似垂直抓法。這個方法的優點在可以完整性的抓取一整個網站的資料，通常使用於權重較高內容較豐富的網站。

參考資料：

SEO教學第三課：搜尋引擎原理:網頁蒐集！：http://www.wide.com.tw/seo-teaching/723

搜尋引擎蜘蛛與SEO優化的關係？：http://www.wide.com.tw/seo-2/308

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)