搜尋此網誌

2012年4月3日 星期二

搜尋引擎 & 蜘蛛

搜尋引擎工作原理:網頁自動索引程式+分詞+索引+查詢+用戶體驗


搜尋引擎蜘蛛來讀取你的網站的時候,主要以文字資訊為主,因此蜘蛛需要把頁面中的內容索引出來,然後過濾掉如flash等多媒體內容,同時記錄文字的版面格式和資訊,讀取到頁面資料後會執行四項工作:
  1. 關鍵字的索引
  2. 重複、轉載的去除
  3. 連結分析
  4. 網頁重要程度運算
然後將結果放入搜尋引擎索引資料庫中。

搜尋引擎蜘蛛 ( Web Spider)
主要工作就是來蒐集網站資料回去供,搜尋引擎分析後排名

所以當使用搜尋引擎搜尋時,載出的頁面早在之前就已經準備好了!
搜尋引擎在收集網頁的時間點可分為兩種:
  • 定期收集網頁:每隔一段時間,搜尋引擎就會對整個網路上的網站從頭到尾收集一遍,但是全世界網頁資料龐大,從頭到尾更新一次,就算網站沒有更新資料,也會被重新蒐集一次網頁資料,所需時間要一兩個月以上。
  • 增量收集網頁:針對各個不同權重的網站,給予不同的拜訪次數及拜訪時間的長度。因此為什麼常常說網站要持續穩定的更新原因就在這,更新越是頻繁那蜘蛛拜訪的時間就越快。相反地,如果每次來拜訪你的網站,都沒發現新的資料,那搜尋引擎來的速度就會越來越慢。
搜尋引擎抓取網頁的方式分為兩種:
  • 廣度優先:網路蜘蛛會先抓取導覽列所有網頁,然後再選擇其中的一個網頁往下抓一整層,類似水平抓法。這是最常見的方式,主要對於新的網站或是權重較低的網站採取廣度優先,因為這個方式可以讓蜘蛛並行處理,提高抓取速度。
  • 深度優先:網路蜘蛛會從首頁的第一個連結一個連結往下抓,抓到沒有連結頁面之後再回首頁從第二個連結往下抓,類似垂直抓法。這個方法的優點在可以完整性的抓取一整個網站的資料,通常使用於權重較高內容較豐富的網站。

參考資料:
SEO教學第三課:搜尋引擎原理:網頁蒐集!:http://www.wide.com.tw/seo-teaching/723
搜尋引擎蜘蛛與SEO優化的關係?:http://www.wide.com.tw/seo-2/308





沒有留言:

張貼留言