檢索(Crawl)、索引(Index)是什麼?了解搜尋引擎「檢索」和「索引」運作提升SEO

什麼是檢索(Crawl)與索引(Index),這兩個詞彙在SEO的世界中至關重要,它們直接影響網站在搜尋引擎中的表現狀態,也影響了網站排名。

檢索(Crawl)與索引(Index)是什麼

你有想過,在茫茫的網海之中,Google是怎麼知道網站的存在以及讓網站可以出現在使用者面前嗎? 那就是Google必須建立一個資料庫,把全世界的網站都搜集起來,當有人輸入關鍵字的時候,這個網站就會顯示在使用者搜尋結果頁之中。 那Google是怎麼做資料搜集呢? 搜尋引擎主要是透過爬蟲程式,到全世界的網站中爬取資料,經由爬蟲爬取之後,網站才會收錄在Google的資料庫之中,因此這段過程就會分成:
  • 爬蟲爬取:檢索(Crawl)
  • 資料收錄:索引(Index)
檢索(Crawl)和索引(Index)過程

檢索(Crawl)與索引(Index)對SEO重要性

我們理解檢索(Crawl)就是搜尋引擎透過爬蟲到訪網站,索引(Index)是搜尋引擎將訪問網站後的資料搜集存在資料庫中,而這兩件事情對於SEO來說,最重大的影響就是排名

一個網站,如果沒有被搜尋引擎檢索和索引,內容再好,也無法進入Google的資料庫中,就不可能出現在使用者眼前。

檢索和索引,深深影響著網站排名,因此做SEO我們需要確保最開始網站有被Google收錄,才能優化排名,往下我們來更深入了解檢索(Crawl)、索引(Index)、排名(Rank)。

搜尋引擎運作

檢索(Crawl)和索引(Index)是什麼-搜尋引擎三階段

檢索(Crawl)

搜尋引擎認識網站的第一步就是先派出爬蟲去你家走走,當爬蟲成功到訪你家之後,就會對你的網站裡有哪些資料與訊息記錄,包含網站內容如文字、圖像、連結、程式碼等,將收集到的數據記下來。

索引(Index)

當Google搜尋引擎已經走訪完你家網站,如果覺得網站內容不錯,就會將你的網頁內容收錄、建檔在Google的資料庫之中。

這邊要留意,檢索之後Google未必會索引網頁內容,至於什麼原因我們後面再提,但如果已經被索引,表示網站內容已經在搜尋引擎中,就有機會被看到。

排名(Rank)

經過爬取、索引之後,我們就與其他網站一樣都在Google資料庫之中,但至於排名,就需要各憑本事。

因為你輸入關鍵字,也會有先後順序出現在搜尋結果頁中,這部分也是做SEO最需要使力的地方,提供好內容讓網站排名往前,也才有機會獲得搜尋流量。

關於「檢索」

Google是有分配每個網站的檢索時間,通常我們會稱之為「檢索預算(Crawl Budget)」,如果你的網站很大,那爬蟲需要的時間就會比較多,相對來說小網站花費時間較少。 正因為爬蟲時間有限,因此爬蟲會比較願意花費時間在檢索品質好的網站,相對來說輕鬆,加上這些網站更可能較能夠解決使用者問題。 而品質好網站,具體來說可能包含

1.網站速度

如果網站文章寫得好,但載入速度很慢,你大概連等都不想等,就關掉了網頁,這樣對於Google在爬取網站時花費時間也相同,爬蟲就會知道網站很慢不想爬。

2.網站架構

網站有清楚分明的結構很重要,除了幫使用者分類,對於爬蟲來說,網站有設定好內部連結,清晰的結構,讓整體動線流暢,都可以讓檢索過程更為順利。 最重要的,是重要網頁都能快速被找到! 要留意的是避免有孤島頁面,就是沒有任何一個站內連結連到這個頁面,這樣頁面就很容易被爬蟲忽略,沒有檢索。

關於索引(Index)

當Google檢索完之後下一步就是進行索引,你的網頁內容就通通存在Google資料庫之中,當使用者有相關的搜尋內容,搜尋引擎就會到他的資料庫找合適的資料呈現在用戶面前。

這邊我們要留意到「合適」的資料Google才會願意進行索引,畢竟網路每天有成千上萬的頁面,如果通通都收錄不篩選,最後就會留有許多垃圾內容,後續出現在使用者面前,就會造成使用者體驗不佳,因此Google索引不是爬取完之後照單全收,而是有條件的。

1.符合搜尋意圖

你的內容是否有符合使用者需求,還是文不對題胡亂呈現,如果內容具有個人觀點、原創,能夠解決使用者問題,那麼Google都非常願意把好內容索引起來。

2.網站可讀性

再來網站是否有符合可讀性,如果你的網站內容只是針對搜尋引擎優化,而非使用者,產生許多惡意如關鍵字塞滿頁面,可讀性不佳,那搜尋引擎就不會索引,所以加強網站可讀性與益處,才是提升索引的方式。

關於「排名」

來到第三階段排名前,我們需要先了解一個觀念,就是「網站索引」跟能不能「排名」是兩件事情。

  • 網站索引是收錄在Google資料庫中
  • 網站排名是與同樣被收錄在資料庫中的頁面競爭,誰能夠更符合資格出現在搜尋結果頁中

因此排名這部分就需要看內容品質,是否符合SEO原則

1.正確的關鍵字

是否有安排正確的關鍵字,如果你明明是草莓蛋糕甜點店,但頁面中都沒有出現草莓蛋糕,那當有使用者輸入關鍵字時,會因為找不到對應內容,無法顯示在搜尋中

2.增加網站權重

網站權重越重,就越有機會獲得好排名,就像今天你是新網站討論保養品,對比線上許多大型美容保養網站,那搜尋結果出來一定是線上大型網站先出現,因為它們權重較重!

而想要獲得高權重,最直接的方式就是獲得更多的反向連結,獲得反向連結等同於別人對你的網站投下信任票,當別人越信任就越容易有好排名。

檢索(Crawl)和索引(Index)是什麼-反向連結增加權重

如何確認Google是否有檢索(Crawl)與索引(Index)

前面理解檢索(Crawl)、索引(Index)、排名(Rank)關係,那要怎麼知道自己的網站是否有被Google正常的爬取。

最常見的方法就是透過Google Search Console報表檢視

檢索(Crawl)和索引(Index)是什麼-Google search console檢索報表
進到Google Search Console中「設定>檢索統計資料報表」,可以查看檢索網頁數量,可以看到Google爬了多少網頁,通常Google應該是天天來爬,至於爬多少會根據你的網站而有所不同。
  1. 網站權重有多高
  2. 網站架構是否有利爬蟲
  3. 是否有阻擋爬蟲爬取
透過Google Search Console,就可以知道網站是否有被正常的檢索,如果你的網站有500頁,每天都爬200-300頁,那就表示爬取正常;如果每天只爬50-100頁,那就要看看這些差異在哪,可能有異常。 再來就是索引,同樣也可以在Google Search Console中查看 進到GSC後,找到「產生索引-網頁」,就可以知道目前網站上有多少網頁被索引
檢索(Crawl)和索引(Index)是什麼-Google search console索引報表

避免Robots.txt設定無法檢索

Robots.txt是用來跟Google爬蟲溝通,哪些頁面可爬,那些不要爬取,因此如果不小心設定到了,就可能讓網站無法正常被爬取。

所以如果你的網頁出現爬取異常時,可以先看看是不是網站有設定禁止,定期檢查Robots.txt文件也能確定是否有誤設的問題。

結語

搜尋引擎運作就是檢索(Crawl)與索引(Index),最後就是排名(Rank)三個部分,檢索(Crawl)與索引(Index)是屬於SEO比較技術性面向的內容,如果說你是專注於內容上的撰寫執行,就只需理解這個概念,並且知道如果今天真的發生流量都上不去時,就可以先查看做為參考檢視的方向。

個人頭像照片
Jessie

Hi,我是Jessie,在電商行銷走過5年,從檔期企劃到社群經營,再接手SEO規劃,並且參與產品從零開始到上市販售,一人多工不正常,但卻是常態;也在代理商擔任專案經理,協助品牌社群代操與活動規劃。