檢索(Crawl)與索引(Index)是什麼
你有想過,在茫茫的網海之中,Google是怎麼知道網站的存在以及讓網站可以出現在使用者面前嗎? 那就是Google必須建立一個資料庫,把全世界的網站都搜集起來,當有人輸入關鍵字的時候,這個網站就會顯示在使用者搜尋結果頁之中。 那Google是怎麼做資料搜集呢? 搜尋引擎主要是透過爬蟲程式,到全世界的網站中爬取資料,經由爬蟲爬取之後,網站才會收錄在Google的資料庫之中,因此這段過程就會分成:- 爬蟲爬取:檢索(Crawl)
- 資料收錄:索引(Index)
檢索(Crawl)與索引(Index)對SEO重要性
我們理解檢索(Crawl)就是搜尋引擎透過爬蟲到訪網站,索引(Index)是搜尋引擎將訪問網站後的資料搜集存在資料庫中,而這兩件事情對於SEO來說,最重大的影響就是排名。
一個網站,如果沒有被搜尋引擎檢索和索引,內容再好,也無法進入Google的資料庫中,就不可能出現在使用者眼前。
檢索和索引,深深影響著網站排名,因此做SEO我們需要確保最開始網站有被Google收錄,才能優化排名,往下我們來更深入了解檢索(Crawl)、索引(Index)、排名(Rank)。
搜尋引擎運作
檢索(Crawl)
搜尋引擎認識網站的第一步就是先派出爬蟲去你家走走,當爬蟲成功到訪你家之後,就會對你的網站裡有哪些資料與訊息記錄,包含網站內容如文字、圖像、連結、程式碼等,將收集到的數據記下來。
索引(Index)
當Google搜尋引擎已經走訪完你家網站,如果覺得網站內容不錯,就會將你的網頁內容收錄、建檔在Google的資料庫之中。
這邊要留意,檢索之後Google未必會索引網頁內容,至於什麼原因我們後面再提,但如果已經被索引,表示網站內容已經在搜尋引擎中,就有機會被看到。
排名(Rank)
經過爬取、索引之後,我們就與其他網站一樣都在Google資料庫之中,但至於排名,就需要各憑本事。
因為你輸入關鍵字,也會有先後順序出現在搜尋結果頁中,這部分也是做SEO最需要使力的地方,提供好內容讓網站排名往前,也才有機會獲得搜尋流量。
關於「檢索」
Google是有分配每個網站的檢索時間,通常我們會稱之為「檢索預算(Crawl Budget)」,如果你的網站很大,那爬蟲需要的時間就會比較多,相對來說小網站花費時間較少。 正因為爬蟲時間有限,因此爬蟲會比較願意花費時間在檢索品質好的網站,相對來說輕鬆,加上這些網站更可能較能夠解決使用者問題。 而品質好網站,具體來說可能包含1.網站速度
如果網站文章寫得好,但載入速度很慢,你大概連等都不想等,就關掉了網頁,這樣對於Google在爬取網站時花費時間也相同,爬蟲就會知道網站很慢不想爬。2.網站架構
網站有清楚分明的結構很重要,除了幫使用者分類,對於爬蟲來說,網站有設定好內部連結,清晰的結構,讓整體動線流暢,都可以讓檢索過程更為順利。 最重要的,是重要網頁都能快速被找到! 要留意的是避免有孤島頁面,就是沒有任何一個站內連結連到這個頁面,這樣頁面就很容易被爬蟲忽略,沒有檢索。關於索引(Index)
當Google檢索完之後下一步就是進行索引,你的網頁內容就通通存在Google資料庫之中,當使用者有相關的搜尋內容,搜尋引擎就會到他的資料庫找合適的資料呈現在用戶面前。
這邊我們要留意到「合適」的資料Google才會願意進行索引,畢竟網路每天有成千上萬的頁面,如果通通都收錄不篩選,最後就會留有許多垃圾內容,後續出現在使用者面前,就會造成使用者體驗不佳,因此Google索引不是爬取完之後照單全收,而是有條件的。
1.符合搜尋意圖
你的內容是否有符合使用者需求,還是文不對題胡亂呈現,如果內容具有個人觀點、原創,能夠解決使用者問題,那麼Google都非常願意把好內容索引起來。
2.網站可讀性
再來網站是否有符合可讀性,如果你的網站內容只是針對搜尋引擎優化,而非使用者,產生許多惡意如關鍵字塞滿頁面,可讀性不佳,那搜尋引擎就不會索引,所以加強網站可讀性與益處,才是提升索引的方式。
關於「排名」
來到第三階段排名前,我們需要先了解一個觀念,就是「網站索引」跟能不能「排名」是兩件事情。
- 網站索引是收錄在Google資料庫中
- 網站排名是與同樣被收錄在資料庫中的頁面競爭,誰能夠更符合資格出現在搜尋結果頁中
因此排名這部分就需要看內容品質,是否符合SEO原則
1.正確的關鍵字
是否有安排正確的關鍵字,如果你明明是草莓蛋糕甜點店,但頁面中都沒有出現草莓蛋糕,那當有使用者輸入關鍵字時,會因為找不到對應內容,無法顯示在搜尋中
2.增加網站權重
網站權重越重,就越有機會獲得好排名,就像今天你是新網站討論保養品,對比線上許多大型美容保養網站,那搜尋結果出來一定是線上大型網站先出現,因為它們權重較重!
而想要獲得高權重,最直接的方式就是獲得更多的反向連結,獲得反向連結等同於別人對你的網站投下信任票,當別人越信任就越容易有好排名。
如何確認Google是否有檢索(Crawl)與索引(Index)
前面理解檢索(Crawl)、索引(Index)、排名(Rank)關係,那要怎麼知道自己的網站是否有被Google正常的爬取。
最常見的方法就是透過Google Search Console報表檢視
- 網站權重有多高
- 網站架構是否有利爬蟲
- 是否有阻擋爬蟲爬取
避免Robots.txt設定無法檢索
Robots.txt是用來跟Google爬蟲溝通,哪些頁面可爬,那些不要爬取,因此如果不小心設定到了,就可能讓網站無法正常被爬取。
所以如果你的網頁出現爬取異常時,可以先看看是不是網站有設定禁止,定期檢查Robots.txt文件也能確定是否有誤設的問題。
結語
搜尋引擎運作就是檢索(Crawl)與索引(Index),最後就是排名(Rank)三個部分,檢索(Crawl)與索引(Index)是屬於SEO比較技術性面向的內容,如果說你是專注於內容上的撰寫執行,就只需理解這個概念,並且知道如果今天真的發生流量都上不去時,就可以先查看做為參考檢視的方向。