百度蜘蛛怎么抓取網(wǎng)頁(yè)？

發(fā)表日期：2018-05-04 22:30:06 文章編輯：瀏覽次數(shù)：

百度搜索引擎收錄 頁(yè)面一般是通過(guò)百度蜘蛛進(jìn)行爬取后索引URL鏈接，然后形成快照進(jìn)入百度快照庫(kù)。這是百度搜索引擎最基礎(chǔ)的工作，而搜索引擎的內(nèi)容都來(lái)自后臺(tái)的龐大的URL列表，通過(guò)這些URL，不斷的進(jìn)行內(nèi)容收錄，儲(chǔ)存、分詞索引及維護(hù)，大家學(xué)習(xí)搜索引擎收錄的流程，收錄原理及收錄方式，有效的提高搜索引擎對(duì)網(wǎng)站的收錄的數(shù)量！

一、頁(yè)面收錄流程

在互聯(lián)網(wǎng)中，URL是每個(gè)頁(yè)面的入口地址，”蜘蛛程序”通過(guò)這些URL列表抓取到頁(yè)面的，“蜘蛛”不斷的從這些頁(yè)面中獲取URL資源及存儲(chǔ)頁(yè)面，并加入U(xiǎn)RL列表，如此不斷的循環(huán)，搜索引擎就可以從互聯(lián)網(wǎng)中獲取到足夠的頁(yè)面。當(dāng)用戶在搜索引擎中檢索信息時(shí)，搜索引擎首先派出“蜘蛛”從索引區(qū)出發(fā)，在互聯(lián)網(wǎng)中抓取網(wǎng)頁(yè)，然后放到臨時(shí)庫(kù)中，在臨時(shí)庫(kù)中網(wǎng)站若還有其他的鏈接，“蜘蛛”會(huì)順著鏈接進(jìn)入下一個(gè)頁(yè)面，再把這個(gè)頁(yè)面抓取到臨時(shí)庫(kù)中，這樣不斷循環(huán)。但臨時(shí)庫(kù)中的網(wǎng)頁(yè)信息不符合規(guī)則，就被清除掉；若符合規(guī)則，就放入索引區(qū)。再通過(guò)分類、整理、排序等過(guò)程，將符合規(guī)則的網(wǎng)頁(yè)放到主索引區(qū)，也就是用戶直接看到查詢的結(jié)果。

URL是頁(yè)面的入口，則域名則是網(wǎng)站的入口，搜索引擎就是通過(guò)域名進(jìn)入網(wǎng)站，挖掘URL資源，換而言之搜索引擎在互聯(lián)網(wǎng)中抓取頁(yè)面的首要任務(wù)就是要有龐大的域名列表，在不斷的通過(guò)域名，進(jìn)入網(wǎng)站抓取網(wǎng)站中的頁(yè)面，

而對(duì)于咱們而言，想搜索引擎收錄，首要條件就是加入搜索引擎的域名列表，常見加入搜索引擎的域名列表的有以下兩種方式
利用搜索引擎提供的網(wǎng)站登錄入口，向搜索引擎提交網(wǎng)站域名，例如百度的：http://www.baidu.com/search/url_submit.html，可在此提交自己的網(wǎng)站域名，不過(guò)用此方法搜索引擎只會(huì)定期進(jìn)行抓取并更新，這種做法比較被動(dòng)，從域名提交網(wǎng)站被收錄花費(fèi)的時(shí)間也比較長(zhǎng)

通過(guò)與有質(zhì)量的“外鏈”，使搜索引擎在抓取“別人”的網(wǎng)站頁(yè)面時(shí)發(fā)現(xiàn)我們的網(wǎng)站，從而實(shí)現(xiàn)對(duì)網(wǎng)站的收錄，這種方法主動(dòng)權(quán)在我們手上，（只要我們有足夠多的“外鏈”）且收錄速度比第一種方法快，根據(jù)外部鏈接的數(shù)量、質(zhì)量相關(guān)性，一般2-7天就會(huì)被搜索引擎收錄

二.頁(yè)面收錄原理

通過(guò)學(xué)習(xí)“頁(yè)面收錄流程”可以掌握加快網(wǎng)站被收錄的方法，接著來(lái)學(xué)習(xí)頁(yè)面收錄原理，從而提高搜索引擎收錄的數(shù)量！

如果把一個(gè)網(wǎng)站頁(yè)面組成的頁(yè)面看做是一個(gè)有向圖，從指定的頁(yè)面出發(fā)，沿著頁(yè)面中的鏈接，按照某種特定的策略對(duì)網(wǎng)站中的頁(yè)面進(jìn)行遍歷。不停地從URL 列表中移出已經(jīng)訪問(wèn)的URL，并存儲(chǔ)原始頁(yè)面，同時(shí)提取原始頁(yè)面中的URL的信息：再將URL分為域名及內(nèi)部URL兩大類，同時(shí)判斷URL是否被訪問(wèn)過(guò)，將未訪問(wèn)過(guò)的URL加入U(xiǎn)RL列表中。遞歸地掃描URL列表，直至耗盡所有URL資源為止。經(jīng)過(guò)這些工作，搜索引擎就可以建立龐大的域名列表、頁(yè)面URL 列表并儲(chǔ)存足夠多的原始頁(yè)面。

三、頁(yè)面收錄方式
知道了 “頁(yè)面收錄流程”和“頁(yè)面收錄原理” 然而在搜索引擎中要獲取相對(duì)重要頁(yè)面，就涉及到了搜索引擎的頁(yè)面收錄方式，
頁(yè)面收錄方式是指搜索引擎抓取頁(yè)面時(shí)所使用的策略，目的是為了能在互聯(lián)網(wǎng)中篩選出相對(duì)重要的信息，頁(yè)面收錄的方式的制定取決于搜索引擎對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的理解。如果使用相同的抓取策略，搜索引擎在同樣的時(shí)間內(nèi)可以在某一網(wǎng)站中抓取到更多的頁(yè)面資源，則會(huì)在該網(wǎng)站停留更長(zhǎng)的時(shí)間，收錄的頁(yè)面數(shù)自然也就多了。因此，加深對(duì)搜索引擎頁(yè)面收錄方式的認(rèn)識(shí)，有利于為網(wǎng)站建立友好的結(jié)構(gòu)，提高被收錄的數(shù)量。
搜索引擎搜收錄頁(yè)面的方式主要要有“廣度優(yōu)先”、“深度優(yōu)先“及”用戶提交“（用戶提交暫時(shí)不講）三種，認(rèn)識(shí)這三種頁(yè)面收錄方式及各自的優(yōu)缺點(diǎn)！

A:廣度優(yōu)先
如果把整個(gè)網(wǎng)站看做一棵樹，首頁(yè)就是根，每個(gè)頁(yè)面就是葉子。廣度優(yōu)先是一種橫向的頁(yè)面抓取方式，先從樹的較淺層開始抓取頁(yè)面，直接抓完同層次的所有頁(yè)面后才進(jìn)入下一層。因此，在對(duì)網(wǎng)站進(jìn)行優(yōu)化時(shí)，我們應(yīng)該把網(wǎng)站相對(duì)重要的信息展示在層次比較淺的頁(yè)面上（例如：在首頁(yè)推薦一些熱門的內(nèi)容）。反過(guò)來(lái)，通過(guò)廣度優(yōu)先的抓取方式，搜索引擎就可以首先抓取到網(wǎng)站中相對(duì)重要的頁(yè)面。
首先，”蜘蛛“從網(wǎng)站的首頁(yè)出發(fā)，抓取首頁(yè)上所有連接指向的頁(yè)面，形成頁(yè)面集合A，并分析出A中所有頁(yè)面中的鏈接：在跟蹤這些鏈接抓取下一層的頁(yè)面，形成頁(yè)面集合B：就這樣遞歸地從淺層頁(yè)面中解析出鏈接，再?gòu)纳顚禹?yè)面，直至滿足某個(gè)設(shè)定的條件才停止抓取進(jìn)程

B:深度優(yōu)先
與廣度優(yōu)先的抓取方式相反，深度優(yōu)先首先跟蹤淺層頁(yè)面中的某一連接后逐步抓取深層頁(yè)面，直至抓完最深層的頁(yè)面才返回淺層頁(yè)面再跟蹤其另一鏈接，繼續(xù) 向深層頁(yè)面抓取，這是一種縱向的頁(yè)面抓取方式。使用深度優(yōu)先的抓取方式，搜索引擎可以抓取到網(wǎng)站中較為隱蔽、冷門的頁(yè)面，這樣就能滿足更多用戶的需求。

首先，搜索引擎會(huì)抓取網(wǎng)站的首頁(yè)，并提取首頁(yè)中的鏈接：再沿著其中的一個(gè)連接抓取到頁(yè)面 A-1，同時(shí)獲取A-1中的鏈接并抓取頁(yè)面B-1，獲取B-1中的來(lái)鏈接并抓取頁(yè)面C-1 ，如此不斷的重復(fù)，滿足到某個(gè)條件后，再?gòu)腁-2抓取頁(yè)面及鏈接！