主要就是設(shè)定爬取規(guī)則定向爬取:
(1)清晰地定義好爬蟲的爬取目標(biāo),規(guī)劃好主題。
(2)建立好爬取網(wǎng)址的過濾篩選規(guī)則以及內(nèi)容的過濾篩選規(guī)則。
(3)建立好URL排序算法。 而深度爬取(深度優(yōu)先算法)就是從起始頁(yè)開始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處理完這條線路之后再 轉(zhuǎn)入下一個(gè)起始頁(yè),繼續(xù)追蹤鏈接,scrapy默認(rèn)就是 使用的深度優(yōu)先算法。