去重是對數(shù)據(jù)去重還是對請求url進(jìn)行去重?分別是如何來實(shí)現(xiàn)的?
url去重可以使用Scrapy+redis實(shí)現(xiàn)url去重(使用set)
另-種方式: Scrapy-Redis手 動添加去重ur|(指紋),實(shí)現(xiàn)實(shí)錄:通過MD5加密,把請求體,請求方式,請求url放在一起。
然后進(jìn)行32進(jìn)制的轉(zhuǎn)義符字符串生成指紋。
生成-個字符串,放到數(shù)據(jù)庫中 作為唯-標(biāo)示。
數(shù)據(jù)去重可以使用sql語句或者pandas對爬取數(shù)據(jù)進(jìn)行去重操作即可。