資料內(nèi)容:
什么是抓包
不論?哪種?式去寫(xiě)爬?代碼,對(duì)于 下載 來(lái)說(shuō),具體要請(qǐng)求?
站 url 是什么,調(diào)?什么 api 接?,傳遞什么 參數(shù) ,以及獲取到數(shù)據(jù)
后,?什么規(guī)則提取出需要的數(shù)據(jù)等等內(nèi)容,都需要事先去分析和研究清
楚,這個(gè)抓取?絡(luò)請(qǐng)求的數(shù)據(jù)包的過(guò)程,?般叫做: 抓包
即:
下載
需要訪問(wèn)的?? url 地址或 api接? 是什么
以及傳遞什么 參數(shù)
提取
對(duì)于返回?cái)?shù)據(jù),需要抓取具體哪?部分
對(duì)應(yīng)的數(shù)據(jù)的 提取規(guī)則 是什么
提示:
雖然對(duì)于爬?的核?流程是先要抓包分析搞清楚邏輯,然后才能去寫(xiě)爬?
代碼,不過(guò)實(shí)際上很多時(shí)候,是邊分析,邊寫(xiě)代碼的。
尤其是對(duì)于?些復(fù)雜的?站或app來(lái)說(shuō),往往是分析的同時(shí),也要寫(xiě)?些
代碼去驗(yàn)證和測(cè)試抓取的邏輯是否?得通的。
總之,對(duì)于爬?的流程:
邏輯上是:先抓包分析,再寫(xiě)爬?代碼
實(shí)際上(往往)是:邊抓包分析,邊寫(xiě)代碼
抓包的難度
普通?? :抓包分析,?般?較簡(jiǎn)單
復(fù)雜?站 :對(duì)于需要登錄才能獲取到數(shù)據(jù),且加了驗(yàn)證碼等做了其
他反爬措施和?段的?站和app,抓包分析起來(lái),?般都很復(fù)雜
復(fù)雜?站的抓包分析和破解,往往?(之后的,單純的)寫(xiě)爬?
去 下載+提取+保存,要難多了