抖音使用的智能推薦機(jī)制。我們這里依舊是通過(guò)fiddler抓包(Fiddler是一款常見(jiàn)的抓包分析工具,對(duì)數(shù)據(jù)進(jìn)行截獲、重發(fā)、編輯、轉(zhuǎn)存的過(guò)程叫做抓包)?,F(xiàn)在的抖音有加密算法,之前網(wǎng)上的大部分代碼都不能用了,我們先看看有哪些加密字段。
這里主要是mas和as參數(shù)不知道咋構(gòu)造,這里因?yàn)橹皇桥酪粋€(gè)用戶的數(shù)據(jù),所以把整個(gè)url都copy到txt中,然后請(qǐng)求獲取數(shù)據(jù)。
?。ū匾糠郑?/div>
語(yǔ)言選擇:一般是了解Python、Java、Golang之一
熟悉多線程編程、網(wǎng)絡(luò)編程、HTTP協(xié)議相關(guān)
開(kāi)發(fā)過(guò)完整爬蟲(chóng)項(xiàng)目(最好有全站爬蟲(chóng)經(jīng)驗(yàn),這個(gè)下面會(huì)說(shuō)到)
反爬相關(guān),cookie、ip池、驗(yàn)證碼等等
熟練使用分布式
?。ǚ潜匾ㄗh)
了解消息隊(duì)列,如RabbitMQ、Kafka、Redis等
具有數(shù)據(jù)挖掘、自然語(yǔ)言處理、信息檢索、機(jī)器學(xué)習(xí)經(jīng)驗(yàn)
熟悉APP數(shù)據(jù)采集、中間人代理
大數(shù)據(jù)處理(Hive/MR/Spark/Storm)
數(shù)據(jù)庫(kù)Mysql、redis
熟悉Git操作、linux環(huán)境開(kāi)發(fā)
讀懂js代碼、這個(gè)真的很重要
好了,大家收到這份雙十二福利,開(kāi)不開(kāi)心?