為什么爬蟲的分頁規(guī)律不同?
嗯,這個問題問的太籠統(tǒng)了。從問題中,我可以分析出兩種問題,那就兩種都回答吧
第一種是,不同網(wǎng)站間頁面的分頁規(guī)律不同
首先,不管是網(wǎng)站,還是接口,不管是爬網(wǎng)頁數(shù)據(jù),還是接口數(shù)據(jù),這些數(shù)據(jù)都是程序員碼出來的,當(dāng)然,接口定義也是程序員定的。大公司有一些比較好的規(guī)范,比如分頁,我定page,數(shù)據(jù)我定size,但并不是所有公司都一樣的,有些叫size,有些叫l(wèi)imit,有些叫offset,世界各國貨幣還都不一樣,同樣,在企業(yè)里面,不同的定義是很正常的,沒有統(tǒng)一的標(biāo)準(zhǔn),也就是說,分頁這東西,還不至于嚴(yán)重要需要定義國標(biāo)。如果是接口還好,分析完還有一些規(guī)律,而頁面呢?簡單的,也和接口一樣,放在params里面當(dāng)成URL的參考,不過有些又喜歡放在路由頁面hash里面。這些也都還好,可以通過鏈接看出來,有些更過分的,直接用本地緩存或常量來存,那你就得看他代碼了。
第二種是,相同網(wǎng)站不同頁面的分頁規(guī)律不同
這種現(xiàn)在比較少,一般一個網(wǎng)站,如果不是多項目組的話,主程會定義統(tǒng)一的參數(shù)約定規(guī)范,如果實在有這種不同規(guī)則,那只能考慮是前期沒有制定統(tǒng)一規(guī)范,或是多團(tuán)隊協(xié)作導(dǎo)致的。
還有一種是,為了防止非法爬蟲,對網(wǎng)頁代碼進(jìn)行了混淆,包括整站的分頁代碼等,這目前還是可以辦到的,也是比較容易的技術(shù)。