今天我們來(lái)聊一下PHP的HTTP模擬登陸,HTTP模擬登陸是指通過(guò)一個(gè)程序來(lái)模擬用戶登錄網(wǎng)站的過(guò)程。在現(xiàn)在web2.0時(shí)代,大部分網(wǎng)站都面向用戶開(kāi)放了訪問(wèn)或者一些簡(jiǎn)單的操作,例如微博、人人、豆瓣等。但是在絕大多數(shù)網(wǎng)站上,都有用戶權(quán)限控制的界面,這就使得我們不能任意的去抓取我們想要的數(shù)據(jù)或者進(jìn)行數(shù)據(jù)交互,因?yàn)楸仨氁卿浐蟛趴梢员环?wù)器接受。因此有時(shí)我們需要通過(guò)程序來(lái)模擬實(shí)現(xiàn)登陸操作,以獲得更多的數(shù)據(jù)或者實(shí)現(xiàn)一些自動(dòng)化處理
HTTP模擬登陸的實(shí)現(xiàn)原理:
1. 向http://www.xxxxxx.com/user/login.php發(fā)送POST請(qǐng)求(必須是POST,不是GET),將username、password以及其它必需的POST請(qǐng)求發(fā)送。這里需要注意的是,有的網(wǎng)站傳遞的是form類型的數(shù)據(jù),有的是以json字符串的形式傳遞,需要根據(jù)實(shí)際情況進(jìn)行轉(zhuǎn)換。 2. 登陸成功后,服務(wù)器一般會(huì)在header中返回cookie信息,記錄用戶的狀態(tài)。在之后的操作中,我們需要帶上cookies,才能被服務(wù)器識(shí)別。 3. 如果登陸成功,服務(wù)器返回的狀態(tài)碼就是302,跳轉(zhuǎn)到我們需要訪問(wèn)的界面。
示例一:我們通過(guò)CURL庫(kù)進(jìn)行實(shí)現(xiàn)
function login($url , $data) { $loginUrl = $url; $cookieFile = dirname(__FILE__).'/cookie.txt'; //初始化curl,設(shè)置參數(shù) $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $loginUrl); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_COOKIEJAR, $cookieFile); //存儲(chǔ)獲取的cookie curl_setopt($ch, CURLOPT_COOKIEFILE, $cookieFile); //帶上存儲(chǔ)的cookie curl_setopt($ch, CURLOPT_REFERER, "http://www.xxxxxx.com"); curl_setopt($ch, CURLOPT_POST, 1); curl_setopt($ch, CURLOPT_POSTFIELDS, http_build_query($data)); //傳入POST參數(shù) //發(fā)送請(qǐng)求 $output = curl_exec($ch); $info = curl_getinfo($ch); curl_close($ch); return ($info['http_code'] === 302); //檢查返回狀態(tài)碼是否是302,也就是登陸成功 }
示例二:我們通過(guò)PHP的file_get_contents實(shí)現(xiàn)
function login($url, $data){ $streamContext = stream_context_create([ 'http' =>[ 'method' =>'POST', 'header' =>[ 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/109.0', 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Language: zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3', 'Content-Type: application/x-www-form-urlencoded', 'Referer: http://www.xxxxxx.com', ], 'content' =>http_build_query($data), ] ]); //發(fā)送請(qǐng)求 $result = @file_get_contents($url, false, $streamContext); //檢查是否登陸成功的狀態(tài)碼 if(strpos($http_response_header[0], 202)){ return true; } return false; }
總結(jié)
以上就是通過(guò)PHP實(shí)現(xiàn)HTTP模擬登陸的兩種方式。當(dāng)然,在實(shí)際應(yīng)用的過(guò)程中,還需要注意很多方面的細(xì)節(jié)問(wèn)題,例如headers、登錄時(shí)攜帶cookie等。當(dāng)我們了解了HTTP模擬登陸的實(shí)現(xiàn)原理并掌握了相關(guān)技術(shù)后,我們就可以愉快地去探索那些被限制了訪問(wèn)的網(wǎng)站了!