測試的網站不想被百度抓取?
有些站長比較喜歡將站點上線測試(不喜歡在本地測試),但是又不想被百度等搜索引擎抓取,那么應該怎么暫時屏蔽呢?今天boke112就跟大家簡單介紹幾種方法。
方法一:WordPress站點的直接后臺設置WordPress站點可以直接登錄站點后臺 >> 設置 >> 閱讀 >> 勾選“建議搜索引擎不索引本站點”并點擊【保存更改】即可。
方法二:通過robots.txt禁止直接在網站根目錄中新建一個robots.txt文件,然后在文件中添加以下代碼:
User-Agent: *
Disallow: /
方法三:通過noindex標記來禁止直接在站點的頭文件header.php文件中添加以下代碼:
<meta name="robots" content="noindex" >
方法四:通過PHP代碼禁止(WordPress站點為例)將以下代碼添加到主題目錄的functions.php當中:
ob_start("Deny_Spider_Advanced");
function Deny_Spider_Advanced() {
$UA = $_SERVER['HTTP_USER_AGENT'];
$Spider_UA = '/(spider|bot|)/i'; //定義需要禁止的蜘蛛UA,一般是spider和bot
//如果檢測到UA不為空而且發現是蜘蛛則返回404
if($UA && preg_match_all($Spider_UA,$UA)) {
header('HTTP/1.1 403 Forbidden');
header("status: 403 Forbidden");
}
}
可以自行替換或添加以上的spider|bot,多個用|隔開即可。
方法五:Nginx禁止在server{}中添加以下代碼:
#如果抓取的UA中含有spider或bot時返回403
if ($http_user_agent ~* "spider|bot") {
return 403; #如果是刪除已收錄的,則可以返回404
break;
}
可以自行替換或添加以上的spider|bot,多個用|隔開即可。
方法六:Apache禁止在.htaccess中添加以下代碼:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (^$|spider|bot) [NC]
RewriteRule ^(.*)$ - [F]
可以自行替換或添加以上的spider|bot,多個用|隔開即可。
總結
理論上以上6種方法都有效,建議找適合自己站點的一種辦法來使用即可。一般采用方法二比較普遍,如果能夠結合方法五或六來使用估計效果更佳。