robot.txt文件
大部分的網站收錄問題都是因為被robot.txt文件攔截導致的。
robots.txt是一個純文本文件,在這個文件中網站管理者可以聲明該網站中不想被robots訪問的部分,或者指定搜索引擎只收錄指定的內容。
當一個搜索機器人(有的叫搜索蜘蛛)訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,那么搜索機器人就沿著鏈接抓取。
格式:
1.User-agent:
用于指定搜索引擎的名稱,如谷歌為User-agent: Googlebot,*代表所有搜索引擎
2.Disallow:
表示禁止蜘蛛訪問的文件
User-agent: *
Disallow:
表明:允許所有搜索引擎訪問網站下的所有內容。
User-agent: *
Disallow: /
表明:禁止所有搜索引擎對網站下所有網頁的訪問。
User-agent: *
Disallow: /cgi-bin/
表明:禁止所有搜索引擎進入網站的cgi-bin目錄及其下所有子目錄。需要注意的是對每一個目錄必須分開聲明。
User-agent: Roverdog
Disallow: /
表明:禁止Roverdog訪問網站上的任何文件。
User-agent: Googlebot
Disallow: cheese.htm
表明:禁止Google的Googlebot訪問其網站下的cheese.htm文件。
3.注釋
以”#”開頭的行,均被視為注解內容,注釋需要單獨成一行
Disallow: bob #comment是錯誤的
4.Allow行
Allow行還未普遍使用,對于網站地圖,直接寫為Sitemap: http://www.xxx.com/sitemap.xml
編輯模式:
在UNIX模式下編輯你的robots.txt文件并以ASCII碼格式上傳。顯然并非所有的FTP客戶端軟件都能夠天衣無縫地將文件格式轉換為UNIX命令行終端,所以在編輯robots.txt文件時,一定要確保你的文本編輯器是在UNIX模式下。
或者使用工具如愛站工具生成robots,直接粘貼復制到網站后臺。
檢測robots是否生效:
在百度站長后臺檢測robots
二 robots和nofollow的區別是什么
robots只用于站內鏈接。禁止蜘蛛抓取進行收錄;
nofollow的鏈接蜘蛛依然可以收錄,但是不會傳遞權重,一般用于站外鏈接或者是公司電話,地址的頁面有助于網址權重的集中。
三 網站誤封robots后的處理
1.解封robots,然后到百度站長后臺檢測并更新Robots。
2.在百度站長后臺抓取檢測,此時顯示抓取失敗,通常更改完robots不會立即生效,需要等待幾天,可以多點擊抓取幾次,觸發蜘蛛抓取站點。
3.在百度站長后臺抓取頻次,申請抓取頻次上調。
4.百度反饋中心,反饋是因為誤操作導致了這種情況的發生。
5.百度站長后臺鏈接提交處,設置數據主動推送(實時)。
6.更新sitemap網站地圖,重新提交百度,每天手工提交一次。
四.新站robots的設置
對于已經上線但是還沒有設置好的新站在robots中用
User-agent:*
Disallow:/
來禁止蜘蛛進行訪問
meta標簽
meta robots 標簽是頁面head部分meta標簽的一種,用于指令搜索引擎禁止索引(收錄)本頁內容。
meta robots 標簽的寫法:
<meta name=”robots”content=”noindex,nofollow”>
標簽的意義:禁止所有搜索引擎索引本頁面,禁止跟蹤本頁面上的鏈接。
Noindex:搜索引擎不索引此網頁(可以抓取,但不出現在搜索結果中)。
Nofollow: 搜索引擎不繼續通過此網頁的鏈接索引搜索其它的網頁。
<meta name>=”robots”content=”noindex” >
標簽的意義:禁止索引本頁面,但允許蜘蛛跟蹤頁面上的鏈接,也可以傳遞權重。
使用了noindex meta robots標簽的頁面會被抓取,但不會被索引,也就是說頁面URL不會出現在搜索結果中,這一點與robots文件不同。
meta robots 標簽的作用:
1、不想讓網站被收錄使用meta robots 標簽,禁止搜索引擎索引本頁,同時禁止跟蹤頁面上的鏈接。
2、禁止索引本頁面,但是允許蜘蛛跟蹤頁面鏈接,也可以傳遞權重。
meta robots標簽很多搜索引擎是不支持的,只有少數搜索引擎能夠識別并按給定的值抓取。因此還是推薦用robots.txt文件來限制抓取.
有違規記錄的域名
有些站長會選擇購買有一定注冊年份的域名,但是需要注意這些域名是否曾經被搜索引擎懲罰過,如果這樣,網站也是非常難收錄的。
建議對于這種情況,站長可以查看一下網站日志,如果蜘蛛未爬取,只需要去站長后天提交即可。如果蜘蛛有爬取記錄,但是沒有收錄,就可能是域名的問題。當然也不排除網站自身存在一定的問題。例如鏡像網站等。
如何讓網站收錄
熊賬號后臺提交:熊賬號對于原創文章的收錄要求較高,但是通常首頁的收錄是非常快的,一般第二天就可以看到效果。而且熊掌號會顯示不收錄的原因,方便站長進行整改。