青島網(wǎng)站優(yōu)化中robots.txt文檔要如何設(shè)置?
相信有過青島網(wǎng)站優(yōu)化經(jīng)歷的seo從業(yè)者對于robots.txt文檔并不陌生,那么您真的了解robots嗎?您會設(shè)置robots嗎?下面讓青島網(wǎng)站建設(shè)公司-迅優(yōu)傳媒來為您分析一下:
1、什么是robots.txt文件
???? 搜索引擎有自己的搜索習(xí)慣,當(dāng)它對一個(gè)網(wǎng)站進(jìn)行搜索時(shí),哪些目錄和文件要看,哪些不用看,它有自己的算法。我們也可以自己建立一個(gè)robots.txt文 件,告訴搜索引擎的機(jī)器人哪些可以被收錄,哪些不需要收錄。這樣可以節(jié)約自己網(wǎng)站的資源,提高被搜索引擎收錄的效率。
2、robots.txt放置位置
??? robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下,而且文件名必須全部小寫。
3、robots相關(guān)語法
??? 1)User-agent: 適用下列規(guī)則的漫游器(搜索引擎)
該項(xiàng)的值用于描述搜索引擎robot的名字。在robots.txt文件中,如果有多條User-agent記錄,就說明有多個(gè)robot會受到 robots.txt的限制,對該文件來說,至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*,則對任何robot均有效。
????? ● Google爬蟲名稱: Googlebot
????? ● 百度(Baidu)爬蟲名稱:Baiduspider
????? ● 雅虎(Yahoo)爬蟲名稱:Yahoo Slurp
????? ● 有道(Yodao)蜘蛛名稱:YodaoBot
????? ● 搜狗(sogou)蜘蛛名稱:sogou spider
????? ● MSN的蜘蛛名稱(微軟最新搜索引擎Bing蜘蛛名也是這個(gè)):Msnbot
???
??? 2)Disallow: 拒絕訪問的目錄或文件
該項(xiàng)的值用于描述不希望被訪問的一組URL,這個(gè)值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項(xiàng)的值開頭的URL不會被robot訪問。
???? 例如:
???????? Disallow:/seo.html?????? 表示禁止robot訪問文件 /seo.html
????
??? 3)Allow:允許訪問的目錄或文件
???? 該項(xiàng)的值用于描述希望被訪問的一組URL,與Disallow項(xiàng)相似,這個(gè)值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項(xiàng)的值開頭的URL是允許robot訪問的。
????? 例如:
?????????? Allow:/hibaidu/???????? 表示允許robot訪問目錄 /hibaidu/
??
???? 4)使用通配符"*"和"$":
???? $?? 匹配行結(jié)束符。
????? *?? 匹配0或多個(gè)任意字符。
????????? ??? 匹配1個(gè)任意字符
???? 5)robots.txt文件里還可以直接包括在sitemap文件的鏈接。
??????? Sitemap:http://www.lemigift.com/sitemaps.xml
4、robots.txt文件用法舉例
???? 1)、攔截所有的機(jī)器人訪問網(wǎng)站
?????? User-agent: *
?????? Disallow: /
???? 2)、允許所有的機(jī)器人訪問網(wǎng)站
?????? User-agent: *
?????? Allow: /
???? 3)、禁止所有機(jī)器人訪問特定目錄:
?????? User-agent: *
?????? Disallow: /public/
?????? Disallow: /images/
?????? Disallow: /temp/
?????? Disallow: /include/
???? 4)、禁止特定搜索引擎蜘蛛訪問特定目錄(這里我們以百度蜘蛛為例說明)
?????? User-agent: Baiduspider
?????? Disallow: /test/
???????? 上面的robots.txt語法示例的意思是禁止百度蜘蛛爬行根目錄下的test目錄
???? 5)、僅禁止Baiduspider抓取.jpg格式圖片
?????? User-agent: Baiduspider
?????? Disallow: .jpg$
6)、僅允許訪問以".htm"為后綴的URL。
?????? User-agent: *
?????? Allow: .htm$
?????? Disallow: /
7)、禁止訪問網(wǎng)站中所有的動態(tài)頁面
?????? User-agent: *
?????? Disallow: /*?*
5、常見robots.txt錯(cuò)誤
1)、把多個(gè)禁止命令放在一行中:
?? 錯(cuò)誤地寫法
?? Disallow: /css/ /cgi-bin/ /images/
?? 正確的寫法
?? Disallow: /css/
?? Disallow: /cgi-bin/
?? Disallow: /images/
2)、表示目錄時(shí),忘記了斜杠/
?? 錯(cuò)誤的寫法
?? User-agent: Baiduspider
?? Disallow: css
?? 正確的寫法
?? User-agent: Baiduspider
?? Disallow: /css/
6、robots meta網(wǎng)頁標(biāo)簽寫法
Robots META標(biāo)簽則主要是針對一個(gè)個(gè)具體的頁面。和其他的META標(biāo)簽(如使用的語言、頁面的描述、關(guān)鍵詞等)一樣,Robots META標(biāo)簽也是放在頁面的<head></head>中,專門用來告訴搜索引擎ROBOTS如何抓取該頁的內(nèi)容。
Robots META標(biāo)簽的寫法:
Robots META標(biāo)簽中沒有大小寫之分,name=”Robots”表示所有的搜索引擎,可以針對某個(gè)具體搜索引擎寫為name=”BaiduSpider”。 content部分有四個(gè)指令選項(xiàng):index、noindex、follow、nofollow,指令間以“,”分隔。
INDEX 指令告訴搜索機(jī)器人抓取該頁面;
FOLLOW 指令表示搜索機(jī)器人可以沿著該頁面上的鏈接繼續(xù)抓取下去;
Robots Meta標(biāo)簽的缺省值是INDEX和FOLLOW,只有inktomi除外,對于它,缺省值是INDEX,NOFOLLOW。
這樣,一共有四種組合:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
其中
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以寫成<META NAME="ROBOTS" CONTENT="ALL">;
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以寫成<META NAME="ROBOTS" CONTENT="NONE">
目前看來,絕大多數(shù)的搜索引擎機(jī)器人都遵守robots.txt的規(guī)則,而對于Robots META標(biāo)簽,目前支持的并不多,但是正在逐漸增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個(gè)指令“archive”,可以 限制GOOGLE是否保留網(wǎng)頁快照。例如:
<META NAME="googlebot" CONTENT="index,follow,noarchive">
表示抓取該站點(diǎn)中頁面并沿著頁面中鏈接抓取,但是不在GOOLGE上保留該頁面的網(wǎng)頁快照。
相關(guān)內(nèi)容推薦
最新文章
更多>>- 什么是SEO優(yōu)化?SEO優(yōu)化怎么做?
- 營銷型網(wǎng)站制作
- 網(wǎng)站優(yōu)化:寵物網(wǎng)站如何優(yōu)化?
- 網(wǎng)站建設(shè)及網(wǎng)站建設(shè)費(fèi)用-為您提供專業(yè)的網(wǎng)站建設(shè)服務(wù)
- 網(wǎng)站建設(shè)是什么?怎么做網(wǎng)站建設(shè)
- 網(wǎng)站建設(shè)為什么要分高端網(wǎng)站建設(shè)和普通網(wǎng)站建設(shè)
- 醫(yī)療健康科普問答平臺系統(tǒng)介紹
- 抖音小程序如何開發(fā)?
- 公司小程序建設(shè)和公司小程序開發(fā)都需要哪些過程?
- 網(wǎng)站策劃在網(wǎng)站建設(shè)中的重要性
0532-88983785 / 0532-68613670
我要優(yōu)化網(wǎng)站