搜刮引擎支持nofollow和noarchive。
制止搜刮引擎收录的体式格式
1. 甚么是robots.txt文件?搜刮引擎应用spider法式自动接见互联网上的网页并获得网页信息。spider在接见一个网站时,会起首会查抄该网站的根域下可否有一个叫做 robots.txt的纯文本文件,响应式网站开发公司,这个文件用于指定spider在您网站上的抓取局限。您可以大概在您的网站中创立一个robots.txt,在文件中声明该网站中不想被搜刮引擎收录的部份或指定搜刮引擎只收录特定的部份。
请重视,仅当您的网站包括不愿望被搜刮引擎收录的内容时,才必要应用robots.txt文件。假定您愿望搜刮引擎收录网站上悉数内容,请勿竖立robots.txt文件。
2. robots.txt文件放在那边?robots.txt文件应该放置在网站根目次下。举例来说,当spider接见一个网站(比方 http://www.abc.com)时,起首会查抄该网站中可否存在http://www.abc.com/robots.txt这个文件,假定 Spider找到这个文件,它就会凭据这个文件的内容,来一定它接见权限的局限。
网站 URL 呼应的 robots.txt的 URL
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt
3. 我在robots.txt中设置了制止搜刮引擎跟收录我网站的内容,为什么还出目下现今搜刮引擎跟搜刮成效中?假定其他网站链接了您robots.txt文件中设置的制止收录的网页,那末这些网页仍然可以大概会出目下现今搜刮引擎跟的搜刮成效中,但您的网页上的内容不会被抓取、建入索引和闪现,搜刮引擎跟搜刮成效中闪现的仅是其他网站对您相干网页的描写。
4. 制止搜刮引擎跟踪网页的链接,而只对网页建索引假定您不想搜刮引擎追踪此网页上的链接,且不通报链接的权重,请将此元标识表记标帜置入网页的 部份:
假定您不想搜刮引擎跟追踪某一条特定链接,搜刮引擎跟还支持更精确的掌握,请将此标识表记标帜间接写在某条链接上:sign in
要答应其他搜刮引擎跟踪,但仅制止搜刮引擎跟跟踪您网页的链接,请将此元标识表记标帜置入网页的 部份:
5. 制止搜刮引擎在搜刮成效中闪现网页快照,而只对网页建索引要制止悉数搜刮引擎闪现您网站的快照,请将此元标识表记标帜置入网页的部份:
要答应其他搜刮引擎闪现快照,但仅制止搜刮引擎跟闪现,请应用以下标识表记标帜:
注:此标识表记标帜只是制止搜刮引擎跟闪现该网页的快照,搜刮引擎跟会继续为网页建索引,并在搜刮成效中闪现网页摘要。
6. 我想制止百度图片搜刮收录某些图片,该若何设置?制止Baiduspider抓取网站上悉数图片、制止或答应Baiduspider抓取网站上的某种特定花样的图片文件可以大概颠末设置robots完成,请参考“robots.txt文件用法举例”中的例10、11、12。
7. robots.txt文件的花样"robots.txt"文件包括一条或更多的记载,这些记载颠末空行分隔(以CR,CR/NL, or NL作为竣事符),每条记载的花样以下所示:":"
在该文件中可以大概应用#住手注解,具体应用体式格式和UNIX中的老例一样。该文件中的记载每每以一行或多行User-agent最早,背面加上多少Disallow和Allow行,具体情况以下:
User-agent:
该项的值用于描写搜刮引擎robot的名字。在"robots.txt"文件中,假定有多条User-agent记载分析有多个robot会受 到"robots.txt"的限定,对该文件来说,至多要有一条User-agent记载。假定该项的值设为*,则对任何robot均有效, 在"robots.txt"文件中,"User-agent:*"如许的记载只能有一条。假定在"robots.txt"文件中,插足"User- agent:SomeBot"和多少Disallow、Allow行,那末名为"SomeBot"只遭到"User-agent:SomeBot"背面的 Disallow和Allow行的限定。
Disallow:
该项的值用于描写不愿望被接见的一组URL,这个值可以大概是一条完全的途径,也可以大概是途径的非空前缀,以Disallow项的值开首的URL不会被 robot接见。比方"Disallow:/help"制止robot接见/help.html、/helpabc.html、/help /index.html,而"Disallow:/help/"则答应robot接见/help.html、/helpabc.html,不克不及接见 /help/index.html。"Disallow:"分析答应robot接见该网站的悉数url,在"/robots.txt"文件中,至多要有一 条Disallow记载。假定"/robots.txt"不存在或为空文件,则对悉数的搜刮引擎robot,该网站都是开放的。
Allow:
该项的值用于描写愿望被接见的一组URL,与Disallow项类似,这个值可以大概是一条完全的途径,也可以大概是途径的前缀,以Allow项的值开首的URL 是答应robot接见的。比方"Allow:/hibaidu"答应robot接见/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的悉数URL默许是Allow的,以是Allow每每与Disallow搭配应用,完成答应接见一部份网页 同时制止接见其余悉数URL的功用。
应用"*"and"$":
Baiduspider支持应用通配符"*"和"$"来恍惚婚配url。
"$" 婚配行竣事符。
"*" 婚配0或多个肆意字符。
8. URL婚配举例Allow或Disallow的值 URL 婚配成效
/tmp /tmp yes
/tmp /tmp.html yes
/tmp /tmp/a.html yes
/tmp /tmp no
/tmp /tmphoho no
/Hello* /Hello.html yes
/He*lo /Hello,lolo yes
/Heap*lo /Hello,lolo no
html$ /tmpa.html yes
/a.html$ /a.html yes
htm$ /a.html no
9. robots.txt文件用法举例例1. 制止悉数搜刮引擎接见网站的任何部份
下载该robots.txt文件 User-agent: *
Disallow: /
例2. 答应悉数的robot接见
(或也可以大概建一个空文件 "/robots.txt") User-agent: *
Allow: /
例3. 仅制止Baiduspider接见您的网站 User-agent: Baiduspider
Disallow: /
例4. 仅答应Baiduspider接见您的网站 User-agent: Baiduspider
Allow: /
User-agent: *
Disallow: /
例5. 仅答应Baiduspider和Googlebot接见 User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
例6. 制止spider接见特定目次
在这个例子中,该网站有三个目次对搜刮引擎的接见做了限定,即robot不会接见这三个目次。必要重视的是对每个目次必需分隔声明,而不克不及写成 "Disallow: /cgi-bin/ /tmp/"。 User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例7. 答应接见特定目次中的部份url User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例8. 应用"*"限定接见url
制止接见/cgi-bin/目次下的悉数以".htm"为后缀的URL(包括子目次)。 User-agent: *
Disallow: /cgi-bin/*.htm
例9. 应用"$"限定接见url
仅答应接见以".htm"为后缀的URL。 User-agent: *
Allow: /*.htm$
Disallow: /
例10. 制止接见网站中悉数的静态页面 User-agent: *
Disallow: /*?*
例11. 制止Baiduspider抓取网站上悉数图片
仅答应抓取网页,制止抓取任何图片。 User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
例12. 仅答应Baiduspider抓取网页和.gif花样图片
答应抓取网页和gif花样图片,不答应抓取其他花样图片 User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$
例13. 仅制止Baiduspider抓取.jpg花样图片 User-agent: Baiduspider
Disallow: /*.jpg$