手机浏览 RSS 2.0 订阅 膘叔的简单人生 , 腾讯云RDS购买 | 超便宜的Vultr , 注册 | 登陆
浏览模式: 标准 | 列表2010年10月22日的文章

Robots文件的写法

如果你想你的网站能够被更好的访问,恐怕robots文件是相对比较好的解决方案之一,但很多人都忽略了这个玩意。
当你的网站的一些内容不想被蜘蛛访问时,但事实上他却不由自主的被蜘蛛抓取而显示在网站上,于是我们就不得不利用robots来disallow一些目录。
内容就大致如下喽:

User-agent: *
Disallow: /xxx/

如果所有的目录都不想被蜘蛛抓取,那就是

Disallow: /

除了目录外,还可以禁止一些特殊的后缀名的文件被蜘蛛抓取,比如你的网站图片是专业的有版权的,当然不希望被蜘蛛抓取,因此,你可以写成类似这样:

Disallow: .jpg$
Disallow: .jpeg$

上面写的User-agent是针对的所有的蜘蛛,如果你不想某个蜘蛛来抓你的网站,你可以单独指定某些蜘蛛disallow,而其他的为allow

一些User-agent类似如下:

百度蜘蛛名字:baiduspider
谷歌蜘蛛名字:googlebot

其他的我也说不清楚太多,不过你可以通过查看apache日志来进行查看那些蜘蛛的User-agent。

说的不是很多,希望有点帮助吧,其实我也是做点笔记。

Tags: robots