如果你想你的网站能够被更好的访问,恐怕robots文件是相对比较好的解决方案之一,但很多人都忽略了这个玩意。
当你的网站的一些内容不想被蜘蛛访问时,但事实上他却不由自主的被蜘蛛抓取而显示在网站上,于是我们就不得不利用robots来disallow一些目录。
内容就大致如下喽:
User-agent: *
Disallow: /xxx/
如果所有的目录都不想被蜘蛛抓取,那就是
Disallow: /
除了目录外,还可以禁止一些特殊的后缀名的文件被蜘蛛抓取,比如你的网站图片是专业的有版权的,当然不希望被蜘蛛抓取,因此,你可以写成类似这样:
Disallow: .jpg$
Disallow: .jpeg$
上面写的User-agent是针对的所有的蜘蛛,如果你不想某个蜘蛛来抓你的网站,你可以单独指定某些蜘蛛disallow,而其他的为allow
一些User-agent类似如下:
百度蜘蛛名字:baiduspider
谷歌蜘蛛名字:googlebot
其他的我也说不清楚太多,不过你可以通过查看apache日志来进行查看那些蜘蛛的User-agent。
说的不是很多,希望有点帮助吧,其实我也是做点笔记。