想保护网站上的某些内容不被搜索引擎收录的话,通过设置robots.txt文件是一种简单有效的方法。如今几乎所有的搜索引擎蜘蛛都遵循robots.txt给出的爬行规则,在它们访问网页前会首先查看是否存在robots.txt文件。即搜索引擎程序进入某个网站的入口即是该网站的robots.txt。这一简单有效的协议正越来越受到网站管理者的重视而被广泛采用,庄河SEO要提醒大家的是,凡事有利必有弊,robots.txt这把“利刃”看似“很好很强大”,但要慎用,用不好容易伤到自己的手!
1、robots.txt设置不对,网站将惨遭“封杀”
| User-agent: * Disallow: |
上述代码将允许所有机器人访问网站的所有文件,但由于种种原因如果设置成了如下代码:
| User-agent: * Disallow: / |
这将禁止所有的搜索引擎索引任何数据,原先搜索引擎收录的内容也将被全部删除。
生与死之间只有一个字符的距离,利刃也要慎用!
2、robots.txt并不是可靠的“保密者”
①robots.txt协议并不是一个规范,而只是约定俗成的,靠大家自觉遵守。所以这份协议并不能真正保证网站的隐私。你只是以此向搜索引擎“请求”不要抓取什么,不守“职业道德”的搜索引擎照样会将你的“秘密”公诸于世人。
②robots.txt是“此地无银三百两”的“告密者”。robots.txt在阻止蜘蛛向“网站禁区”爬行的同时,却为攻击者指明了前进的方向。网站的目录结构和私密数据所在的位置在robots.txt里暴漏无余!虽然在Web服务器的“安保”工作严密到位的前提下这不是一个严重的问题,但毕竟降低了那些不怀好意者的攻击难度。
比如说,如果网站中的敏感数据通过http://zhuangheseo.com/private/default.html访问,那么,在robots.txt 的设置可能如下:
| User-agent: * Disallow: /private/ |
这样,攻击者只需看一下robots.txt即可知你要隐藏的内容在哪里,在浏览器中输入www.yoursite.com/private/ 便可访问我们不欲公开的内容。对这种情况,一般采取两种办法:
第一种设置访问权限,对/private/中的内容实施密码保护,这样,攻击者便无从进入。
另一种办法是将缺省的目录主文件default.asp更名为其他,比如说hidden-private.asp,这样,该内容的地址即变成www.yoursite.com/private/hidden-private.asp,同时,制作一个新的default.asp文件,内容大致为"你没有足够的权限访问此页"之类,这样,攻击者因不知实际的文件名而无法访问私密数据。
请多多观注庄河网站建设和庄河网站优化,经常访问庄河SEO网站。
你浏览的文章是 - 《应用robots.txt的矛盾之处》!
文章出处:http://zhuangheseo.com/seo_fl.html