robots.txt 泄漏敏感信息
漏洞描述:
搜索引擎可以通过robots文件可以获知哪些页面可以爬取,哪些页面不可以
爬取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信
息、确保用户个人信息和隐私不被侵犯,如果robots.txt文件编辑的太过详细,反而会泄露
网站的敏感目录或者文件,比如网站后台路径,从而得知其使用的系统类型,从而有针对性
地进行利用。
测试方法:
1、检测形式多样,工具爬虫扫描得到敏感文件的路径,从而找到 robots 文件;
2、手工挖掘,直接在域名后输入/robots.txt 进行查看。
风险分析:攻击者可通过发现robots.txt文件,收集网站的敏感目录或文件,从而有针
对性的进行利用。
风险等级:
【低危】:robots.txt中存在allow和disallow的具体内容泄露敏感目录信息。
修复方案:可根据实际情况,进行如下对应的修复:
1、 User-agent: * 这里的代表的所有的搜索引擎种类,是一个通配符
2、 Disallow: / 这里定义是禁止爬寻站点所有的内容
3、 Disallow: /admin/ 这里定义是禁止爬寻 admin 目录下面的目录
4、 Disallow: /ABC/ 这里定义是禁止爬寻 ABC 目录下面的目录
5、 Disallow: /cgi-bin/.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的 URL(包
含子目录)。
6、 Disallow: /?* 禁止访问网站中所有包含问号 (?) 的网址
7、 Disallow: /.jpg$ 禁止抓取网页所有的.jpg 格式的图片
8、 Disallow:/ab/adc.html 禁止爬取 ab 文件夹下面的 adc.html 文件。
9、 Allow: /cgi-bin/ 这里定义是允许爬寻 cgi-bin 目录下面的目录
10、Allow: /tmp 这里定义是允许爬寻 tmp 的整个目录
11、Allow: .htm$ 仅允许访问以".htm"为后缀的 URL。
12、Allow: .gif$ 允许抓取网页和 gif 格式图片
13、Sitemap: 网站地图 告诉爬虫这个页面是网站地图。