信息收集（一）Google Hack & robots文件

2023-11-18

一、Google Hack

在渗透测试中，信息收集是尤为重要的一部分，甚至可以占到整个渗透的百分之六十至七十。可见掌握好信息收集的方法十分重要，那GoogleHacking作为常用且方便的信息收集搜索引擎工具，它是利用谷歌搜索强大，可以搜出不想被看到的后台、泄露的信息、未授权访问，更可怕的还有一些网站配置密码和网站漏洞等。掌握了Google Hacking基本使用方法，或许下一秒就是惊喜！

基本语法

intitle: 搜索标题
inurl: 搜索url
intext: 搜索网页正文内容
site: 与什么相关
filetype: 文件类型 ppt ，asp ，php，mdb

搭配符号

把Google可能忽略的字列如查询范围

把某个字忽略
. 单一的通配符

通配符，可代表多个字母
“” 精确查找

常用语法

SQL注入页面：site:tw inurl:?id=1…100000 filetype:php
排除子域名： site:baidu.com -site:video.baidu.com
某网站登录页面：site:www.baidu.com intitle:“后台登陆”
目录遍历： intext:“index of”
用户名和密码文件：filetype:txt intext:username and password
指定端口网站： inurl:8443 -intext:8443
敏感文件 site:tw filetype:inc intext:mysql_connect
特定网站：intitle: “apache tomacat” inurl:8080
intext: to parent directory
intext: 转到父目录/转到父路径
asp 上传漏洞网页: inurl: upload.asp
搜索mdb文件: intext: to parent directory + intext : mdb

二、robots.txt

1、robots.txt是什么？

robots.txt 是一个纯文本文件，在设个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分，或者指定搜索引擎只收录指定的内容。
当一个搜索引擎（又称搜索机器人或蜘蛛程序）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索机器人就沿着链接抓取。

2、robots.txt的作用

1、引导搜索引擎蜘蛛抓取指定栏目或内容；
2、网站改版或者URL重写优化时候屏蔽对搜索引擎不友好的链接；
3、屏蔽死链接、404错误页面；
4、屏蔽无内容、无价值页面；
5、屏蔽重复页面，如评论页、搜索结果页；
6、屏蔽任何不想被收录的页面；
7、引导蜘蛛抓取网站地图；

读懂 robots.txt

1、User-agent:（定义搜索引擎）
示例：
User-agent: *（定义所有搜索引擎）
User-agent: Googlebot （定义谷歌，只允许谷歌蜘蛛爬取）
User-agent: Baiduspider （定义百度，只允许百度蜘蛛爬取）

不同的搜索引擎的搜索机器人有不同的名称，谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp。

2、Disallow:（用来定义禁止蜘蛛爬取的页面或目录）
示例：

Disallow: /（禁止蜘蛛爬取网站的所有目录 “/” 表示根目录下）
Disallow: /admin （禁止蜘蛛爬取admin目录）
Disallow: /abc.html （禁止蜘蛛爬去abc.html页面）
Disallow: /help.html （禁止蜘蛛爬去help.html页面）

3、Allow:（用来定义允许蜘蛛爬取的页面或子目录）
示例：

Allow: /admin/test/（允许蜘蛛爬取admin下的test目录）
Allow: /admin/abc.html（允许蜘蛛爬去admin目录中的abc.html页面）

两个通配符如下：
4、匹配符 “$”
$ 通配符：匹配URL结尾的字符
5、通配符 “*”
* 通配符：匹配0个或多个任意字符

在这里插入图片描述

注意事项

Disallow与Allow行的顺序是有意义的：
举例说明：

允许蜘蛛访问 /admin/ 目录下的seo文件夹

User-agent: * 　　　　Allow: /admin/seo/
Disallow: /admin/

如果Allow 和 Disallow 的顺序调换一下：

User-agent: * 　　　　Disallow: /admin/
Allow: /admin/seo/

蜘蛛就无法访问到 /admin/ 目录下的 seo 文件夹，因为第一个 Disallow: /admin/ 已匹配成功。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)