我想允许爬虫访问我的域的根目录(即index.html 文件),但没有更深入的目录(即没有子目录)。我不想在 robots.txt 文件中单独列出和拒绝每个子目录。目前我有以下内容,但我认为它阻止了一切,包括域根目录中的内容。
User-agent: *
Allow: /$
Disallow: /
我如何编写 robots.txt 来完成我正在尝试的任务?
提前致谢!
没有什么东西适合所有的爬虫。有两个选项可能对您有用。
允许通配符的机器人应该支持以下内容:
Disallow: /*/
主要的搜索引擎爬虫可以理解通配符,但不幸的是大多数较小的搜索引擎爬虫不能理解。
如果根目录中的文件相对较少并且不经常添加新文件,则可以使用Allow
只允许访问这些文件,然后使用Disallow: /
来限制其他一切。那是:
User-agent: *
Allow: /index.html
Allow: /coolstuff.jpg
Allow: /morecoolstuff.html
Disallow: /
这里的顺序很重要。爬行者应该拿下第一场比赛。所以如果你的第一条规则是Disallow: /
,一个行为正常的爬虫不会到达以下位置Allow
lines.
如果爬虫不支持Allow
,然后它会看到Disallow: /
并且不会抓取您网站上的任何内容。当然,前提是它忽略 robots.txt 中它不理解的内容。
各大搜索引擎爬虫均支持Allow
,而且许多较小的也这样做。它很容易实现。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)