我们的网址是:
http://example.com/kitchen-knife/collection/maitre-universal-cutting-boards-rana-parsley-chopper-cheese-slicer-vegetables-knife-sharpening-stone-ham-stand-ham-stand-riviera-niza-knives-block-benin.html
我想禁止在之后抓取网址collection
,但之前collection
有些类别是动态出现的。
之后如何禁止 robots.txt 中的网址/collection
?
这在原始 robots.txt 规范中是不可能的。
但是一些(!)解析器扩展了规范并定义了通配符(通常是*
).
对于这些解析器,您可以使用:
Disallow: /*/collection
理解的解析器*
因为通配符将停止抓取路径开头为的任何 URLanything(这可能是nothing), 其次是/collection/
, 其次是anything, e.g.,
http://example.com/foo/collection/
http://example.com/foo/collection/bar
http://example.com/collection/
解析器不理解*
作为通配符(即,它们遵循原始规范)将停止抓取路径以/*/collection/
, e.g.
http://example.com/*/collection/
http://example.com/*/collection/bar
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)