如何设置仅允许站点默认页面的robot.txt

2023-12-19

假设我有一个网站http://example.com http://example.com。我真的很想让机器人看到主页，但任何其他页面都需要被阻止，因为它对蜘蛛来说毫无意义。换句话说

http://example.com http://example.com & http://example.com/ http://example.com/应该被允许，但是http://example.com/anything http://example.com/anything and http://example.com/someendpoint.aspx http://example.com/someendpoint.aspx应该被阻止。

此外，如果我可以允许某些查询字符串传递到主页，那就太好了：http://example.com?okparam=true http://example.com?okparam=true

but not http://example.com?anythingbutokparam=true http://example.com?anythingbutokparam=true

经过一番研究，我发现了一个被主要搜索提供商接受的解决方案：google http://www.google.com/support/webmasters/bin/answer.py?answer=40367 , yahoo http://help.yahoo.com/l/us/yahoo/search/webcrawler/slurp-02.html& msn（我可以在这里找到验证器）：

User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$

技巧是使用 $ 来标记 URL 的结尾。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何设置仅允许站点默认页面的robot.txt 的相关文章

语法错误，插入“...VariableDeclaratorId”来完成FormalParameterList

我遇到此代码的一些问题 import edu uci ics crawler4j crawler CrawlConfig import edu uci ics crawler4j crawler CrawlController import
托管爬虫的最佳解决方案？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我有一个爬虫可以爬行几个不同的域以获取新帖子内容内容总量数十万页并且每天都有大量新内容添加因此
微软机器人框架自行崩溃[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我收到这个令牌请求 error invalid request error description AADSTS90002 No
puppeteer 通过启用 cookie 和 Javascript 绕过 cloudflare

仅在 NodeJs gt 服务器端我正在做一些网页抓取一些页面受到 cloudflare anti ddos 页面的保护我正在尝试绕过此页面通过搜索我发现了很多关于隐身方法或 reCapcha 的文章但问题是 cloudflar
Facebook Messenger 机器人评论

我今天提交了我的机器人以供审核不幸的是 Facebook 似乎无法访问该机器人因为它不回复测试消息但是当我在开发者应用程序中将朋友提升为测试员时机器人工作得很好你们知道为什么机器人不响应 Facebook 测试吗 Thank
扫描网站内容（快速）

我的数据库中有数千个网站我想在所有网站中搜索特定字符串最快的方法是什么我认为我应该首先获取每个网站的内容这就是我这样做的方式 import urllib2 re string search string source urllib2
将 >100K 页面链接在一起而不会受到 SEO 惩罚

我正在创建一个网站该网站将审查互联网上数十万个其他网站的隐私政策它的最初内容是基于我的运行普通爬行 http commoncrawl org 50 亿页网络转储和分析所有隐私政策 https stackoverflow com ques
Facebook Messenger 平台/机器人欢迎配置出现奇怪错误

我在为 Messenger 机器人配置欢迎消息时遇到奇怪的错误我一直在使用相同的代码如下所示直到昨晚它一直工作正常我尝试了 cURL 和Postman https www getpostman com 它们都不起作用 curl X
Ruby on Rails robots.txt 文件夹

我即将启动 Ruby on Rails 应用程序作为最后一个任务我想设置机器人 txt文件我找不到有关如何为 Rails 应用程序正确编写路径的信息起始路径是否始终是 Ruby on Rails 应用程序或应用程序文件夹的根路径那
如何查找网站上的所有链接/页面

是否可以找到任何给定网站上的所有页面和链接我想输入一个 URL 并生成该站点所有链接的目录树我查看过 HTTrack 但它下载了整个站点我只需要目录树查看链接检查器 https linkchecker github io linkc
用scrapy一一爬取网站列表

我正在尝试抓取网站列表scrapy 我尝试将网站网址列表作为start urls 但后来我发现我买不起那么多内存有什么办法可以设置scrapy一次抓取一两个网站您可以尝试使用concurrent requests 1以免数据超载 htt
Ruby+Anemone Web Crawler：正则表达式匹配以一系列数字结尾的 URL

假设我正在尝试抓取一个网站并跳过一个像这样结束的页面我目前正在 Ruby 中使用 Anemone gem 来构建爬虫我正在使用skip links like方法但我的模式似乎永远不匹配我试图使其尽可能通用因此它不依赖于子页面而只
在文本文件上书写时，重音符号和特殊字符无法正确显示

这就是我正在做的事情我在网站上进行网络爬虫以供个人使用以复制文本并将书籍的章节设置为文本格式然后使用另一个程序将其自动转换为 pdf 以将其放入我的云中一切都很好直到发生这种情况特殊字符无法正确复制例如重音在文本文件上显示为
使用 nokogiri 干式搜索网站的每个页面

我想搜索网站的每个页面我的想法是找到页面上保留在域内的所有链接访问它们然后重复我也必须采取措施避免重复努力所以开始很容易 page http example com nf Nokogiri HTML open page link
制作一个网络爬虫/蜘蛛

我正在考虑制作一个网络爬虫蜘蛛但我需要有人为我指明正确的方向才能开始基本上我的蜘蛛将搜索音频文件并为其建立索引我只是想知道是否有人对我应该如何做有任何想法我听说用 PHP 完成它会非常慢我知道 vb net 那么这能派上用场吗
将文件读入 Perl 中的变量 [重复]

这个问题在这里已经有答案了可能的重复在 Perl 中将文件转换为字符串的最佳方法是什么 https stackoverflow com questions 206661 what is the best way to slurp a f
Facebook Messenger Bot：视频附件的大小？能有多大？

至少在此处的文档中没有说明通过 Facebook Messenger 发送视频附件时所需的大小和格式 https developers facebook com docs messenger platform send api refere
如何自动检索AJAX调用的URL？

目的是对爬行蜘蛛进行编程使其能够 1 检索此页面表格中链接的 URL http cordis europa eu fp7 security projects en html http cordis europa eu fp7 securi
cron 爬虫使用 Ruby 中的 Google API 将数据插入 Google 电子表格的授权问题

我的项目是每天早上 9 00 抓取某些网络数据并将它们放入我的 Google 电子表格中并且它必须获得读取和写入某些内容的授权这就是为什么下面的代码位于顶部 Google API CLIENT ID blah blah CLIENT S
Java 页面爬行和解析之 Crawler4j 与 Jsoup

我想获取页面的内容并提取其中的特定部分据我所知此类任务至少有两种解决方案爬虫4j https github com yasserg crawler4j and Jsoup http jsoup org 它们都能够检索页面的内容并提取其

随机推荐

如何动态创建类

我需要动态创建一个类对象我尝试使用动态关键字 dynamic dataTransferObject new dtoClass dataTransferObject Property1 someValue dataTransferObjec
Python - IndexError：列表索引超出范围 - 不起作用

这是我的 scrap py 代码 from bs4 import BeautifulSoup as soup from urllib request import urlopen as uReq website https houston
圆圈的边框样式为刻度线

我有一个带有虚线边框的圆圈然而边框应该更像垂直的破折号而不是点有没有办法用css使边框与设计完全相同垂直虚线而不是粗实线我想更改此类 OtherCaptionBorder My css caption circle positi
使用 JsonConverter 的 Json.NET 自定义序列化 - 如何获得“默认”行为

我的类 DataType 有一个 JsonConverter 当 Json 中使用纯字符串作为 DataType 类型的属性值时我想进行一些特殊处理在该值是完整对象的情况下我想进行正常反序列化这是我的尝试 public ov
print() 函数打印列表中每个元素的内容

基本上我正在尝试编写一个打印语句该语句允许我在运行 driver java 时将每行的元素作为 println 打印为输出我一生都不知道该怎么做任何帮助将不胜感激这是driver java public class Driver
如何将 ANSEL 文本转换为 UTF-8

如何在 C 中将 ANSEL 编码的文本更改为 UTF 8 这是一个重要的转换因为 Windows NET Framework 没有 ANSEL 代码页看here http www heiner eichmann de gedcom c
实体框架登录失败错误

我已经在 IIS 中托管了我的 WCF 应用程序并设置了一个集成了 4 0 的应用程序池我将池标识配置为网络服务我已经检查了与此问题相关的其他帖子但无法解决它我得到以下异常 System Data Entity Core Enti
混合地图类型图块的 Google 地图图块 URL？

我找到了常规地图图块的基本 URL 结构 https mts1 google com vt lyrs m 186112443 hl x local src app x 1325 y 3143 z 13 s Galile 从 Google 获
SetProcessDpiAwareness 没有效果

我一直在尝试禁用 ClickOnce 应用程序上的 DPI 感知我很快发现不可能在清单中指定它因为 ClickOnce 不支持清单文件中的 asm v3 我发现的下一个选项是调用新的 Windows 函数设置进程Dpi感知 https
为什么建议的 Swift 单例实现使用结构体？

The 普遍接受的 Swift 单例模式 https stackoverflow com a 24024762 998117在类变量类型属性中使用 Struct 代替 class MySingleton class var sharedI
如何在opencart中自动选择结账选项？

在我正在开发的商店中用户只有创建帐户才能查看价格并将产品添加到购物车之后他们可以将产品添加到购物车帐单详细信息和交付详细信息选项将自动填写用户的地址送货方式免费付款方式为货到付款我如何自动选择这些选项并隐藏它们这样剩下的唯
如何在 Keras 中使用 categorical_hinge？

也许是一个非常愚蠢的问题但我找不到如何在 Keras 中使用 categorical hinge 的示例我进行分类我的目标是shape 1 值为 1 0 1 所以我有 3 个类别使用函数式 API 我设置了输出层如下所示输出密
C# FluentScheduler 作业不重复

我有一个简单的任务我试图使用 FluentScheduler 重复执行但我似乎无法让它正常运行我对工作和行动完全陌生所以我确信这是我没有考虑到的愚蠢的事情我正在修改我原来的问题因为提供的解决方案适用于控制台应用程序但不
matlab中循环与矢量化的比较

让我们考虑以下脉冲函数代码 function y impulse function n y 0 if n 0 y 1 end end 这段代码 gt gt n 2 2 gt gt i 1 length n gt gt f i impulse
每次我打开对话框时，Microsoft Visual Studio 2019“服务器繁忙”。 Devenv.exe 与 textservice.dll 发生错误

每次我打开对话框时 Microsoft Visual Studio 2019 都会显示服务器繁忙对话框 Procmon 搜索 devenv exe 发现以下文件至少有 100 个 NO SUCH FILE 条目 C Users jlav
从字符串中删除重音字符 - Python

我从网页获取一些数据并在 python 中像这样读取它 origional doc urllib2 urlopen url read 有时此网址包含以下字符 and and ect 我怎样才能从字符串中删除这些字符现在这就是我正在尝试的
这段树遍历代码的错误在哪里？

有一个错误Traverse 这导致它多次迭代节点被窃听的代码 public IEnumerable
CSS3 - 3D 立方体 - IE 变换样式：preserve-3d 解决方法

浏览完 IE10 后开发者博客 http msdn microsoft com en gb library ie hh673529 28v vs 85 29 aspx the ms transform style property我发现他们
在弹性搜索查询中将子项视为父项的字段

我正在阅读 elasticsearch 的文档此 page 1 讨论了如何使用将子项映射到父项类型 parent 如果我有孩子叫email依附于父母称为account 每种类型的字段 account http localhost 9200
如何设置仅允许站点默认页面的robot.txt

假设我有一个网站http example com http example com 我真的很想让机器人看到主页但任何其他页面都需要被阻止因为它对蜘蛛来说毫无意义换句话说 http example com http example co

如何设置仅允许站点默认页面的robot.txt

如何设置仅允许站点默认页面的robot.txt 的相关文章

随机推荐

热门标签