今天学习到了robot.txt

2023-11-05

robot.txt

  搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
  您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
  一、 什么是robots.txt文件
  搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信 息。您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot 访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜 索引擎只收录指定的内容。
  二、 robots.txt文件放在哪里
  robots.txt文件应该放在网站根目录下。举例来说,当robots访问一个网站(比如 http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt 这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范 围。如:
  http://www.w3.org/ —— http://www.w3.org/robots.txt
  http://www.w3.org:80/ —— http://www.w3.org:80/robots.txt
  http://www.w3.org:1234/ —— http://www.w3.org:1234/robots.txt
  http://w3.org/ —— http://w3.org/robots.txt
  三、 robots.txt文件的格式
  “robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL,or NL作为结束符),每一条记录的格式如下所示:
  “<field>:<optionalspace><value><optionalspace>”
  在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录 通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:
  User-agent:
  该项的值用于描述搜索引擎robot的名字,在“robots.txt”文件中,如果有多条 User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User- agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在“robots.txt”文件 中,“User-agent:*”这样的记录只能有一条。
  Disallow:
  该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以 是部分的,任何以Disallow开头的URL均不会被robot访问到。例如:
  “Disallow: /help”对/help.html 和/help/index.html都不允许搜索引擎访问, 而“Disallow: /help/”则允许robot访问/help.html,而不能访问/help/index.html。
  任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在 “/robots.txt”文件中,至少要有一条Disallow记录。如果“/robots.txt”是一个空文 件,则对于所有的搜索引擎robot,该网站都是开放的。
  四、robots.txt文件存在的意义
  有些人会问,既然robots文件没弄好,或出错了,会影响整个网站的收录,那为什么还要这个文件呢?
  其实robots是为特定需的站长准备的,因为有些网站,有一些页面是站长不想被SE收录的,所以才有了这个robots文件。
  五、 robots.txt文件用法举例
  例1、禁止所有搜索引擎访问网站的任何部分
  User-agent: *
  Disallow: /
  例2、允许所有的robot访问
  User-agent: *
  Disallow:
  (或者也可以建一个空文件 "/robots.txt" file)
  例3、禁止某个搜索引擎的访问
  User-agent: BadBot
  Disallow: /
  例4、允许某个搜索引擎的访问
  User-agent: baiduspider
  Disallow:
  User-agent: *
  Disallow: /
  例5、一个简单例子
  在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
  User-agent: *
  Disallow: /cgi-bin/
  Disallow: /tmp/
  Disallow: /joe/
  需要注意的是对每一个目录必须分开声明,而不要写成:“Disallow: /cgi-bin/ /tmp/”。
  User-agent:后的* 具有特殊的含义,代表“any robot”,所以在该文件中不能有 “Disallow: /tmp/*” or “Disallow: *.gif”这样的记录出现。
  五、robots.txt文件参考资料
  robots.txt文件的更具体设置,请参看以下链接:
  1、http://www.robotstxt.org/wc/faq.html
  2、Web Server Administrator's Guide to the Robots Exclusion Protocol
  3、HTML Author's Guide to the Robots Exclusion Protocol
  4、The original 1994 protocol description, as currently deployed
  5、The revised Internet-Draft specification, which is not yet pleted or implemented
  Trackback: http://bbs.5ixb.com/read-htm-tid-4131.html
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

今天学习到了robot.txt 的相关文章

  • 为什么有些网站会在 URL 末尾添加“Slugs”? [关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 许多网站 包括这个网站 都添加了明显称为slugs 描述性的 但据我所知 无用的文本片段 到 URL 的末尾 例如 该网站针对此问题给出的 URL 是
  • Gearman,php 扩展问题:使用终端在 .. 中找不到类“GearmanWorker”,但可以在浏览器上使用

    我最近在 ubuntu 10 04 上安装了 gearman 并安装了它的 pecl 扩展 现在 当我在浏览器中运行一个 php 文件时 其中包含 client new GearmanWorker die var Dump client I
  • 点击jtable中的超链接?

    如何为中的每条记录启用超链接JTable 我想要做的是 用户可以单击超链接 然后该超链接将显示他们可以编辑 更新的信息 或者 如何启用表数据的就地编辑 另一个问题是我目前正在使用以下方式来显示不同的屏幕 但这不是一种优雅的方式 我知道我们应
  • 检查 Unix 消息队列是否为空

    谁能告诉我如何检查消息队列中是否有消息 消息队列是在基于Linux的操作系统中用C语言实现的 我只是想检查在特定时间消息队列中是否有消息 只需使用以下命令即可检查消息数量 如果有 msgctl 函数 并在返回时检查 msqid ds 结构
  • 将查询参数添加到 URL

    我正在尝试自动从网站下载数据 我需要将动态参数传递到每天更改的站点 html 的结构是表格而不是表单 如何传递参数并从 url 获取结果 这是我尝试过的 它需要在 python 2 7 中 import urllib url https d
  • Java 相当于 Python 的 urllib.urlencode(基于 HashMap 的 UrlEncode)

    From https stackoverflow com questions 2018026 should i use urllib or urllib2 2018103 2018103 Java 中 Python 的 urllib url
  • 在 UNIX 中删除相同的文件

    我正在处理大量 30 000 个 大小约为 10MB 的文件 其中一些 我估计 2 实际上是重复的 我只需要为每个重复的对 或三元组 保留一个副本 您能建议我一种有效的方法吗 我正在unix上工作 您可以尝试使用此代码片段在删除之前先获取所
  • 如何从 JavaScript 中的 URL 中提取主机?

    捕获域直到结束字符 我需要一个捕获的正则表达式example com在所有这些中 example com 3000 example com pass gas example com example com 如果您确实有有效的 URL 那么这
  • 带有存储在文件中的通配符的 grep

    我希望 grep 通过读取需要从文本文件中过滤掉的内容来过滤掉行 这是我给 grep 的内容 它存储在foo txt Users 1337 X Users 1337 R Users 1337 W 这是它应该过滤的内容 它存储在bar txt
  • 电话呼叫的 URL 方案

    就像 mailto URL 前缀启动用户的默认邮件程序并使用指定地址启动新电子邮件一样 是否有类似的 URL 方案可以发起电话呼叫 也许是 电话 呼叫 或 啜饮 顺便说一句 我的目标是使用 Cisco CUPS 的平台 因此可能有一种特定于
  • Windows 相当于 Unix find 命令,用于搜索多种文件类型

    虽然在 Windows 中安装了 cygwin 可以提供大部分 unix 命令 但我仍然想知道如何使用 Windows find 命令在一个命令中搜索多个文件类型 ie find name cpp o name h o name java
  • Grpc - 将消息从一个客户端发送到连接到同一服务器的另一个客户端

    是否可以将消息从一个客户端发送到连接到同一服务器的另一个客户端 我想将数据从一个客户端发送到服务器然后发送到特定客户端 我想我需要获取客户端 ID 但我不知道如何获取此 ID 以及如何从服务器将此消息发送到该客户端 我这里有一个样本 这是一
  • 我自己的而不是从其他网站借用的图像的正确 img src 是什么?

    在我的计算机上 保存 css 和 html 文件的文件夹还包含一些我想要插入到 html 中的图像 如果我从其他网站借用图像 我知道如何获取图像的 URL 如何获取文件夹中但尚未出现在互联网上的图像的 URL 我是否必须将图像上传到其他网站
  • 如何将命令输出作为多个参数传递给另一个命令

    我想将命令的每个输出作为多个参数传递给第二个命令 例如 grep pattern input returns file1 file2 file3 我想复制这些输出 例如 cp file1 file1 bac cp file2 file2 b
  • 如何从图库中检索图像的 Picasa ID/URL

    我有一个活动 从设备的图库中检索图像并将其上传到服务 现在 出于优化目的 我希望避免上传 Picasa 上的图像 而只存储其 ID 或 URL 以供以后检索 所以我的问题是 如何检索该信息 我的意图代码粘贴在下面并检索图像的 URI Int
  • 在unix、bash中合并csv文件

    我有一些 csv 文件 其格式如下 测试1 csv field port1 a1 0 2 a2 0 3 a3 0 6 测试2 csv field port2 b1 0 5 b2 0 6 b3 0 7 b4 0 1 b5 0 5 测试3 cs
  • 使用 wget 从 Google Scholar 搜索结果下载所有 pdf 文件

    我想写一个简单的网络蜘蛛或者只是使用wget从谷歌学术下载 pdf 结果 这实际上是获取研究论文的一种非常巧妙的方式 我已阅读 stackoverflow 上的以下页面 使用wget爬取网站并限制爬取链接总数 https stackover
  • 进程如何知道它已收到信号

    如果我错了 请纠正我 以下是我对信号的理解 据我所知 信号生成 和信号传递有2个不同 事物 为了产生信号 操作系统只是在位数组中设置一个位 在过程控制中维护 工艺块 PCB 每一位 对应于特定信号 当设置一个位时 这意味着 该位对应的信号为
  • Unix shell脚本找出脚本文件所在的目录?

    基本上我需要使用与 shell 脚本文件位置相关的路径运行脚本 如何将当前目录更改为与脚本文件所在的目录相同 在 Bash 中 你应该得到你需要的东西 如下所示 usr bin env bash BASEDIR dirname 0 echo
  • shell脚本中是否有互斥/信号量机制?

    我正在 shell 脚本中寻找互斥 信号量 并发机制 考虑以下情况 除非 a 用户不关闭共享文件 否则 b 用户应该无法打开 更新它 我只是想知道如何在 shell 脚本中实现互斥量 信号量 临界区等 在 shell 脚本中实现锁定机制 文

随机推荐

  • 库文件中找不到符号问题:CMAKE_CXX_FLAGS: -fvisibility=hidden

    问题描述 编译出来的预测库发现找不到符号 但是相关源文件的确编译到库里了 定位问题 cmake配置中打开了以下开关 set CMAKE CXX FLAGS CMAKE CXX FLAGS fvisibility hidden fvisibi
  • 树状数组(二叉索引树)

    目录 一 树状数组 1 树状数组 2 区间更新单点查询 3 离散化 二 模板代码 三 OJ实战 CodeForces 706B Interesting drink CSU 1770 按钮控制彩灯实验 HDU 1166 敌兵布阵 POJ 23
  • 连接数据库报错com.mysql.cj.jdbc.exceptions.CommunicationsException: Communications link failure的解决方法

    控制台报错 Caused by com mysql cj exceptions CJCommunicationsException Communications link failure com mysql cj jdbc exceptio
  • Dependency-check

    文章目录 前言 工具简介 工具原理 原理 检测过程 NVD CVSS 工具安装 工具地址 环境依赖 工具安装 Jenkins Plugin Command Line On nix On Windows On Mac rec Maven Pl
  • Linux下的man指令

    今天做笔试试卷的时候 有一道选择题是问Linux man指令中查找系统调用的指令是哪一个 当场就不知道选什么了 平常也很少用man指令 都是想要查资料直接上csdn的 这里重新回顾一下Linux下的man指令 man指令后面都可以指定加一个
  • mac系统 拉取vue项目启动时报错:: Permission denied

    Mac 系统运行 vue 启动项目时报错 Permission denied 的解决方式 1 从github拉取的vue项目启动时npm run dev报错 自己试了很多命令 主要还是细心一点对比查看自己目录就好了 解决方式 2 这是因为没
  • React中useRef()和createRef()的使用

    useRef import React useState useRef createRef useEffect from react const Test gt const index setIndex useState 1 const c
  • golang常用库viper

    1 viper的介绍 viper是go一个配置解决方案的库 支持各种配置文件 如JSON TOML YAML HCL envfile和Java属性配置文件 支持监听文件变化以及重新读取配置 支持从环境变量读取配置 支持从远程配置系统 etc
  • 罗定中学2021年高考成绩查询,2020年罗定市各中学高考喜报!罗定中学、廷锴纪念、罗定实验均创历史...

    原标题 2020年罗定市各中学高考喜报 罗定中学 廷锴纪念 罗定实验均创历史 罗定市2020年高考情况 罗定中学 广东省罗定中学 始创于1911年4月11日 由当时的罗定县公立中学和阖县中学合并而成 1912年定名为省立罗定中学校 1926
  • 探秘MySQL底层架构:设计与实现流程

    前言 Mysql 作为一款优秀而广泛使用的数据库管理系统 对于众多Java工程师来说 几乎是日常开发中必不可少的一环 无论是存储海量数据 还是高效地检索和管理数据 Mysql都扮演着重要的角色 然而 除了使用Mysql进行日常开发之外 我们
  • Matlab Excel数据转成面板数据格式

    Stata总是整不明白而且如果后续还想加新的数据列 还得单独用Stata转换 再合并挺麻烦的 于是希望用Matlab直接转成面板数据 然后直接复制粘贴 就方便得多 函数无参数则默认选中的文件中所有的工作簿都转换 有参数的话 第一参数是工作簿
  • git学习------>如何汉化GitLab?

    在上一篇博客中 已经正常安装好了GitLab 然而全部界面都是纯英文的 为了照顾整个团队的英文水平 因此这篇博客的目的是将纯英文的GitLab进行汉化 纯英文界面 第一步 确认GitLab版本号 运行如下命令 查看GitLab版本号 cat
  • sourcetree安装遇到的各种坑

    安装 SourceTree 时 需要使用atlassian授权 多数会卡到这一步 网上给出的办法跳过 atlassian账号 授权方法 安装之后 转到用户本地文件夹下的 SourceTree 目录 没有则新建 LocalAppData At
  • 获得ListView中所点击的数据

    最近写课设 被获取ListView中所点击的数据 必将他传给下一个Actyvity给烦到了 因为要写的与数据库有关联 且要获得数据跳来跳去的 所以写下这篇作为笔记 部分代码 获取数据库的数据并在列表中显示出来 DatabaseHelper
  • ACmix:卷积与self-Attention的融合

    先附代码和文章 可以先结合来看 代码 GitHub LeapLabTHU ACmix Official repository of ACmix CVPR2022 文章 2111 14556 On the Integration of Sel
  • simulink中模块库的建立和维护

    一 模块库的建立与修改 模块库的建立与模型model的建立类似 都是在File菜单栏中 只不过要选择Library而非Model 如下图 然后再该Library中添加了两个模块 并存为名为Interpolation mdl文件 如下图 注意
  • Linux下 C语言实现消息队列

    消息队列 Unix的通信机制之一 可以理解为是一个存放消息 数据 容器 将消息写入消息队列 然后再从消息队列中取消息 一般来说是先进先出的顺序 可以解决两个进程的读写速度不同 处理数据速度不同 系统耦合等问题 而且消息队列里的消息哪怕进程崩
  • spring boot ValidationAutoConfiguration自动注入MethodValidationPostProcessor类导致bean提前被初始化

    文章目录 前言 1 什么是beanPostProcess 2 看下BeanPostProcessorChecker这个报错的地方 3 排查导致这么bean提前初始化的原因 3 1 查看registerBeanPostProcessors 4
  • shell 进入mysql redis hive等tips

    1 src redis cli h 192 168 1 81 p 6379 a password 2 进入hive client前设置队列权限 hive hiveconf mapreduce job queuename root jiaog
  • 今天学习到了robot.txt

    robot txt 搜索引擎通过一种程序robot 又称spider 自动访问互联网上的网页并获取网页信息 您可以在您的网站中创建一个纯文本文件robots txt 在这个文件中声明该网站中不想被robot访问的部分 这样 该网站的部分或全