阻止滥用机器人爬行?

2023-12-04

这是一个好主意吗??

http://browsers.garykeith.com/stream.asp?RobotsTXT

滥用爬行是什么意思?这对我的网站有什么坏处?


并不真地。无论如何,大多数“坏机器人”都会忽略 robots.txt 文件。

滥用爬行通常意味着抓取。这些机器人的出现是为了获取电子邮件地址或更常见的内容。

至于如何阻止他们?这确实很棘手,而且往往并不明智。反爬行技术往往不够完美,会给普通人带来问题。

可悲的是,就像零售业的“萎缩”一样,这是在网络上开展业务的成本。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

阻止滥用机器人爬行? 的相关文章

  • 我需要在外部脚本和样式表中使用 rel="nofollow" 吗? [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我已经阅读了很多有关 SEO 和网络性能的文章 但现在我有一个愚蠢的问题 我试图回答自己 但我不能 好用吗rel nofollow 在许多
  • 在 Python 3 中查找网站中最常见的单词 [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我需要使用 Python 3 代码查找并复制在给定网站上出现超过 5 次的单词 但我不知道该怎么做 我已经浏览了有关堆栈溢出的档案 但
  • 如何设置Robots.txt或Apache仅在特定时间允许爬虫?

    由于 24 小时内流量分布不均匀 我希望在高峰时段禁止爬虫 在非繁忙时段允许爬虫 有没有一种方法可以实现这一目标 编辑 感谢所有的好建议 这是我们找到的另一个解决方案 2bits com 有一篇关于设置 IPTables 防火墙以限制来自某
  • Google 会抓取 AJAX 内容吗? [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 在我网站的主页上 我使用 JQuery 的 ajax 函数来下拉用户最近活动的列表 最近的活动显示在页面上 并且最近活动的每一行都包含
  • mod_rewrite 到文本/类型/id

    我当前的代码是这样的 store php storeid 12 page 3 我想把它翻译成这样 mysite com roberts clothing store store 12 3 和这样的东西 profile php userid
  • 使用重定向/重写规则获取漂亮的浏览器 URL 时出现问题

    目前我使用 htaccess 重定向来发送 不错的 网址 办公室 伦敦 随便到我的脚本 讨厌的网址 db db pl 伦敦办事处 无论什么 我希望浏览器 url 很好 但使用 301 重定向则不然 所以我尝试使用 RewriteRule 但
  • 使用 ASP.NET MVC 的 SEO URL

    有没有一个确定的DO and DONT当实施 seo url 时 许多好的做法对于 html 网站来说似乎很好 但在中型 大型数据库网站上却失效了 据我所知 网址应该是www mysite com category page name he
  • 是否可以使用 javascript 或 jQuery 进行 301 重定向?

    我正在运行 Apache 2 0 我只是想知道是否可以使用 JavaScript 或 jQuery 进行 301 重定向 我有一个 a a 标记为href到指定位置 当我单击该链接时 系统会要求我进行 301 重定向 这是为了 SEO 我正
  • SEO URL 重写 ASP.NET

    我已经有一个 ASP NET 网站 我想更改我的网站 使其对 SEO 网址更加友好 我想改变前任这个网站 www mydomain aspx articleID 5 到 www mydomain article learningURLrew
  • Scrapy 使用带有规则的 start_requests

    我找不到任何使用 start requests 与规则的解决方案 我也没有在互联网上看到任何关于这两个的示例 我的目的很简单 我想重新定义 start request 函数以获得捕获请求期间所有异常的能力 并在请求中使用元 这是我的蜘蛛的代
  • rel-canonical 还应该包括协议 (http/https) 吗?

    我正在将我的网站从 http 迁移到 https 尽管它仍然支持通过 http 访问 目前我的所有页面都在 HTML 中设置了准确的 rel canonical 元标记 但显然它们都指向规范的 http url 我现在是否也应该将它们更新为
  • 什么是“友好 URL”? [关闭]

    Closed 这个问题是与编程或软件开发无关 help closed questions 目前不接受答案 我最近 在本网站和其他地方 阅读了大量有关 友好 URL 的讨论 但我不确定究竟是什么使 URL 变得 友好 以及为什么我们真正关心
  • 查找API端点的方法

    API探索 尽管有几个问题涉及该主题 但我找不到解决我想要理解的核心概念的问题 如果知道 API 的根结构 我们可以想象一下http stackoverflow com api service 我们可以成功地从已知端点检索结果 比方说htt
  • 使用 nokogiri 干式搜索网站的每个页面

    我想搜索网站的每个页面 我的想法是找到页面上保留在域内的所有链接 访问它们 然后重复 我也必须采取措施 避免重复努力 所以开始很容易 page http example com nf Nokogiri HTML open page link
  • SEO 的短 URL 或长 URL

    我正在为一个网站实施 cs cart 如果可能的话 哪一个更适合 SEO 并提供理由或参考 网站出售书籍 邮票 CD 等 www domain com book Java html or www domain com book progra
  • hreflang 应该如何构建?

    我的问题是 应该像上面的所有页面一样 或者应该用每个页面的实际 url 进行更改 例如
  • 我们可以从 LinkPresentation 框架中的 LPLinkView 中提取图像吗?

    我想在我的应用程序中呈现丰富的链接 并将这些数据发送到我的服务器 我需要访问视图内的图像LPLinkView https developer apple com documentation linkpresentation lplinkvi
  • Scrapy仅抓取网站的一部分

    您好 我有以下代码来扫描给定站点中的所有链接 from scrapy item import Field Item from scrapy contrib spiders import CrawlSpider Rule from scrap
  • 对于 SEO 而言,.html 扩展名是否比 .php 和 .aspx 更好?

    对于 SEO 而言 html 扩展名是否比 php 和 aspx 更好 或者少扩展名的 url 比全部更好 该扩展对排名和所有 SEO 影响不大 您页面的扩展名可能不一定表明内容是如何生成的 PHP 或 ASPX 虽然通常具有动态内容 但始
  • 谷歌如何知道你正在伪装?

    我似乎找不到任何有关谷歌如何确定您是否是的信息你的内容 从技术角度来看 您认为他们是如何确定这一点的 他们是否发送了 googlebot 之外的其他内容并将其与 googlebot 结果进行比较 他们有人类团队进行比较吗 或者他们可以以某种

随机推荐

  • 像蜗牛一样在路径上进行 SVG 动画

    I have the following SVG and I would like to draw the circles pixel by pixel on the path after moveing It s like when th
  • 使用 JQuery 和 AJAX 刷新 div 以显示 Django 中的新评级

    我是 django 的新手 找不到仅刷新 div 的方法 并且 div 显示了当前的星级评级 我的想法是 用户可以通过单击星星来查看平均评分并对某些内容进行评分 点击后我希望星星显示新的平均评分 而无需刷新整个页面 这是div div di
  • 如何编写最能利用 CPU 缓存来提高性能的代码?

    这听起来像是一个主观问题 但我正在寻找的是特定的实例 您可能遇到过与此相关的实例 如何使代码 缓存有效 缓存友好 更多的缓存命中 尽可能少的缓存未命中 从两个角度来看 数据缓存 程序缓存 指令缓存 即代码中与数据结构和代码构造相关的哪些内容
  • 与 0b 的按位或运算将给定数字转换为负数

    我需要使用按位运算符执行某些操作 假设我们有这个 40 位无符号整数 1071698660929当我申请它时OR运算符和无符号右移运算符我得到这个负整数 Input 1071698660929 gt gt gt 0 0b0 Output 2
  • java.lang.IllegalArgumentException:Jetty ALPN/NPN 尚未正确配置

    Getting java lang IllegalArgumentException Jetty ALPN NPN has not been properly configured 同时使用gRPC google pub sub 发布 消费
  • Mono.Cecil - 如何获取方法体的简单示例

    我一直在寻找新手问题 但找不到简单的例子 谁能给我一个简单的例子 如何将 MethodBody 放入最可用的字符串结果中 喜欢 using Mono Cecil using Mono Cecil Cil namespace my publi
  • Jhipster4,Angular2:如何在html中包含静态图像

    你能帮我在 html 模板中包含静态图像吗 我使用 jhipster 生成器 选择 Angular 2 生成了项目 现在我尝试在组件的 html 模板中包含静态图像 例如导航栏组件 into navbar component html 我将
  • 可以按模型中的属性进行排序吗?

    可以按模型中的属性进行订购吗 class PlayerModel Base tablename players alliances id Column Integer ForeignKey alliances id nullable Tru
  • 如何传递凭据来重命名命令?

    我在 PowerShell 脚本中运行以下命令来简单地重命名计算机 该脚本将由计算机启动脚本 GPO 执行 因此我需要在命令中传递凭据 由于我无法看到脚本在启动时执行时发生了什么 因此我通过以普通用户身份登录时运行脚本来测试它 Get Wm
  • 如何在 PyQt5 GUI 中运行两个无限循环?

    我正在尝试使用 pyqt5 构建 GUI 在 GUI 中 我需要通过 WiFi 从树莓派摄像头传输视频 我需要将游戏手柄输入发送到树莓派 我的代码如下 import sys time math import cv2 import numpy
  • 在 64 位 x 64 位乘法中使用 Karasuba 算法真的有效吗?

    我在 AVX2 上工作 需要计算 64 位 x64 位 gt 128 位加宽乘法 并以最快的方式获得 64 位高位部分 既然AVX2没有这样的指令 那么我使用Karatsuba算法来提高效率和获得速度是否合理 不会 在现代架构中 Karat
  • 当结果错误时从函数返回默认值

    有没有类似的东西 当出现错误时 该快捷方式不是返回函数的结果 而是返回预定义的值 基本上我想知道是否可以在一行中执行以下操作 fn index gt String let temp some func pass some func retu
  • 在 Java 桌面应用程序中打开 PDF

    是否可以像创建文本文件一样在 Java 桌面应用程序中打开或创建 PDF 文件 从我的搜索中我发现只有使用 web java 才有可能 真的吗 要在桌面默认阅读器中打开现有的 PDF 文件 您可以使用以下代码 File pdf new Fi
  • 使用具有两个表的 SQL 视图在 MS-Access 表单上编辑数据的任何方法

    根据我的阅读 如果要修改的数据仅代表一个表并且数据中包含唯一标识符字段 则应该可以编辑视图描述的数据 据微软称 任何修改都必须仅引用一个基表中的列 当底层记录集基于视图或存储过程合并来自两个表的数据时 是否有人有幸创建了可编辑的 MS Ac
  • AES-256 CBC 在 php 中加密并在 Java 中解密,反之亦然

    JAVA import javax crypto Cipher import javax crypto spec IvParameterSpec import javax crypto spec SecretKeySpec import o
  • 用户定义的 Markdown 中的 Vue 组件

    我需要在由 Markdown 渲染插件生成的 HTML 中实例化零个或多个 Vue 组件 每个组件的数量和属性都在 markdown 中定义 我控制 markdown 插件 instead of normal template syntax
  • 为什么 req.cookies.session 未定义? Firebase + Node + Express

    我正在尝试分配一个生成会话 cookie 以换取提供的 ID 令牌 Here是我正在关注的文档 这是我的客户端登录代码 firebase auth signInWithEmailAndPassword email password then
  • 使用正则表达式从 CSV 中删除多余的引号字符

    我有大量使用双引号作为条目分隔符的 CSV 文件 但某些条目具有相同的字符 如下所示 MAIN 8 PIPE PART B Report 7 我试图匹配额外的 字符 以便我可以将其替换为另一个字符以在文件中读取 我尝试使用正则表达式 但很符
  • 等值区域图未显示输出中的颜色变化

    即使在等值线统计图与geo data和数据框与 data 参数链接等值线图 method 我已经提供了 key on 参数正确并且 列 参数正确 我已从数据框中删除了所有 NULL 值 import pandas as pd from pa
  • 阻止滥用机器人爬行?

    这是一个好主意吗 http browsers garykeith com stream asp RobotsTXT 滥用爬行是什么意思 这对我的网站有什么坏处 并不真地 无论如何 大多数 坏机器人 都会忽略 robots txt 文件 滥用