如何防止未经授权的蜘蛛抓取

2024-03-09

我想防止从我们的网站之一自动抓取 html，同时不影响合法的蜘蛛抓取（googlebot 等）。是否已经存在可以实现此目的的东西？我是否使用了正确的术语？

编辑：我主要是为了防止人们恶意这样做。 IE。他们不会遵守 robots.txt

EDIT2：如果检测到自动化并且流量不是来自合法（google、yahoo、msn 等）IP，那么如何通过“使用率”阻止使用……即验证码继续浏览。

这是很难甚至不可能实现的。许多“流氓”蜘蛛/爬行程序不通过用户代理字符串来识别自己，因此很难识别它们。您可以尝试通过 IP 地址阻止他们，但很难跟上将新 IP 地址添加到阻止列表的步伐。如果使用 IP 地址，也有可能阻止合法用户，因为代理使许多不同的客户端显示为单个 IP 地址。

在这种情况下使用 robots.txt 的问题是蜘蛛可以选择忽略它。

EDIT:速率限制是一种可能性，但它也遇到了识别（和跟踪）“好”和“坏”用户代理/IP 的一些相同问题。在我们编写的进行一些内部页面浏览/会话计数的系统中，我们根据页面浏览率消除会话，但我们也不担心消除“好”蜘蛛，因为我们也不希望将它们计入数据中。我们不会采取任何措施阻止任何客户实际查看页面。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

aspnet

IIS

如何防止未经授权的蜘蛛抓取的相关文章

为什么 GridView Rowupdating 事件不捕获文本框的新值？

我正在使用网格视图当我单击编辑按钮时会出现更新和取消按钮修改来自 EditItemTemplate 的文本框中的值后新值不会显示在事件处理程序 rowupdating 中而是获取渲染页面时出现的值如何从这些文本框中获取新值并进一
EntityFramework.dll 中发生“System.InvalidOperationException”类型的异常，但未在用户代码中处理

我正在尝试为部门名称制作下拉列表我正在使用MVC5 我看到了太多关于堆栈溢出的解决方案但我从未找到与 MVC5 相关的有价值的解决方案 Database Name AppraisalDBContext Table Name Depart
ASP.NET 如何在 Web API 中读取多部分表单数据？

我将多部分表单数据发送到我的 Web API 如下所示 string example my string HttpContent stringContent new StringContent example HttpContent fil
自动 IIS6 403.4 重定向到 SSL 不起作用

我的 ASP Net 网站中有一个目录需要启用 SSL 对于所有其他目录我不希望启用 SSL 使用 IIS 我为我想要需要 SSL 的文件夹选中了需要安全通道 SS 和 128 位加密复选框现在当用户在我的安全目录中输入 http
如何缓存 ASP.NET 网站以获得更好的性能

我是一名网页设计师通常设计不需要更新的企业网站所以我想将输出缓存一天我怎样才能做到这一点此外任何有关在慢速服务器上提高 ASP NET 性能的建议都被接受请注意 ASP NET 缓存有一个bug http connect mic
如何将jarray对象添加到JObject中

如何添加JArray into JObject 我在更改时遇到异常jarrayObj into JObject parameterNames Test1 Test2 Test3 JArray jarrayObj new JArray for
HttpUtility.ParseQueryString 不解码特殊字符

Uri uri new Uri redirectionUrl NameValueCollection col HttpUtility ParseQueryString uri Query uri Query已经被解码那么我有什么办法可以阻
尝试从 C# 服务查询 IIS 时出现异常

我从使用 C 编写的 Windows 服务调用以下代码 try ServerManager m new ServerManager if m null SiteCollection sites m Sites I get exception
如果是持久（保持活动）连接，为什么我会在 Web 请求中到达 endOfStream？

我有一个网络请求它创建与服务器的持久保持活动连接例如 webRequest ContentType application x www form urlencoded Set the ContentLength property o
如何使用 iTextSharp 设置 PDF 段落或字体行高？

如何使用 iTextSharp 更改 PDF 字体或段落的行高排版中的行距称为行距如果可以使用行间距则可以使用 Paragraph Leading 或 Paragraph LeadingMultiplier 看http itextsh
需要用户使用 NTLM 重新进行身份验证

我是 NTLM web config 中的authenication windows 有一个 asp net mvc 2 0 站点现在一旦用户登录他们就会一次保持登录状态数周该应用程序的使用正在向共享使用登录服务帐户的计算机的用户开
ASP.net WebForms - 在标记中使用 GetRouteUrl

我一直在尝试弄清楚如何将路由功能与 ASP net 4 0 WebForms 一起使用我将一条路线添加到我的路线集合中 void Application Start RegisterRoutes RouteTable Routes voi
Asp.Net Core 中的 SSL 不起作用

我从 Visual Studio 创建了一个简单的 Web 应用程序Web Application Net Core 具有个人用户帐户授权的模板然后我启用了 SSLProject gt MyProject Properties 将带有
为什么 ASP.NET 在内容更改后提交 TextBox 控件的原始值？

我有一个 Web 表单允许用户修改某些字段中的数据主要是 TextBox 控件还有几个 CheckBox DropDownList 和一个 RadioButtonList 控件并使用提交按钮保存更改相当标准的东西问题是我需要跟
由 UpdatePanel 内的 GridView 内的 LinkButton 触发的完整回发

我在 UpdatePanel 中有一个 GridView 模板字段中有一个用于标记项目的按钮从功能上讲这工作得很好但该按钮总是触发整页回发而不是部分回发如何获得触发部分回发的按钮
如何保持长时间运行的NHibernate Session数据一致？

我在 ASP NET 会话中缓存了 NHibernate 会话我遇到过一种情况用户编辑了一个对象因此它位于 ISession 的第一级缓存中然后另一个用户编辑了同一个对象此时用户 1 仍然可以看到其编辑的原始版本而用户 2 可
使用 3.5 或 4.0 等旧版 .net 学习 C#.net、asp.net 的主要概念或基本概念是否重要？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案请向我建议是否需要学习c net和asp net的主要概念或基本概念我需要与使用旧版本 net框架3 5或4 0的公司合作在工作时我可以学习
ASP.NET隐藏字段值设置

我已经用谷歌搜索过这个但不知道如何设置隐藏字段的值我有以下代码
ASP.Net MVC MvcBuildViews 大幅增加编译时间

我们有一个项目希望构建视图以便在视图的 cshtml 文件中有任何错误时生成编译时错误尽管如此编译时间仍然急剧增加 MvcBuildViews true需要 62 秒 MvcBuildViews false需要 9 秒这是可以接受
如何以require格式打印页面的gridview

我有一个来自数据库的 gridview 问题是当用户单击打印按钮时我想打印整个页面 gridview 的每一行以给定格式打印为 1 A4 尺寸页面上的 3 行 gridview Printing format 如果你想使用 javascr

随机推荐

androidx.work.impl.WorkManagerInitializer：java.lang.ClassNotFoundException：路径上的“androidx.work.impl.WorkManagerInitializer”：/data

我最近将旧应用程序的后台服务迁移到工作经理 https developer android com topic libraries architecture workmanager 在最近的设备上低至包含 SDK 22 看起来不错运行重
解封时出现属性错误：无法获取属性“位置”

我正在为库存系统编写 Python CGI 脚本需要通过存储pickle一个列表称为locations 的对象这是我正在使用的代码 try with open config autosave bin rb as dataFile lo
整数分数约简算法

这来源于最近完成的一次编程比赛给你两个 10 5 整数的数组范围在 1 10 7 含内 int N 100000 int D 100000 想象有理数 X 是 N 的所有元素相乘并除以 D 的所有元素的结果修改两个数组而不更改 X
Bootstrap 3 导航栏 - 无法正确折叠

导航栏曾经正常工作但我做了一些更改它不再工作当我将窗口缩小时会显示切换方块但是当我单击它时什么也没有发生 Note 导航栏在全屏下工作正常它只是在小窗口中当我单击切换按钮时下拉菜单不会出现想知道是否有人知道如何解决它这
无法在 Eclipse 上调试基于 Android 库构建的 Android 本机代码

我已经为此苦苦挣扎了三天但无法完成我有一个 android 项目它链接到 eclipse 上的 android 库其中包含本机代码 I saw 这个问题 https stackoverflow com questions 12638
pandas - 获取日期时间数据框中每天的第一个和最后一个值

我有一个月的数据框不包括周六和周日每 1 分钟记录一次 v1 v2 2017 04 03 09 15 00 35 7 35 4 2017 04 03 09 16 00 28 7 28 5 2017 04 03 16 29 00 81 7
处理表中的溢出

如果我有一个像这样非常非常简单的例子的表 table table layout fixed width 300px td1 width 100px td2 width 200px 在我的其中之一 td2包含一个图像可以说 300px in
C++ 删除静态数据

如果我有一个类其中包含分配在堆上且永不更改的私有静态数据那么我应该什么时候如果有的话删除它据我了解类本身永远不会被构造因为类不是 C 中的第一类对象那么没有析构函数来删除其中的静态数据我是 C 新手如果我对 C 的理解有
如何使用logstash插件-logstash-input-http

我正在探索 Logstash 以接收 HTTP 上的输入我已经使用以下方式安装了 http 插件插件安装logstash input http 安装成功然后我尝试使用以下命令运行logstash Logstash e 输入 http
R：Tibble 与 ggplot2（绘制图表）

我正在尝试遵循 R 中的教程 https rviews rstudio com 2017 09 25 survival analysis with r https rviews rstudio com 2017 09 25 survival
当用户调整 QMainWindow 大小时如何分配回调？

我既无法在 QMainWindow 上找到类似教程的调整大小事件方案也没有在 Qt 设计窗口的下拉菜单中看到任何用于添加调整大小事件的选项我是 Qt 新手我想为 QMainWindow 调整大小事件编写一个槽函数有这样的活动吗我怎
在 Excel 中设置 csv 文件格式

Win XP Excel 2007 我知道还有很多关于 csv 格式的其他帖子但无法找到我需要的内容我们的一些数据被另一家公司保存在异地他们每天早上都会向我们发送包含前几天数据的 csv 文件问题是这些数据来自可能具有下拉列表的网络
使用sync_imports()在IPython.parallel引擎上导入自定义模块

我一直在玩 IPython parallel 我想使用我自己的一些自定义模块但无法按照上的说明进行操作烹饪书 http ipython org ipython doc stable parallel parallel multiengin
Nifty Modal - 如何在没有按钮的情况下触发模式

这个脚本 http stuff wp dreams com modal 提供了很棒的模式转换我想使用它们而不是标准的警报消息现在脚本的演示展示了如何通过按 a 来触发它们
如何从 R 读取换行符分隔的 JSON 文件？

我有一个换行符分隔即每个 JSON 对象仅限于文件中的 1 行 name json1 name json2 name json3 在Python中我可以轻松地阅读它如下所示我必须使用编码encoding cp850 读取我的真实数据
IllegalStateException：数据库已关闭（使用 ViewPager）

我对导致此错误的原因感到困惑因为我已确保正确关闭数据库适配器至少我认为是以下是 LogCat 的说法所有这些标签的标签都是 AndroidRuntime 致命异常主要 java lang IllegalStateException
从 ASP.NET Core Web API 将多 GB 文件流式传输到 AWS S3

我希望通过 ASP NET Core Web API 在 AWS S3 存储桶中创建一个大型多 GB 文件该文件足够大我不想加载Stream在将其上传到 AWS S3 之前先将其存储到内存中 Using PutObjectAsync
如何拆分结果中尾随空字符串的字符串？

我对 Scala 字符串分割行为有点困惑因为它不能一致地工作并且缺少一些列表元素例如如果我有一个包含 4 列和 1 个缺失元素的 CSV 字符串 elem1 elem2 elem 4 split List elem1 elem2 e
[Cucumber][JVM][Maven]测试无法通过 maven 从命令行运行

我正在使用 java cucumber 和 Maven 运行测试我正在使用 Eclipse IDE pom xml 也具有 Cucumber 依赖项我以两种方式运行测试从 Eclipse IDE 我将测试作为 Junit 测试运行测
如何防止未经授权的蜘蛛抓取

我想防止从我们的网站之一自动抓取 html 同时不影响合法的蜘蛛抓取 googlebot 等是否已经存在可以实现此目的的东西我是否使用了正确的术语编辑我主要是为了防止人们恶意这样做 IE 他们不会遵守 robots txt EDIT

如何防止未经授权的蜘蛛抓取

如何防止未经授权的蜘蛛抓取 的相关文章

随机推荐

热门标签

如何防止未经授权的蜘蛛抓取的相关文章