如何保护/监控您的网站免遭恶意用户抓取

2024-03-19

情况：

网站内容受用户名/密码保护（并非全部受控，因为他们可以是试用/测试用户）
由于用户名/密码限制，普通搜索引擎无法获取它
恶意用户仍然可以登录并将会话 cookie 传递给“wget -r”或其他东西。

问题是监控此类活动并对其做出响应的最佳解决方案是什么（考虑到网站政策不允许爬行/抓取）

我可以想到一些选择：

设置一些流量监控解决方案来限制给定用户/IP 的请求数量。
与第一点相关：自动阻止某些用户代理
（邪恶:)）设置一个隐藏链接，当访问该链接时，用户会注销并禁用他的帐户。（大概普通用户不会访问它，因为他不会看到它并单击它，但机器人会抓取所有链接。）

对于第一点，您知道已经实施的良好解决方案吗？有什么相关经验吗？一个问题是，对于非常活跃但人类的情况，可能会出现一些误报。用户。

对于第三点：你认为这真的很邪恶吗？或者您认为它可能存在任何问题吗？

也接受其他建议。

我不建议自动锁定，并不是因为它们一定是邪恶的，而是因为它们向恶意用户提供了他们触发传感器的即时反馈，并让他们知道不要对他们签署的下一个帐户做同样的事情跟上。

并且用户代理阻止可能不会有太大帮助，因为显然用户代理很容易伪造。

您能做的最好的事情就是监控，但是您仍然必须询问如果检测到恶意行为您将做什么。只要您拥有不受控制的访问权限，您锁定的任何人都可以使用不同的身份再次注册。我不知道您需要什么样的信息才能获得帐户，但例如，仅姓名和电子邮件地址不会对任何人构成太大障碍。

这是典型的 DRM 问题——如果任何人都可以看到该信息，那么任何人都可以用它做任何他们想做的事情。你可以让它变得困难，但最终如果有人真的下定决心，你就无法阻止他们，并且你可能会干扰合法用户并损害你的业务。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何保护/监控您的网站免遭恶意用户抓取的相关文章

有没有Python模块可以帮助从Javascript加载的DOM中抓取数据？

我想从使用 Ajax 调用加载 DOM 元素的页面中抓取数据我尝试过基于 PyQt4 的旧解决方案行它在完全加载 DOM 后加载 DOM 但问题是我需要执行 POST 请求并且它仅适用于 GET 新的Python模块ghost py
如何以编程方式找出机器的上次登录时间？

我想 a 以编程方式和 b 远程查找用户成功登录 Windows 计算机的最后日期时间通过远程桌面或控制台我愿意采用任何典型的 Windows 语言 C C VB 批处理文件 JScript 等但任何解决方案都很好尝试这个 pub
WebClient 下载字符串与 WebBrowser 查看源代码不同

我正在创建一个 C 4 0 应用程序来使用 Web 客户端下载网页内容网络客户端功能 public static string GetDocText string url string html string Empty try usin
python中html解析和网络爬行有多大区别[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我需要从 django 网站中的网站获取一些数据现在我很困惑是否应该使用 python 解析库或网络爬行库搜索引擎库也属于同一类别
BOT/蜘蛛陷阱创意

我有一个客户他的域名似乎受到 DDoS 攻击的严重打击在日志中看起来很正常的具有随机 IP 的用户代理但它们翻阅页面的速度太快不像人类他们似乎也没有要求任何图像我似乎找不到任何模式我怀疑这是一群 Windows 僵尸客户过
使用 BeautifulSoup 和 Requests 抓取多个分页链接

Python 初学者在这里我正在尝试从以下位置抓取所有产品dabs com 上的一个类别 http www dabs com category computing 11001 我已经设法抓取给定页面上的所有产品但在迭代所有分页链接时遇到
使用 Ruby 和 Mechanize 登录网站

我需要从网站上抓取数据但这需要我先登录我一直在使用 hpricot 成功抓取其他网站但我对使用 mechanize 还很陌生而且我真的对如何使用它感到困惑我看到这个例子经常被引用 require rubygems require
Scrapy 是否可以从原始 HTML 数据中获取纯文本？

例如 scrapy shell http scrapy org content hxs select id content extract 0 print content 然后我得到以下原始 HTML 代码 div h2 Welcome
如何衡量网页的响应和加载时间？

我需要构建一个 Windows 窗体应用程序来测量完全加载网页所需的时间最好的方法是什么这个小应用程序的目的是按照预定的时间间隔监视网站中的某些页面以便能够事先知道网络服务器或数据库服务器是否出现问题附加信息我无法使用商业应用程序
Node.js 抓取工具中的内存泄漏

这是一个用 JavaScript 和 Node js 编写的简单抓取工具用于抓取 Wikipedia 中的元素周期表元素数据依赖项是jsdom https github com tmpvar jsdom用于 DOM 操作和链帮 http
Scrapy中如何控制yield的顺序

帮助阅读下面的scrapy代码和爬虫的结果我想从中抓取一些数据http china fathom info data data json http china fathom info data data json 并且仅Scrapy被允
Scrapy 使用带有规则的 start_requests

我找不到任何使用 start requests 与规则的解决方案我也没有在互联网上看到任何关于这两个的示例我的目的很简单我想重新定义 start request 函数以获得捕获请求期间所有异常的能力并在请求中使用元这是我的蜘蛛的代
php将所有链接转换为绝对url

我正在用 php 编写一个网站爬虫并且我已经有了可以从网站提取所有链接的代码问题网站使用绝对 URL 和相对 URL 的组合示例 http 替换为 hxxp 因为我无法发布超链接 hxxp site com site com sit
Scrapy蜘蛛抓取页面和抓取项目之间的区别

我正在编写一个 Scrapy CrawlSpider 它读取第一页上的 AD 列表获取一些信息例如列表和 AD url 的缩略图然后向每个 AD url 发出请求以获取其详细信息它在测试环境中工作和分页显然很好但今天试图进行完整的
页面抓取以从谷歌财经获取价格

我试图通过抓取谷歌金融页面来获取股票价格我在 python 中使用 urllib 包然后使用正则表达式来获取价格数据当我让 python 脚本运行时它最初会运行一段时间几分钟然后开始抛出异常 HTTP 错误 503 服务不可用
如何读取硬盘S.M.A.R.T.属性？

我会监控 Windows 7 客户端上的智能 HDD 我希望在不使用任何 vbs 文件或现成工具的情况下获得 HDD 智能属性只需使用 WMI 或 PowerShell 我将使用 Zabbix 监控服务器聚合该数据使用zabbix se
硒隐式等待不起作用

这是我第一次使用 selenium 和无头浏览器因为我想使用 ajax 技术抓取一些网页效果很好但在某些情况下加载整个页面需要太多时间特别是当某些资源不可用时所以我必须为selenium设置一个超时首先我尝试过set page
如何监控“即时发生”生成的 Google Alert RSS feed？

我有一个 Google 快讯我将其设置为以 RSS 源形式发送当它发生的时候 But 轮询 RSS feed 是获取 RSS feed 的唯一方法 or 当 Feed 是从 Google 发布时有没有办法收到 Google 警报的通知
如何自动检索AJAX调用的URL？

目的是对爬行蜘蛛进行编程使其能够 1 检索此页面表格中链接的 URL http cordis europa eu fp7 security projects en html http cordis europa eu fp7 securi
普罗米修斯警报中缺少标签

我对 Prometheus 警报规则有疑问我设置了各种 cAdvisor 特定警报例如 alert ContainerCpuUsage expr sum rate container cpu usage seconds total 3m

随机推荐

检测 osx 何时睡眠/从睡眠中恢复

是否可以编写一个 python 程序我认为我将作为守护进程运行来检测 osx 何时进入睡眠状态以及何时从睡眠状态恢复如果听起来我没有研究过这一点我很抱歉我已经超出了我的舒适区不确定我是否需要从 python 委托给用 C 编写的
如何在Python中以相同比例在同一图形上绘制两个3D矩阵图

我有两个矩阵我希望在同一个图上的两个子图上有相应的两个 3D 图并且具有相同的 z 轴到目前为止这是我的代码 import numpy as np import matplotlib pyplot as plt from mpl t
奇怪的海湾合作委员会行为

给出以下 C 代码 struct vertex type float x y z vertex type vertex type float x float y float z x x y y z z typedef struct vert
如何将包安装到 conda 创建的特定 virtualenv 中 [重复]

这个问题在这里已经有答案了我想在 conda 创建 virtualenv 后安装 python 包但我收到以下错误有谁知道如何将软件包安装到 conda 创建的 virtualenv 中 Users jzhang anaconda l
Java中的ConcurrentHashMap？

有什么用ConcurrentHashMap在Java中它有什么好处它是如何工作的示例代码也很有用重点是提供一个实现HashMap那是线程安全的多个线程可以读取和写入它而不会接收到过期或损坏的数据 ConcurrentHashMa
基于声明的安全性时的 http 客户端标头授权

我正在从使用基于声明的安全性的 MVC 应用程序调用 REST api 我将如何设置身份验证标头我没有密码所以我想我不应该使用 Basic 如果使用 Bearer 如何获取令牌 Client DefaultRequestHeaders
向 Magento 的订阅模块添加自定义字段

Magento 中的新闻通讯订阅模块默认只有一个字段电子邮件在我向表单添加额外字段例如国家地区后如何让表单数据显示在 Magento 后端并作为电子邮件发送给预设收件人谢谢如果您想为 Magento 新闻通讯订阅者添加一些自
使用 matplotlib 绘制类似 Python 极地时钟的图

我正在尝试使用 Python 中的 matplotlib 以顺时针方式绘制数据其风格为这个答案 https stackoverflow com questions 25898523 how to plot points on a cloc
当 AutoGenerateColumns 为 nullable bool 时，WPF DataGrid 强制绑定 DataGridCheckBoxColumn

我们有很多DataGrid具有动态数据绑定所以我们总是使用AutoGenerateColumns True For bool列生成一个DataGridCheckBoxColumn但对于可为 null 的 bool bool 在 C 中生
C++ 中的 Utf-8：快速而肮脏的技巧

我知道有关于 utf 8 的各种问题主要是关于操作 utf 8 字符串之类对象的库然而我正在开发一个国际化项目一个网站我在其中编写了 c 后端不要问即使我们处理 utf 8 我们实际上也不需要这样的库大多数时候简单的
如何从 Google Places API 获取菜单和产品列表的数据？

在 Google 地图上企业可以将菜单中的产品详细信息或食品菜肴添加到其商店或餐厅地点我们如何获得这些数据在里面Google Place Api 地点详细信息 https developers google com places
无法创建新的 Spree 应用程序：“未定义方法‘raise_in_transactional_callbacks=’”

几个月前我就遇到过这个问题将其发布到 Spree 的 GitHub 页面上 https github com spree spree issues 5448 然后自己找出解决方案并将其发布在同一问题上两个月后我仍然收到来自具有相同错误消
防止伪元素触发悬停？

如果我有标记 div class a b div 其中 a 类有一个与之关联的悬停类并且 b 类有一个与之关联的伪元素就像这样 div width 100px height 100px a background red display
在 Swift 中使用字符分隔符查找并突出显示文本

我之前开发了一个 Android 应用程序作为用户的参考指南它使用 sqlite 数据库来存储信息数据库存储不带格式的 UTF 8 文本即粗体或下划线为了突出显示文本的哪些部分需要格式化我使用分隔符标记特别是将它们括起来因
Zipline 导入错误。没有名为 zipline.transforms 的模块

我无法导入 zipline transforms 模块 gt gt gt from zipline transforms import batch transform Traceback most recent call last File
Python - 从 Tkinter 回调返回

如何从作为 Tkinter 回调执行的函数中获取返回的对象 import Tkinter as Tk from functools import partial def square x return x x root Tk Tk var
Java中的AtomicLong有什么用？

有人可以解释一下 AtomicLong 的用途吗例如以下陈述有什么区别 private Long transactionId private AtomicLong transactionId 有重要的这两个对象之间的差异虽然最终结果是
用于创建微服务应用程序的 Maven 原型 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有这样的 Maven Archetype 为微服务应用程序创建多模块 Maven 项目结构我想要一
了解 typeid().name() 的输出

我正在检查某些类型的变量并得到一些令人困惑的结果 include
如何保护/监控您的网站免遭恶意用户抓取

情况网站内容受用户名密码保护并非全部受控因为他们可以是试用测试用户由于用户名密码限制普通搜索引擎无法获取它恶意用户仍然可以登录并将会话 cookie 传递给 wget r 或其他东西问题是监控此类活动并对其做出响应的最佳

如何保护/监控您的网站免遭恶意用户抓取

如何保护/监控您的网站免遭恶意用户抓取 的相关文章

随机推荐

热门标签

如何保护/监控您的网站免遭恶意用户抓取的相关文章