如何保护/监控您的网站免遭恶意用户抓取

2024-03-19

情况:

  • 网站内容受用户名/密码保护(并非全部受控,因为他们可以是试用/测试用户)
  • 由于用户名/密码限制,普通搜索引擎无法获取它
  • 恶意用户仍然可以登录并将会话 cookie 传递给“wget -r”或其他东西。

问题是监控此类活动并对其做出响应的最佳解决方案是什么(考虑到网站政策不允许爬行/抓取)

我可以想到一些选择:

  1. 设置一些流量监控解决方案来限制给定用户/IP 的请求数量。
  2. 与第一点相关:自动阻止某些用户代理
  3. (邪恶:))设置一个隐藏链接,当访问该链接时,用户会注销并禁用他的帐户。 (大概普通用户不会访问它,因为他不会看到它并单击它,但机器人会抓取所有链接。)

对于第一点,您知道已经实施的良好解决方案吗?有什么相关经验吗?一个问题是,对于非常活跃但人类的情况,可能会出现一些误报。 用户。

对于第三点:你认为这真的很邪恶吗?或者您认为它可能存在任何问题吗?

也接受其他建议。


我不建议自动锁定,并不是因为它们一定是邪恶的,而是因为它们向恶意用户提供了他们触发传感器的即时反馈,并让他们知道不要对他们签署的下一个帐户做同样的事情跟上。

并且用户代理阻止可能不会有太大帮助,因为显然用户代理很容易伪造。

您能做的最好的事情就是监控,但是您仍然必须询问如果检测到恶意行为您将做什么。只要您拥有不受控制的访问权限,您锁定的任何人都可以使用不同的身份再次注册。我不知道您需要什么样的信息才能获得帐户,但例如,仅姓名和电子邮件地址不会对任何人构成太大障碍。

这是典型的 DRM 问题——如果任何人都可以看到该信息,那么任何人都可以用它做任何他们想做的事情。你可以让它变得困难,但最终如果有人真的下定决心,你就无法阻止他们,并且你可能会干扰合法用户并损害你的业务。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何保护/监控您的网站免遭恶意用户抓取 的相关文章

  • 有没有Python模块可以帮助从Javascript加载的DOM中抓取数据?

    我想从使用 Ajax 调用加载 DOM 元素的页面中抓取数据 我尝试过基于 PyQt4 的旧解决方案行 它在完全加载 DOM 后加载 DOM 但问题是我需要执行 POST 请求 并且它仅适用于 GET 新的Python模块ghost py
  • 如何以编程方式找出机器的上次登录时间?

    我想 a 以编程方式和 b 远程查找用户成功登录 Windows 计算机的最后日期 时间 通过远程桌面或控制台 我愿意采用任何典型的 Windows 语言 C C VB 批处理文件 JScript 等 但任何解决方案都很好 尝试这个 pub
  • WebClient 下载字符串与 WebBrowser 查看源代码不同

    我正在创建一个 C 4 0 应用程序来使用 Web 客户端下载网页内容 网络客户端功能 public static string GetDocText string url string html string Empty try usin
  • python中html解析和网络爬行有多大区别[关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我需要从 django 网站中的网站获取一些数据 现在我很困惑是否应该使用 python 解析库或网络爬行库 搜索引擎库也属于同一类别
  • BOT/蜘蛛陷阱创意

    我有一个客户 他的域名似乎受到 DDoS 攻击的严重打击 在日志中 看起来很正常的具有随机 IP 的用户代理 但它们翻阅页面的速度太快 不像人类 他们似乎也没有要求任何图像 我似乎找不到任何模式 我怀疑这是一群 Windows 僵尸 客户过
  • 使用 BeautifulSoup 和 Requests 抓取多个分页链接

    Python 初学者在这里 我正在尝试从以下位置抓取所有产品dabs com 上的一个类别 http www dabs com category computing 11001 我已经设法抓取给定页面上的所有产品 但在迭代所有分页链接时遇到
  • 使用 Ruby 和 Mechanize 登录网站

    我需要从网站上抓取数据 但这需要我先登录 我一直在使用 hpricot 成功抓取其他网站 但我对使用 mechanize 还很陌生 而且我真的对如何使用它感到困惑 我看到这个例子经常被引用 require rubygems require
  • Scrapy 是否可以从原始 HTML 数据中获取纯文本?

    例如 scrapy shell http scrapy org content hxs select id content extract 0 print content 然后 我得到以下原始 HTML 代码 div h2 Welcome
  • 如何衡量网页的响应和加载时间?

    我需要构建一个 Windows 窗体应用程序来测量完全加载网页所需的时间 最好的方法是什么 这个小应用程序的目的是按照预定的时间间隔监视网站中的某些页面 以便能够事先知道网络服务器或数据库服务器是否出现问题 附加信息 我无法使用商业应用程序
  • Node.js 抓取工具中的内存泄漏

    这是一个用 JavaScript 和 Node js 编写的简单抓取工具 用于抓取 Wikipedia 中的元素周期表元素数据 依赖项是jsdom https github com tmpvar jsdom用于 DOM 操作和链帮 http
  • Scrapy中如何控制yield的顺序

    帮助 阅读下面的scrapy代码和爬虫的结果 我想从中抓取一些数据http china fathom info data data json http china fathom info data data json 并且仅Scrapy被允
  • Scrapy 使用带有规则的 start_requests

    我找不到任何使用 start requests 与规则的解决方案 我也没有在互联网上看到任何关于这两个的示例 我的目的很简单 我想重新定义 start request 函数以获得捕获请求期间所有异常的能力 并在请求中使用元 这是我的蜘蛛的代
  • php将所有链接转换为绝对url

    我正在用 php 编写一个网站爬虫 并且我已经有了可以从网站提取所有链接的代码 问题 网站使用绝对 URL 和相对 URL 的组合 示例 http 替换为 hxxp 因为我无法发布超链接 hxxp site com site com sit
  • Scrapy蜘蛛抓取页面和抓取项目之间的区别

    我正在编写一个 Scrapy CrawlSpider 它读取第一页上的 AD 列表 获取一些信息 例如列表和 AD url 的缩略图 然后向每个 AD url 发出请求以获取其详细信息 它在测试环境中工作和分页显然很好 但今天试图进行完整的
  • 页面抓取以从谷歌财经获取价格

    我试图通过抓取谷歌金融页面来获取股票价格 我在 python 中使用 urllib 包 然后使用正则表达式来获取价格数据 当我让 python 脚本运行时 它最初会运行一段时间 几分钟 然后开始抛出异常 HTTP 错误 503 服务不可用
  • 如何读取硬盘S.M.A.R.T.属性?

    我会监控 Windows 7 客户端上的智能 HDD 我希望在不使用任何 vbs 文件或现成工具的情况下获得 HDD 智能属性 只需使用 WMI 或 PowerShell 我将使用 Zabbix 监控服务器聚合该数据 使用zabbix se
  • 硒隐式等待不起作用

    这是我第一次使用 selenium 和无头浏览器 因为我想使用 ajax 技术抓取一些网页 效果很好 但在某些情况下加载整个页面需要太多时间 特别是当某些资源不可用时 所以我必须为selenium设置一个超时 首先我尝试过set page
  • 如何监控“即时发生”生成的 Google Alert RSS feed?

    我有一个 Google 快讯 我将其设置为以 RSS 源形式发送当它发生的时候 But 轮询 RSS feed 是获取 RSS feed 的唯一方法 or 当 Feed 是从 Google 发布时 有没有办法收到 Google 警报的通知
  • 如何自动检索AJAX调用的URL?

    目的是对爬行蜘蛛进行编程 使其能够 1 检索此页面表格中链接的 URL http cordis europa eu fp7 security projects en html http cordis europa eu fp7 securi
  • 普罗米修斯警报中缺少标签

    我对 Prometheus 警报规则有疑问 我设置了各种 cAdvisor 特定警报 例如 alert ContainerCpuUsage expr sum rate container cpu usage seconds total 3m

随机推荐