爬行和抓取特别困难的网站? [关闭]

2024-07-03

我对面向公众的网站(没有登录/身份验证背后的内容)感兴趣,这些网站具有以下内容:

  • 大量使用内部 301 和 302 重定向
  • 反抓取措施(但不通过robots.txt禁止爬虫)
  • 非语义或无效标记
  • 通过 AJAX 以 onclicks 或无限滚动的形式加载内容
  • url 中使用了很多参数
  • 规范问题
  • 复杂的内部链接结构
  • 以及其他通常使爬行网站令人头疼的事情!

我已经构建了一个爬虫/蜘蛛,可以在网站上执行一系列分析,并且我正在寻找会使其陷入困境的网站。


这里有一些:

  • Content loaded via AJAX in the form of onclicks or infinite scrolling
    • 兴趣 https://www.pinterest.com/
    • 在这样的页面中发表评论 http://item.jd.com/832703.html
      这是一个中文商品页面,其评论是通过AJAX加载的,通过在浏览器中向下滚动滚动条或根据浏览器的高度触发。我必须使用 PhantomJS 和 xvfb 来触发此类操作。
  • Anti-scraping measures (but not banning crawlers via robots.txt)

    • 我已经抓取了中国的亚马逊网站,当我想抓取next在这样的页面中,它可能modify导致您无法获取的请求真正的下一个 page
    • 堆栈溢出 https://stackoverflow.com/tags
      它有访问频率的限制。前几天,想获取stackoverflow中的所有标签,并将spider的访问频率设置为10,结果被stackoverflow警告了……下面是截屏 https://twitter.com/flyer103/status/409928544857227264/photo/1。之后我必须使用代理来爬行 stackoverflow。
  • and anything else that generally makes crawling a website a headache
    • 一点点 http://www.yhd.com/
      这是一个中国电子商务网站,当您在浏览器中访问它时,它会显示您的位置,并会根据您的位置提供一些商品。
    • etc.
      有许多类似上述的网站会根据您所在的位置提供不同的内容。当您抓取此类网站时,您得到的内容与您在浏览器中看到的内容不同。通过蜘蛛发出请求时,通常需要设置 cookie。

去年我遇到一个网站需要http请求头 and 一些饼干发出请求时,但我不记得那个网站了......

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

爬行和抓取特别困难的网站? [关闭] 的相关文章

  • 点击事件触发后不执行任何操作

    当我触发一个 click 在 puppeteer 中的非无头模式下发生的事件 没有任何反应 甚至没有错误 非无头模式 因此我可以直观地监视正在单击的内容 const scraper test async gt let browser pag
  • Python BeautifulSoup 循环表数据

    这里对 Python 非常陌生 我正在尝试从此页面捕获一些数据这一页 https us diablo3 com en item helm 我正在尝试获取两个列表中捕获的项目名称和项目类型 我稍后可以弄清楚如何将它们连接到一张表中 任何帮助都
  • VBA - HTML 抓取问题

    我正在尝试从网站上抓取拍卖数据https www rbauction com heavy equipment auctions https www rbauction com heavy equipment auctions 我当前的尝试是
  • 从网站上的表格中抓取数据,而无需搜索标签

    这是这个问题的延续使用 InStr 搜索引号 空格 冒号等 https stackoverflow com questions 52673819 using instr to search for quotes spaces colons
  • 如何模拟“焦点”和“打字”事件

    尝试模拟 onfocus 和打字事件 但它不起作用 Sub Login MyLogin MyPass Dim IEapp As InternetExplorer Dim IeDoc As Object Dim ieTable As Obje
  • 如何用Python抓取动态网页

    我正在努力做什么 抓取下面的网页以获取二手车数据 Issue 刮掉整个页面 在上面的 url 中 仅显示前 30 项 这些可以通过我在下面编写的代码来抓取 其他页面的链接显示为 1 2 3 但链接地址似乎是用 Javascript 编写的
  • 如何从网页中嵌入的 Tableau 图表中抓取工具提示值

    我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值 以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例 我从要从中抓取的原始网页中获取了此网址 https covid19 colo
  • 我可以使用 WGET 生成给定 URL 的网站的站点地图吗?

    我需要一个可以抓取网站并以纯文本或类似格式返回所有已抓取页面的列表的脚本 我将把它作为站点地图提交给搜索引擎 我可以使用 WGET 生成网站的站点地图吗 或者有没有一个 PHP 脚本可以做同样的事情 wget spider recursiv
  • 杂乱的扭曲连接在不干净的时尚中消失了。没有代理。已经尝试过标题

    我正在尝试抓取这个网站 https www5 apply2jobs com jupitermed ProfExt index cfm fuseaction mExternal searchJobs https www5 apply2jobs
  • 抓取问题:“检查元素”与“查看页面源代码”不同

    我正在尝试对一个网页进行网络抓取 该网页内部包含多个选项卡 当我单击所需的选项卡并显示其内容后 首先出现两个问题 1 网页地址不会更改 并且所有选项卡都相同 2 当我使用浏览器 firefox和chrome 的 查看页面源 查看页面源时 所
  • Python,多线程,获取网页,下载网页

    我想在一个站点批量下载网页 我的 urls txt 文件中有 5000000 个 url 链接 大约有300M 如何让多线程链接这些网址并下载这些网页 或者如何批量下载这些网页 我的想法 with open urls txt r as f
  • 将表抓取到列表中

    我正在尝试从网页中提取表格 我已经设法将表中的所有数据放入列表中 然而 所有表数据都被放入一个列表元素中 我需要帮助将 干净 数据 即字符串 没有所有 HTML 包装 从表的行获取到它们自己的列表元素中 所以而不是 list tr th a
  • Puppeteer 登录 Instagram

    我正在尝试使用 Puppeteer 登录 Instagram 但不知何故无法登录 你能帮助我吗 这是我正在使用的链接 https www instagram com accounts login https www instagram co
  • Scrapy在使用crawlerprocess运行时抛出错误

    我用 python 编写了一个脚本 使用 scrapy 来收集网站上不同帖子的名称及其链接 当我从命令行执行脚本时 它可以完美地工作 现在 我的意图是使用运行脚本CrawlerProcess 我在不同的地方寻找类似的问题 但我找不到任何直接
  • 如何用PHP识别google/yahoo/msn的网络爬虫?

    AFAIK SERVER REMOTE HOST 应该以 google com 或 yahoo com 结尾 但这是最有保障的方法吗 还有其他出路吗 您通过以下方式识别搜索引擎用户代理和IP地址 http www jafsoft com s
  • 爬行和抓取特别困难的网站? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我对面向公众的网站 没有登录 身份验证背后的内容 感兴趣 这些网站具有以下内容 大量使用内部 301
  • 爬行和抓取特别困难的网站? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我对面向公众的网站 没有登录 身份验证背后的内容 感兴趣 这些网站具有以下内容 大量使用内部 301
  • 在 python 3.7 中使用 Beautifulsoup 从《华尔街日报》网络抓取文章?

    我正在尝试使用 Python 中的 Beautifulsoup 从 华尔街日报 中抓取文章 但是 我正在运行的代码正在执行 没有任何错误 退出代码 0 但没有结果 我不明白发生了什么事 为什么这段代码没有给出预期的结果 我什至已经付费订阅了
  • 无法获取 div 元素内的所有 span 标签 beautifulsoup

    我正在刮这个我需要从中获取工资值 如下所示image https i stack imgur com ozPGs png 我试图做到以下几点 import requests from bs4 import BeautifulSoup res
  • 从Python运行Scrapy

    我正在尝试从 Python 运行 Scrapy 我正在查看这段代码 source http doc scrapy org en 0 16 topics practices html from twisted internet import

随机推荐