爬行和抓取特别困难的网站？ [关闭]

2024-07-03

我对面向公众的网站（没有登录/身份验证背后的内容）感兴趣，这些网站具有以下内容：

大量使用内部 301 和 302 重定向
反抓取措施（但不通过robots.txt禁止爬虫）
非语义或无效标记
通过 AJAX 以 onclicks 或无限滚动的形式加载内容
url 中使用了很多参数
规范问题
复杂的内部链接结构
以及其他通常使爬行网站令人头疼的事情！

我已经构建了一个爬虫/蜘蛛，可以在网站上执行一系列分析，并且我正在寻找会使其陷入困境的网站。

这里有一些：

Content loaded via AJAX in the form of onclicks or infinite scrolling
- 兴趣 https://www.pinterest.com/
- 在这样的页面中发表评论 http://item.jd.com/832703.html
  这是一个中文商品页面，其评论是通过AJAX加载的，通过在浏览器中向下滚动滚动条或根据浏览器的高度触发。我必须使用 PhantomJS 和 xvfb 来触发此类操作。
Anti-scraping measures (but not banning crawlers via robots.txt)
- 我已经抓取了中国的亚马逊网站，当我想抓取next在这样的页面中，它可能modify导致您无法获取的请求真正的下一个 page
- 堆栈溢出 https://stackoverflow.com/tags
  它有访问频率的限制。前几天，想获取stackoverflow中的所有标签，并将spider的访问频率设置为10，结果被stackoverflow警告了……下面是截屏 https://twitter.com/flyer103/status/409928544857227264/photo/1。之后我必须使用代理来爬行 stackoverflow。
and anything else that generally makes crawling a website a headache
- 一点点 http://www.yhd.com/
  这是一个中国电子商务网站，当您在浏览器中访问它时，它会显示您的位置，并会根据您的位置提供一些商品。
- etc.
  有许多类似上述的网站会根据您所在的位置提供不同的内容。当您抓取此类网站时，您得到的内容与您在浏览器中看到的内容不同。通过蜘蛛发出请求时，通常需要设置 cookie。

去年我遇到一个网站需要http请求头 and 一些饼干发出请求时，但我不记得那个网站了......

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

webscraping

screenscraping

webcrawler

爬行和抓取特别困难的网站？ [关闭] 的相关文章

点击事件触发后不执行任何操作

当我触发一个 click 在 puppeteer 中的非无头模式下发生的事件没有任何反应甚至没有错误非无头模式因此我可以直观地监视正在单击的内容 const scraper test async gt let browser pag
Python BeautifulSoup 循环表数据

这里对 Python 非常陌生我正在尝试从此页面捕获一些数据这一页 https us diablo3 com en item helm 我正在尝试获取两个列表中捕获的项目名称和项目类型我稍后可以弄清楚如何将它们连接到一张表中任何帮助都
VBA - HTML 抓取问题

我正在尝试从网站上抓取拍卖数据https www rbauction com heavy equipment auctions https www rbauction com heavy equipment auctions 我当前的尝试是
从网站上的表格中抓取数据，而无需搜索标签

这是这个问题的延续使用 InStr 搜索引号空格冒号等 https stackoverflow com questions 52673819 using instr to search for quotes spaces colons
如何模拟“焦点”和“打字”事件

尝试模拟 onfocus 和打字事件但它不起作用 Sub Login MyLogin MyPass Dim IEapp As InternetExplorer Dim IeDoc As Object Dim ieTable As Obje
如何用Python抓取动态网页

我正在努力做什么抓取下面的网页以获取二手车数据 Issue 刮掉整个页面在上面的 url 中仅显示前 30 项这些可以通过我在下面编写的代码来抓取其他页面的链接显示为 1 2 3 但链接地址似乎是用 Javascript 编写的
如何从网页中嵌入的 Tableau 图表中抓取工具提示值

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例我从要从中抓取的原始网页中获取了此网址 https covid19 colo
我可以使用 WGET 生成给定 URL 的网站的站点地图吗？

我需要一个可以抓取网站并以纯文本或类似格式返回所有已抓取页面的列表的脚本我将把它作为站点地图提交给搜索引擎我可以使用 WGET 生成网站的站点地图吗或者有没有一个 PHP 脚本可以做同样的事情 wget spider recursiv
杂乱的扭曲连接在不干净的时尚中消失了。没有代理。已经尝试过标题

我正在尝试抓取这个网站 https www5 apply2jobs com jupitermed ProfExt index cfm fuseaction mExternal searchJobs https www5 apply2jobs
抓取问题：“检查元素”与“查看页面源代码”不同

我正在尝试对一个网页进行网络抓取该网页内部包含多个选项卡当我单击所需的选项卡并显示其内容后首先出现两个问题 1 网页地址不会更改并且所有选项卡都相同 2 当我使用浏览器 firefox和chrome 的查看页面源查看页面源时所
Python，多线程，获取网页，下载网页

我想在一个站点批量下载网页我的 urls txt 文件中有 5000000 个 url 链接大约有300M 如何让多线程链接这些网址并下载这些网页或者如何批量下载这些网页我的想法 with open urls txt r as f
将表抓取到列表中

我正在尝试从网页中提取表格我已经设法将表中的所有数据放入列表中然而所有表数据都被放入一个列表元素中我需要帮助将干净数据即字符串没有所有 HTML 包装从表的行获取到它们自己的列表元素中所以而不是 list tr th a
Puppeteer 登录 Instagram

我正在尝试使用 Puppeteer 登录 Instagram 但不知何故无法登录你能帮助我吗这是我正在使用的链接 https www instagram com accounts login https www instagram co
Scrapy在使用crawlerprocess运行时抛出错误

我用 python 编写了一个脚本使用 scrapy 来收集网站上不同帖子的名称及其链接当我从命令行执行脚本时它可以完美地工作现在我的意图是使用运行脚本CrawlerProcess 我在不同的地方寻找类似的问题但我找不到任何直接
如何用PHP识别google/yahoo/msn的网络爬虫？

AFAIK SERVER REMOTE HOST 应该以 google com 或 yahoo com 结尾但这是最有保障的方法吗还有其他出路吗您通过以下方式识别搜索引擎用户代理和IP地址 http www jafsoft com s
爬行和抓取特别困难的网站？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我对面向公众的网站没有登录身份验证背后的内容感兴趣这些网站具有以下内容大量使用内部 301
爬行和抓取特别困难的网站？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我对面向公众的网站没有登录身份验证背后的内容感兴趣这些网站具有以下内容大量使用内部 301
在 python 3.7 中使用 Beautifulsoup 从《华尔街日报》网络抓取文章？

我正在尝试使用 Python 中的 Beautifulsoup 从华尔街日报中抓取文章但是我正在运行的代码正在执行没有任何错误退出代码 0 但没有结果我不明白发生了什么事为什么这段代码没有给出预期的结果我什至已经付费订阅了
无法获取 div 元素内的所有 span 标签 beautifulsoup

我正在刮这个我需要从中获取工资值如下所示image https i stack imgur com ozPGs png 我试图做到以下几点 import requests from bs4 import BeautifulSoup res
从Python运行Scrapy

我正在尝试从 Python 运行 Scrapy 我正在查看这段代码 source http doc scrapy org en 0 16 topics practices html from twisted internet import

随机推荐

Laravel 5 - 验证多个请求

在 Laravel 5 中是否可以验证多个请求以便在提交表单后插入相关模型我知道如何使用验证器验证多个模型但我想使用请求类来完成此操作拉拉维尔 4 validateUser Validator make Input all Use
Laravel 5 - 验证多个请求

在 Laravel 5 中是否可以验证多个请求以便在提交表单后插入相关模型我知道如何使用验证器验证多个模型但我想使用请求类来完成此操作拉拉维尔 4 validateUser Validator make Input all Use
TeamCity 构建代理已断开连接

我在 Windows 7 上安装了构建代理并且该代理始终显示为已断开连接日志 teamcity agent txt 显示以下信息 If this is the first time this agent registered on t
TeamCity 构建代理已断开连接

我在 Windows 7 上安装了构建代理并且该代理始终显示为已断开连接日志 teamcity agent txt 显示以下信息 If this is the first time this agent registered on t
有哪些用于性能测试 SharePoint Web 部件和控件的好技术？

这是一个关于特定于 SharePoint Web 部件和控件的性能测试的问题尽管标准 ASP NET 方法也适用我想知道有哪些好的技术考虑到以下因素缓存什么时候应该缓存什么负载平衡服务器存储状态与页面其他部分的交互例如多个
有哪些用于性能测试 SharePoint Web 部件和控件的好技术？

这是一个关于特定于 SharePoint Web 部件和控件的性能测试的问题尽管标准 ASP NET 方法也适用我想知道有哪些好的技术考虑到以下因素缓存什么时候应该缓存什么负载平衡服务器存储状态与页面其他部分的交互例如多个
如何使用 systemjs 在最小的 Angular 2 应用程序中加载 RxJS？

我无法使用 RxJS 获得最小的 Angular 2 应用程序我使用 Typescript tsc 1 6 2 和 systemjs 进行模块加载如何让 systemjs 正确加载 Rx 模块我已经没有办法尝试了如果有人指出我做错了
如何使用 systemjs 在最小的 Angular 2 应用程序中加载 RxJS？

我无法使用 RxJS 获得最小的 Angular 2 应用程序我使用 Typescript tsc 1 6 2 和 systemjs 进行模块加载如何让 systemjs 正确加载 Rx 模块我已经没有办法尝试了如果有人指出我做错了
jQuery - 如何确定父元素是否存在？

我正在尝试动态链接到图像但是我无法正确确定父链接是否已经存在这就是我所拥有的 if element parent a length gt 0 element parent a attr href link else element wr
jQuery - 如何确定父元素是否存在？

我正在尝试动态链接到图像但是我无法正确确定父链接是否已经存在这就是我所拥有的 if element parent a length gt 0 element parent a attr href link else element wr
分享到 Facebook 故事

我们能够实现分享到 Instagram Stories 但不能分享到 Facebook Stories 如下these https developers facebook com docs sharing sharing to storie
分享到 Facebook 故事

我们能够实现分享到 Instagram Stories 但不能分享到 Facebook Stories 如下these https developers facebook com docs sharing sharing to storie
Msbuild CLI platform=x64 和项目文件属性 x64 给出不同的结果

这个问题是关于使用之间的区别 p Platform x64在 MSBuild 命令行上与使用
Msbuild CLI platform=x64 和项目文件属性 x64 给出不同的结果

这个问题是关于使用之间的区别 p Platform x64在 MSBuild 命令行上与使用
如何在不复制的情况下将 std::vector 转换为 vector？

我找不到这个问题这是我面临的实际问题我有一个返回的文件加载实用程序std vector
如何在不复制的情况下将 std::vector 转换为 vector？

我找不到这个问题这是我面临的实际问题我有一个返回的文件加载实用程序std vector
将系列从 pandas 转换为 pyspark：需要使用“groupby”和“size”，但 pyspark 会产生错误

我正在将一些代码从 Pandas 转换为 pyspark 在 pandas 中假设我有以下模拟数据框 df 在 pandas 中我按以下方式定义某个变量 value df groupby Age Siblings size 输出是一系列
将系列从 pandas 转换为 pyspark：需要使用“groupby”和“size”，但 pyspark 会产生错误

我正在将一些代码从 Pandas 转换为 pyspark 在 pandas 中假设我有以下模拟数据框 df 在 pandas 中我按以下方式定义某个变量 value df groupby Age Siblings size 输出是一系列
爬行和抓取特别困难的网站？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我对面向公众的网站没有登录身份验证背后的内容感兴趣这些网站具有以下内容大量使用内部 301
爬行和抓取特别困难的网站？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我对面向公众的网站没有登录身份验证背后的内容感兴趣这些网站具有以下内容大量使用内部 301

爬行和抓取特别困难的网站？ [关闭]

爬行和抓取特别困难的网站？ [关闭] 的相关文章

随机推荐

热门标签