爬行和抓取特别困难的网站？ [关闭]

2024-07-03

我对面向公众的网站（没有登录/身份验证背后的内容）感兴趣，这些网站具有以下内容：

大量使用内部 301 和 302 重定向
反抓取措施（但不通过robots.txt禁止爬虫）
非语义或无效标记
通过 AJAX 以 onclicks 或无限滚动的形式加载内容
url 中使用了很多参数
规范问题
复杂的内部链接结构
以及其他通常使爬行网站令人头疼的事情！

我已经构建了一个爬虫/蜘蛛，可以在网站上执行一系列分析，并且我正在寻找会使其陷入困境的网站。

这里有一些：

Content loaded via AJAX in the form of onclicks or infinite scrolling
- 兴趣 https://www.pinterest.com/
- 在这样的页面中发表评论 http://item.jd.com/832703.html
  这是一个中文商品页面，其评论是通过AJAX加载的，通过在浏览器中向下滚动滚动条或根据浏览器的高度触发。我必须使用 PhantomJS 和 xvfb 来触发此类操作。
Anti-scraping measures (but not banning crawlers via robots.txt)
- 我已经抓取了中国的亚马逊网站，当我想抓取next在这样的页面中，它可能modify导致您无法获取的请求真正的下一个 page
- 堆栈溢出 https://stackoverflow.com/tags
  它有访问频率的限制。前几天，想获取stackoverflow中的所有标签，并将spider的访问频率设置为10，结果被stackoverflow警告了……下面是截屏 https://twitter.com/flyer103/status/409928544857227264/photo/1。之后我必须使用代理来爬行 stackoverflow。
and anything else that generally makes crawling a website a headache
- 一点点 http://www.yhd.com/
  这是一个中国电子商务网站，当您在浏览器中访问它时，它会显示您的位置，并会根据您的位置提供一些商品。
- etc.
  有许多类似上述的网站会根据您所在的位置提供不同的内容。当您抓取此类网站时，您得到的内容与您在浏览器中看到的内容不同。通过蜘蛛发出请求时，通常需要设置 cookie。

去年我遇到一个网站需要http请求头 and 一些饼干发出请求时，但我不记得那个网站了......

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

webscraping

screenscraping

webcrawler

爬行和抓取特别困难的网站？ [关闭] 的相关文章

如何从网址中删除查询？

我正在使用 scrapy 抓取一个网站该网站似乎将随机值附加到每个 URL 末尾的查询字符串这将爬行变成了一种无限循环我如何让 scrapy 忽略 URL 的查询字符串部分 See urllib urlparse http docs
带有 jsessionid 的 R 网络抓取工具

我正在 R 中测试一些网页抓取脚本我已经阅读了很多教程文档并尝试了不同的方法但到目前为止还没有成功我试图抓取的网址是this one http www dataescolabrasil inep gov br dataEscolaB
python编写的类爬虫抛出属性错误

用 python 编写一些代码后我陷入了深深的麻烦我是按照 Python 中的 OOP 设计编写代码的新手我在代码中使用的 xpath 是完美的当通过 page crawler 类的实例运行 info grabber 类中的 pas
从R中的字符串中匹配提取国家名称

我一直在从网站上抓取评论数据在此过程中我能够获取包含用户名评论数量评论日期和国家地区信息的字符串向量它们看起来大致是这样的 raw lt c Anna 1025 North Carolina USA DEC 20 2017 Ja
如何模拟“焦点”和“打字”事件

尝试模拟 onfocus 和打字事件但它不起作用 Sub Login MyLogin MyPass Dim IEapp As InternetExplorer Dim IeDoc As Object Dim ieTable As Obje
如何解决 TypeError: element_to_be_clickable() 需要 1 个位置参数？

我收到错误TypeError element to be clickable takes 1 positional argument but 2 were given当我运行以下代码时 from selenium webdriver chr
如何从网页中嵌入的 Tableau 图表中抓取工具提示值

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例我从要从中抓取的原始网页中获取了此网址 https covid19 colo
Scrapy 文件管道不下载文件

我的任务是构建一个可以下载所有内容的网络爬虫 pdfs 在给定站点中 Spider 在本地计算机和抓取集线器上运行由于某种原因当我运行它时它只下载一些但不是全部的 pdf 通过查看输出中的项目可以看出这一点JSON 我已经设定MEDI
杂乱的扭曲连接在不干净的时尚中消失了。没有代理。已经尝试过标题

我正在尝试抓取这个网站 https www5 apply2jobs com jupitermed ProfExt index cfm fuseaction mExternal searchJobs https www5 apply2jobs
Scrapy解析javascript

我的页面上有一个 JavaScript 代码如下所示 new Shopify OptionSelectors product select product id 185310341 title 10 Design Siyah u0026
如何读取屏幕上的像素？

我正在尝试为网页游戏制作一个简单的机器人所以我希望能够读取屏幕上像素的颜色我已经在 Windows 上使用 GetPixel 完成了此操作但我似乎无法在 OS X 上弄清楚它我一直在网上查找并遇到了 glReadPixel 当我在X
如何最好地开发网络爬虫

我习惯于创建一些爬虫来编译信息当我访问一个网站时我需要这些信息我会启动一个专门针对该网站的新爬虫大部分时间使用 shell 脚本有时使用 PHP 我做的方法是用一个简单的for要迭代页面列表 awget下载它并sed tr awk
如何使用Selenium WebDriver进行可行的网络冒烟测试？

我一直在研究可行且更快的网页加载测试Selenium 冒烟测试的一般思想是单击并导航整个站点以确保页面正确加载我最初想用某种方式来捕捉http状态码通过某种http图书馆自Selenium对此没有任何本机支持但是我发现这不是我想要的
Google 电子表格中的亚马逊价格

我尝试按照给出的答案here https stackoverflow com questions 25679966 how do i get amazon price information into google docs 但我收到错误I
如何正确编写 CSS 属性选择器来提取所有 id 属性？

情况我目前正在尝试在 VBA 中使用语法重现属性选择器 attr 来自给出的 CSS 选择器练习here https www w3schools com cssref trysel asp 选择器旨在根据给定属性的值选择元素预期结果在
使用 Xpath 提取值时 Scrapy 中的空列表

确实需要这个社区的帮助我的问题是当我在 python 中使用代码时 response xpath div contains class check prices widget not sponsored a div contains cl
Webkit_server（从 python 的 dryscrape 调用）随着每个页面的访问而使用越来越多的内存。如何减少使用的内存？

我正在写一个scraper using dryscrape in python3 我试图在 scraping session 期间访问数百个不同的 url 并单击每个 url 上的大约 10 个 ajax 页面而不访问每个 ajax 页面
将表抓取到列表中

我正在尝试从网页中提取表格我已经设法将表中的所有数据放入列表中然而所有表数据都被放入一个列表元素中我需要帮助将干净数据即字符串没有所有 HTML 包装从表的行获取到它们自己的列表元素中所以而不是 list tr th a
如何用PHP识别google/yahoo/msn的网络爬虫？

AFAIK SERVER REMOTE HOST 应该以 google com 或 yahoo com 结尾但这是最有保障的方法吗还有其他出路吗您通过以下方式识别搜索引擎用户代理和IP地址 http www jafsoft com s
httplib2 支持 http 代理吗？ Socks 代理可以工作，但 http 不行

这是我的代码我无法让任何 http 代理工作不过袜子代理 socks4 5 工作正常有什么想法吗不过 urllib2 与代理一起工作得很好我很困惑谢谢 Code 1 import socks 2 import httplib2

随机推荐

qfiledialog - 过滤文件夹？

1 我想获取文件夹监控应用程序的文件夹名称有没有一种方法可以过滤掉使用 QFileDialog 显示的特定文件夹例如我不希望我的文档显示在文件对话框中 2 我不希望用户选择驱动器默认情况下也可以选择此代码中的驱动器 dirname
Laravel 5 - 验证多个请求

在 Laravel 5 中是否可以验证多个请求以便在提交表单后插入相关模型我知道如何使用验证器验证多个模型但我想使用请求类来完成此操作拉拉维尔 4 validateUser Validator make Input all Use
Laravel 5 - 验证多个请求

在 Laravel 5 中是否可以验证多个请求以便在提交表单后插入相关模型我知道如何使用验证器验证多个模型但我想使用请求类来完成此操作拉拉维尔 4 validateUser Validator make Input all Use
TeamCity 构建代理已断开连接

我在 Windows 7 上安装了构建代理并且该代理始终显示为已断开连接日志 teamcity agent txt 显示以下信息 If this is the first time this agent registered on t
TeamCity 构建代理已断开连接

我在 Windows 7 上安装了构建代理并且该代理始终显示为已断开连接日志 teamcity agent txt 显示以下信息 If this is the first time this agent registered on t
有哪些用于性能测试 SharePoint Web 部件和控件的好技术？

这是一个关于特定于 SharePoint Web 部件和控件的性能测试的问题尽管标准 ASP NET 方法也适用我想知道有哪些好的技术考虑到以下因素缓存什么时候应该缓存什么负载平衡服务器存储状态与页面其他部分的交互例如多个
有哪些用于性能测试 SharePoint Web 部件和控件的好技术？

这是一个关于特定于 SharePoint Web 部件和控件的性能测试的问题尽管标准 ASP NET 方法也适用我想知道有哪些好的技术考虑到以下因素缓存什么时候应该缓存什么负载平衡服务器存储状态与页面其他部分的交互例如多个
如何使用 systemjs 在最小的 Angular 2 应用程序中加载 RxJS？

我无法使用 RxJS 获得最小的 Angular 2 应用程序我使用 Typescript tsc 1 6 2 和 systemjs 进行模块加载如何让 systemjs 正确加载 Rx 模块我已经没有办法尝试了如果有人指出我做错了
如何使用 systemjs 在最小的 Angular 2 应用程序中加载 RxJS？

我无法使用 RxJS 获得最小的 Angular 2 应用程序我使用 Typescript tsc 1 6 2 和 systemjs 进行模块加载如何让 systemjs 正确加载 Rx 模块我已经没有办法尝试了如果有人指出我做错了
jQuery - 如何确定父元素是否存在？

我正在尝试动态链接到图像但是我无法正确确定父链接是否已经存在这就是我所拥有的 if element parent a length gt 0 element parent a attr href link else element wr
jQuery - 如何确定父元素是否存在？

我正在尝试动态链接到图像但是我无法正确确定父链接是否已经存在这就是我所拥有的 if element parent a length gt 0 element parent a attr href link else element wr
分享到 Facebook 故事

我们能够实现分享到 Instagram Stories 但不能分享到 Facebook Stories 如下these https developers facebook com docs sharing sharing to storie
分享到 Facebook 故事

我们能够实现分享到 Instagram Stories 但不能分享到 Facebook Stories 如下these https developers facebook com docs sharing sharing to storie
Msbuild CLI platform=x64 和项目文件属性 x64 给出不同的结果

这个问题是关于使用之间的区别 p Platform x64在 MSBuild 命令行上与使用
Msbuild CLI platform=x64 和项目文件属性 x64 给出不同的结果

这个问题是关于使用之间的区别 p Platform x64在 MSBuild 命令行上与使用
如何在不复制的情况下将 std::vector 转换为 vector？

我找不到这个问题这是我面临的实际问题我有一个返回的文件加载实用程序std vector
如何在不复制的情况下将 std::vector 转换为 vector？

我找不到这个问题这是我面临的实际问题我有一个返回的文件加载实用程序std vector
将系列从 pandas 转换为 pyspark：需要使用“groupby”和“size”，但 pyspark 会产生错误

我正在将一些代码从 Pandas 转换为 pyspark 在 pandas 中假设我有以下模拟数据框 df 在 pandas 中我按以下方式定义某个变量 value df groupby Age Siblings size 输出是一系列
将系列从 pandas 转换为 pyspark：需要使用“groupby”和“size”，但 pyspark 会产生错误

我正在将一些代码从 Pandas 转换为 pyspark 在 pandas 中假设我有以下模拟数据框 df 在 pandas 中我按以下方式定义某个变量 value df groupby Age Siblings size 输出是一系列
爬行和抓取特别困难的网站？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我对面向公众的网站没有登录身份验证背后的内容感兴趣这些网站具有以下内容大量使用内部 301

爬行和抓取特别困难的网站？ [关闭]

爬行和抓取特别困难的网站？ [关闭] 的相关文章

随机推荐

热门标签