爬行和抓取特别困难的网站? [关闭]

2024-07-03

我对面向公众的网站(没有登录/身份验证背后的内容)感兴趣,这些网站具有以下内容:

  • 大量使用内部 301 和 302 重定向
  • 反抓取措施(但不通过robots.txt禁止爬虫)
  • 非语义或无效标记
  • 通过 AJAX 以 onclicks 或无限滚动的形式加载内容
  • url 中使用了很多参数
  • 规范问题
  • 复杂的内部链接结构
  • 以及其他通常使爬行网站令人头疼的事情!

我已经构建了一个爬虫/蜘蛛,可以在网站上执行一系列分析,并且我正在寻找会使其陷入困境的网站。


这里有一些:

  • Content loaded via AJAX in the form of onclicks or infinite scrolling
    • 兴趣 https://www.pinterest.com/
    • 在这样的页面中发表评论 http://item.jd.com/832703.html
      这是一个中文商品页面,其评论是通过AJAX加载的,通过在浏览器中向下滚动滚动条或根据浏览器的高度触发。我必须使用 PhantomJS 和 xvfb 来触发此类操作。
  • Anti-scraping measures (but not banning crawlers via robots.txt)

    • 我已经抓取了中国的亚马逊网站,当我想抓取next在这样的页面中,它可能modify导致您无法获取的请求真正的下一个 page
    • 堆栈溢出 https://stackoverflow.com/tags
      它有访问频率的限制。前几天,想获取stackoverflow中的所有标签,并将spider的访问频率设置为10,结果被stackoverflow警告了……下面是截屏 https://twitter.com/flyer103/status/409928544857227264/photo/1。之后我必须使用代理来爬行 stackoverflow。
  • and anything else that generally makes crawling a website a headache
    • 一点点 http://www.yhd.com/
      这是一个中国电子商务网站,当您在浏览器中访问它时,它会显示您的位置,并会根据您的位置提供一些商品。
    • etc.
      有许多类似上述的网站会根据您所在的位置提供不同的内容。当您抓取此类网站时,您得到的内容与您在浏览器中看到的内容不同。通过蜘蛛发出请求时,通常需要设置 cookie。

去年我遇到一个网站需要http请求头 and 一些饼干发出请求时,但我不记得那个网站了......

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

爬行和抓取特别困难的网站? [关闭] 的相关文章

随机推荐