我想从网站(不是我自己的网站)中抓取一些特定值(例如新闻文本)。
file_get_contents()
不工作,可能被 php.ini 阻止。
所以我尝试用curl来做到这一点,问题是:
我得到的只是来自 cloudflare 的重定向文本。
我的爬虫应该做类似的事情:
转到页面 -> 等待 5 秒 cloudflare 重定向 -> 卷曲页面。
有什么想法如何在 cloudflare 等待时间后抓取页面吗? (PHP 语言)
编辑:所以我尝试了很多东西,问题仍然是一样的..
更具体地说:它只抓取 cloudflare 重定向页面。 (所以我得到一个重定向到主机的页面,cloudflare在前面。当我在本地主机上卷曲时,它需要本地主机,所以重定向显然不起作用。)
有没有办法在5秒“卷曲”后开始保存返回数据?
“转到页面 -> 等待 5 秒 cloudflare 重定向 -> 卷曲页面。”
5 秒插页式页面实际上需要启用 JavaScript 和 cookie,然后访问者才能通过检查,如果您使用爬虫或机器人访问该网站,这可能不起作用。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)