我想抓取一个定期更新的页面(添加与以前的结构完全相同的新文章),以生成 RSS 提要。
我可以编写代码来轻松分析页面,但是如何模拟 ping,即页面更新时我的 php 脚本如何知道?它必须是一个 cron 作业吗?
(我知道可能是一个重复的问题,但没有找到直接答案。我得到的最接近的是抓取并生成 RSS feed https://stackoverflow.com/questions/557598/scrape-and-generate-rss-feed,它有一个抓取脚本,但没有关于如何让它自动响应页面上的更改的信息)
根据系统的不同,可能很难判断页面上次更新的时间。
要检查更改,您可以检查 HTTP 标头Last-Modified
页面的标题。并非所有系统都能正确更新标头,因此它可能没有用。未修改的页面也可能返回以下状态304
(未修改),特别是如果您提供If-Modified-Since
您的请求中的标头。
我肯定会在 cron 作业上运行这样的东西。虽然可能是possible仅从标题中执行此操作,如果您必须更新页面,您的用户将等待很长时间(相对而言),以便您的服务器出去,获取页面,进行处理并发送响应。如果您没有使用基于非 cron 的方法时不时遇到超时问题,我会感到惊讶。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)