我需要为第三方网站构建一个小型“监控”抓取工具(这是一个外部网站,其中包含有关我们访问者的统计信息)。
不幸的是,这个网站很难通过正常的“wget”机制,因为它使用了大量复杂的 JS,其中一部分是由 GWT 生成的。所以我的解决方法是创建一个 GreaseMonkey 脚本,然后让该脚本调用一个 PHP 页面来记录抓取的数据。然后,一旦 Firefox 开始抓取这个网页,脚本就会开始工作。
这很有效,但现在我正在努力使其在监控工具方面更加强大。我希望它使用 cron 作业在服务器上运行。据我了解,这需要设置 DISPLAY 变量并存在 X 会话(Firefox 拒绝为我运行)。有什么好的方法可以让它作为 cron 作业从批处理用户帐户运行吗?
我做了类似的事情让 Selenium 在服务器上无头运行。我用的是Xvfb。
http://en.wikipedia.org/wiki/Xvfb http://en.wikipedia.org/wiki/Xvfb
本文提供了一些在 Firefox 中使用 Xvfb 的提示:
http://semicomplete.com/blog/geekery/xvfb-firefox.html http://semicomplete.com/blog/geekery/xvfb-firefox.html
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)