我需要编写一个网络爬虫,并且希望能够使用已知的用户代理进行爬网。例如,我希望我的爬虫充当iphone来爬取某个网站的移动站点,然后使用Mozilla PC代理再次爬取,等等。
这样,我就能够抓取每种“类型”的网站(移动和 PC)。但是,我还希望能够设置我的爬虫的用户代理,因此网站管理员也会在他们的统计数据中看到这是一个爬虫访问了他们的整个网站,而不是真正的用户。
所以我的问题是,你们知道如何在PHP中同时设置移动代理+爬虫代理吗?有可能吗?
请参阅RFC1945对于如何用户代理应形成:
10.15 用户代理
User-Agent 请求头字段包含有关
发起请求的用户代理。这是出于统计目的,
协议违规追踪和用户自动识别
代理为了定制响应以避免特定用户
代理限制。尽管不是必需的,但用户代理应该
在请求中包含此字段。该字段可以包含多个
产品代币(第 3.7 节)和标识代理的注释以及
构成用户代理重要组成部分的任何子产品。经过
按照惯例,产品代币按其顺序列出
对于识别应用程序具有重要意义。
User-Agent = "User-Agent" ":" 1*( product | comment )
Example:
User-Agent: CERN-LineMode/2.15 libwww/2.17b3
所以你放在那里的东西或多或少取决于你。您可以冒充 GoogleBot-Mobile:
- https://www.google.com/support/webmasters/bin/answer.py?answer=1061943
或者伪装成 iPhone 并添加你自己的东西
Mozilla/5.0 (iPhone; U; CPU iPhone OS) (compatible; MyBot/1.0; +http://about.my/bot")
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)