我正在尝试抓取一个页面(我的路由器的管理页面),但该设备似乎为 urllib2 提供与我的浏览器不同的页面。以前有人发现过这个吗?我怎样才能绕过它?
这是我正在使用的代码:
>>> from BeautifulSoup import BeautifulSoup
>>> import urllib2
>>> page = urllib2.urlopen("http://192.168.1.254/index.cgi?active_page=9133&active_page_str=page_bt_home&req_mode=0&mimic_button_field=btn_tab_goto:+9133..&request_id=36590071&button_value=9133")
>>> soup = BeautifulSoup(page)
>>> soup.prettify()
(html输出被markdown删除)
With firebug观察发送到服务器的标头和 cookie。然后与urllib2.请求 and cookie库模拟相同的请求。
编辑:你也可以使用机械化 http://wwwsearch.sourceforge.net/mechanize.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)