我正在使用 BeautifulSoup4 和 Python 请求为公司项目抓取 LAN 数据。由于该网站有登录界面,因此我无权访问数据。登录界面是一个弹出窗口,不允许我在没有登录的情况下访问页面源或检查页面元素。我得到的错误是这样的-
访问错误:未经授权
访问此文档需要用户 ID
这是弹出框的屏幕截图 https://i.stack.imgur.com/bCM9e.png(涂黑部分为敏感信息)。它根本没有关于 html 标签的信息,因此我无法通过 python 自动登录。
我尝试过 requests_ntlm、selenium、python requests 甚至 ParseHub,但它不起作用。我已经陷入这个阶段一个月了!请提供任何帮助,我们将不胜感激。
下面是我的初始代码:
import requests
from requests_ntlm import HttpNtlmAuth
from bs4 import BeautifulSoup
r = requests.get("www.amazon.in")
from urllib.request import Request, urlopen
req = Request('http://www.cmegroup.com/trading/products/#sortField=oi&sortAsc=false&venues=3&page=1&cleared=1&group=1', headers={'User-Agent': 'Mozilla/5.0'})
webpage = urlopen(req).read()
print r.content
r = requests.get("www.amazon.in",auth=HttpNtlmAuth('user_name','passwd'))
print r.content*
s_data = BeautifulSoup(r.content,"lxml")*
print s_data.content
Error:
Document Error: Unauthorized
访问错误:未经授权
访问此文档需要用户 ID
这是当 BeautifulSoup 尝试访问数据后出现的错误手动登录网站。
如果您在 Python 3.x 上使用 BeautifulSoup 和 requests,只需使用:
from bs4 import BeautifulSoup
import requests
r = requests.get('URL', auth=('USER_NAME', 'PASSWORD'))
soup = BeautifulSoup(r.content)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)