如何使用Beautifulsoup解析网站

2023-12-12

我是网络抓取新手,我想获取页面的 html。但是当我运行该程序时,我得到 html 为空并且控制台显示 javascript

from bs4 import BeautifulSoup
import requests
import urllib

url = "https://linkedin.com/company/1005"

r = requests.get(url)
html_content = r.text
soup = BeautifulSoup(html_content,'html.parser')
print (soup.prettify())

error


问题不是BeautifulSoup但是服务器需要请求中的更多信息才能让您访问此页面。现在它会发送 JavaScript 代码,将您重定向到登录页面。

你需要User-Agentheader 来获取此页面。

您可以使用http://httpbin.org/get to see User-Agent在您的浏览器中。

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent': 'Mozilla/5.0'}

url = "https://linkedin.com/company/1005"

r = requests.get(url, headers=headers)
print(r.text)

soup = BeautifulSoup(r.text, 'html.parser')
print(soup.prettify())
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用Beautifulsoup解析网站 的相关文章

随机推荐