如何使用Beautifulsoup解析网站

2023-12-12

我是网络抓取新手，我想获取页面的 html。但是当我运行该程序时，我得到 html 为空并且控制台显示 javascript

from bs4 import BeautifulSoup
import requests
import urllib

url = "https://linkedin.com/company/1005"

r = requests.get(url)
html_content = r.text
soup = BeautifulSoup(html_content,'html.parser')
print (soup.prettify())

问题不是BeautifulSoup但是服务器需要请求中的更多信息才能让您访问此页面。现在它会发送 JavaScript 代码，将您重定向到登录页面。

你需要User-Agentheader 来获取此页面。

您可以使用http://httpbin.org/get to see User-Agent在您的浏览器中。

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent': 'Mozilla/5.0'}

url = "https://linkedin.com/company/1005"

r = requests.get(url, headers=headers)
print(r.text)

soup = BeautifulSoup(r.text, 'html.parser')
print(soup.prettify())

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Parsing

webscraping

beautifulsoup

linkedinapi

如何使用Beautifulsoup解析网站的相关文章

python sys.path 故障排除

python 文档位于http docs python org library sys html http docs python org library sys html比如说sys path is 从环境变量 PYTHONPATH 以及
蟒蛇 | MySQL | AttributeError：模块“mysql.connector”没有属性“connect”

我正在学习 python 中的一个新库 mysql 我尝试执行以下命令 import mysql connector mydb mysql connector connect host localhost user root passwd
当我有自定义身份验证模型时，如何登录 Django Rest 可浏览 API？

我有一个自定义用户模型如下所示account models py from django contrib auth modles import AbstractUser from django db models signals impo
获取 .wav 文件长度或持续时间

我正在寻找一种方法来找出 python 中音频文件 wav 的持续时间到目前为止我已经了解了 pythonwave图书馆 mutagen pymedia pymad我无法获取 wav 文件的持续时间 Pymad给了我持续时间但它不一致
Python 切片对象和 __getitem__

python 中是否有内部的东西来处理传递给的参数 getitem 不同并自动转换start stop step构造成切片这是我的意思的演示 class ExampleClass object def getitem self args
此 TypeError 消息中提到的“代码对象”是什么？

在尝试使用Python时exec声明我收到以下错误 TypeError exec arg 1 must be a string file or code object 我不想传递字符串或文件但什么是代码对象如何创建一个创建代码对象的
稀有对象的 python 类型注释，例如 psycopg2 对象

我了解内置类型但是我如何指定稀有对象例如数据库连接对象 def get connection and cursor gt tuple psycopg2 extensions cursor psycopg2 extensions conn
使用 django-rest-framework 设置对象级权限

尝试使用 django rest framework 最干净最规范地管理 django guardian 对象级权限我想将对象的读取权限 module view object 分配给在执行 POST 时发出请求的用户我的基于阶级的观点
多处理中的动态池大小？

有没有办法动态调整multiprocessing Pool尺寸我正在编写一个简单的服务器进程它会产生工作人员来处理新任务使用multiprocessing Process对于这种情况可能更适合因为工作人员的数量不应该是固定的但我需
将 numpy 数组合并为单个 int

numpy 数组怎么可以这样 10 22 37 45 转换为单个 int32 数字如下所示 10223745 这可以工作 gt gt gt int join map str 10 22 37 45 10223745 基本上你使用map s
在Python中从大文件中搜索单词列表

我是新蟒蛇我有一个单词列表和一个非常大的文件我想删除文件中包含单词列表中的单词的行单词列表按排序给出并且可以在初始化期间输入我正在努力寻找解决这个问题的最佳方法我现在正在进行线性搜索这花费了太多时间有什么建议么您可以使用i
Series.sort() 和 Series.order() 有什么区别？

s pd Series nr randint 0 10 5 index nr randint 0 10 5 s Output 1 3 7 6 2 0 9 7 1 6 order 按值排序并返回一个新系列 s order Output 2 0
在 python pandas 中，如何保存“网格图”？

我对 pandas 绘图工具很陌生在文档中以下命令非常方便 myplot rts ret hist bins 50 by rts primary mic 然而当我尝试从图中获取图形参考并保存它时问题就出现了 myfigure myp
AttributeError：“模块”对象没有属性[重复]

这个问题在这里已经有答案了我有两个 python 模块 a py import b def hello print hello print a py print hello print b hi b py import a def hi
Python HMAC：类型错误：字符映射必须返回整数、None 或 unicode

我在使用 HMAC 时遇到了一个小问题运行这段代码时 signature hmac new key secret key msg string to sign digestmod sha1 我收到一个奇怪的错误 File usr loca
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

我想获得维基百科与搜索词相关的可能且可接受的名称列表在这种情况下是电晕当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
如何指示 urwid 列表框的项目数多于当前显示的项目数？

有没有办法向用户显示 urwid 列表框在显示部分上方下方有其他项目我正在考虑类似滚动条的东西它可以显示条目的数量或者列表框顶部底部的单独栏如果这个行为无法实现有哪些方法可以实现这个通知在我的研究过程中我发现这个问题 ht
IndexError - 具有匀称形状的笛卡尔 PolygonPatch

我曾经使用 shapely 制作一个圆圈并将其绘制在之前填充的图上这曾经工作得很好最近我收到索引错误我将代码分解为最简单的操作但它甚至无法执行最简单的循环 import descartes import shapely geome

随机推荐

使用 XSLT 1.0 计算 xhtml 中的
元素
我有一个 XSLT 2 0 它将 xhtml 表转换为 InDesign XML 表该 XSLT 计算了最大数量 of td 每行内的元素 tr 下面模板中的第 7 行 max for td in tr return count td t

php 中从字符串返回数字的简单函数

我想从这段代码中捕获排名 RankStr var trafficstatsSnippet site trafficstats pysa1bpbPOVl6Wm5d4Zv4nKXKdM 3D aahoonet com adult categor

Netbeans 11 Javadoc 未出现？

我有一个非常相似的问题Javadoc 未出现在 Java 10 的 Apache netbeans 上从某种意义上说我似乎无法将 javadoc 支持添加到我的 Apache Netbeans 11 版本或我正在开发的 Maven 项目中

Swift 符合协议子类

在我的应用程序中我有多个依赖于模型的 UIView 子类每个班级都采用 Restorable 保存模型超类的协议每个子模型都描述了特定的 UIView 不常见属性 Super model public protocol StoryIt

防止键盘关闭

我在这个实现上有点挣扎我正在构建我的第一个 Hello World android cordova 应用程序需要键盘始终显示并避免像用户单击后退按钮或任何其他输入时那样隐藏它为什么基本上我的 HTML 中没有任何输入元素来触发焦点并显

最小化 C 中浮点错误的经验法则？

关于最小化浮点运算中的错误如果我在 C 中有如下操作 float a 123 456 float b 456 789 float r 0 12345 a a r b 如果我将乘法和减法步骤分开计算结果会改变吗即 float c r b

使用 foreach 从数据库中获取数据 - 从上到下

数据库 id name 1 aaa 2 bbb 3 ccc 250 zz3 foreach datafromdb as value echo value gt name 这告诉我 aaa bbb ccc zz3 从左到右 if table

使用 DNS 重定向到另一个带有路径的 URL [关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我正在尝试通过 DNS 将一个域重定向到另一个域我知道使用 IN CNAME 是可能的 www proof com IN CNAME www proof two com 我需要的是

在 JavaScript 中停止回发

我有一个带有 JQuery Thickbox 的 ASP Web 表单我有一个在用户单击时打开 Thickbox 的图像一旦打开厚盒它会向我显示一个包含多行的网格和一个用于选择一行的按钮在用户选择记录后它返回到所选记录的主页并导致

Cordova本地通知Android插件2.2升级

我正在使用 Phonegap Cordova 2 2 在 Android 上开发提醒应用程序用户输入一个具体的提醒日期我应该准时通知他我使用 Android 的通知插件但它支持早期版本的手机间隙我按照本教程解决了cordova

Xamarin.Forms 中选项卡式页面中的标题截止

Android 中的标签页标题被截断但在 iOS 设备上运行良好我正在使用这个代码 public Tabbar this BarTextColor Color Maroon New Feed var navigationNewFeed

嵌套函数的实现

我最近发现gcc允许定义嵌套函数在我看来这是一个很酷的功能但我不知道如何实现它虽然通过传递上下文指针作为隐藏参数来实现对嵌套函数的直接调用当然并不困难但 gcc 还允许获取指向嵌套函数的指针并将该指针传递给任意其他函数该函数又可

向表中的每一行插入一个随机数

我目前有一个包含大约 600 000 行的 oracle 表 lovalarm 我需要能够运行一个查询该查询将循环遍历每一行并将字段 lovsiteid 更新为 14300 到 17300 之间的随机数到目前为止我有 update lo

一天的时间跨度怎么可能只有 8 个小时？

我保存了以分钟为单位的持续时间并希望输出 1 天 5 小时 30 分钟目前我将分钟添加到时间跨度中并执行如下操作 TimeSpan ts new TimeSpan 0 0 1800 0 Response Write ts Days d

如何使用Beautifulsoup解析网站

我是网络抓取新手我想获取页面的 html 但是当我运行该程序时我得到 html 为空并且控制台显示 javascript from bs4 import BeautifulSoup import requests import urll

热门标签

暴力

页面替换算法

详细定义

坐标系

间歇采样

有源干扰

雷达原理

SECE

caret包

大对象

JPA映射

Latex添加空格

游戏解包提取

imu相机

传感器标定

文件修复

每日算法题

NN

空格绕过注入

iwebsec靶场

转行python

python兼职

vlc配置

Powered by Hwhale

如何使用Beautifulsoup解析网站

如何使用Beautifulsoup解析网站 的相关文章

随机推荐

热门标签

如何使用Beautifulsoup解析网站的相关文章