在需要身份验证的地方使用 BeautifulSoup

2024-04-24

我正在使用 BeautifulSoup4 和 Python 请求为公司项目抓取 LAN 数据。由于该网站有登录界面，因此我无权访问数据。登录界面是一个弹出窗口，不允许我在没有登录的情况下访问页面源或检查页面元素。我得到的错误是这样的-

访问错误：未经授权访问此文档需要用户 ID

这是弹出框的屏幕截图 https://i.stack.imgur.com/bCM9e.png（涂黑部分为敏感信息）。它根本没有关于 html 标签的信息，因此我无法通过 python 自动登录。

我尝试过 requests_ntlm、selenium、python requests 甚至 ParseHub，但它不起作用。我已经陷入这个阶段一个月了！请提供任何帮助，我们将不胜感激。

下面是我的初始代码：

import requests
from requests_ntlm import HttpNtlmAuth
from bs4 import BeautifulSoup
r = requests.get("www.amazon.in")
from urllib.request import Request, urlopen
req = Request('http://www.cmegroup.com/trading/products/#sortField=oi&sortAsc=false&venues=3&page=1&cleared=1&group=1', headers={'User-Agent': 'Mozilla/5.0'})
webpage = urlopen(req).read()
print r.content
r = requests.get("www.amazon.in",auth=HttpNtlmAuth('user_name','passwd'))
print r.content*

s_data = BeautifulSoup(r.content,"lxml")*
print s_data.content

Error: Document Error: Unauthorized

访问错误：未经授权

访问此文档需要用户 ID

这是当 BeautifulSoup 尝试访问数据后出现的错误手动登录网站。

如果您在 Python 3.x 上使用 BeautifulSoup 和 requests，只需使用：

from bs4 import BeautifulSoup
import requests

r = requests.get('URL', auth=('USER_NAME', 'PASSWORD'))
soup = BeautifulSoup(r.content)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

beautifulsoup

lan

intranet

在需要身份验证的地方使用 BeautifulSoup 的相关文章

从 1D 列表创建 2D 列表

我对 Python 有点陌生我想将一维列表转换为二维列表给定width and length这个的matrix 说我有一个list 0 1 2 3 我想做一个2 by 2该列表的矩阵我怎样才能得到matrix 0 1 2 3 widt
keras 层教程和示例

我正在尝试编码和学习不同的神经网络模型我对输入维度有很多复杂性我正在寻找一些教程显示层的差异以及如何设置每个层的输入和输出 Keras 文档 https keras io layers core 向您展示所有input shape每层
API网关+Lambda+Python：处理异常

我正在非代理模式下从 API Gateway 调用基于 Python 的 AWS Lambda 方法我应该如何正确处理异常以便使用部分异常设置适当的 HTTP 状态代码以及 JSON 正文作为示例我有以下处理程序 def my ha
如何使用 QWebView 显示 html。 Python？

如何在控制台中显示 HTML 格式的网页 import sys from PyQt4 QtGui import QApplication from PyQt4 QtCore import QUrl from PyQt4 QtWebKit i
将字段重新格式化为列，其他字段（与先前结构中成为列的字段配对）成为新列中的字段

我的任务是清理慈善机构设计的移动应用程序中的数据在一个部分中用户问答应用程序使用会话由一行表示该部分由重复的问题答案字段对组成其中一个字段代表所提出的问题然后它旁边的字段代表相应的答案每个问题字段和答案列对一起代表一个独特的问
用定点迭代求解该方程

我怎样才能解这个方程 x3 x 1 0 使用定点迭代有没有定点迭代我可以在网上找到代码尤其是Python 吗 Using scipy optimize fixed point http docs scipy org doc scipy
使用DockerOperator时如何同时使用xcom_push=True和auto_remove=True？

Problem 跑步时DockerOperator with xcom push True xcom all True and auto remove True 任务会引发错误就好像容器在读取其内容之前被删除一样STDOUT Exampl
可以memmap pandas系列。数据框怎么样？

看来我可以通过创建 mmap d ndarray 并使用它来初始化系列来对 python 系列的底层数据进行内存映射 def assert readonly iloc try iloc 0 999 Should be non editabl
从内存中发送图像

我正在尝试为 Discord 机器人实现一个系统该系统可以动态修改图像并将其发送给机器人用户为此我决定使用 Pillow PIL 库因为它对于我的目的来说似乎简单明了这是我的工作代码的示例它加载一个示例图像作为测试修改在其上
导入 scipy.stats 时，出现“ImportError: DLL load failed: 找不到指定的过程”

我无法导入 scipy stats 并收到以下错误但不知何故 import scipy as sp 仍然可以正常工作其他库如numpy pandas都可以毫无问题地导入我尝试在 Anaconda 中重新安装 scipy 1 2 1 降
pybind11：如何将 c++ 和 python 代码打包到一个包中？

我正在尝试使用 CMake 和 pybind 11 将现有的 Python 代码和新的 C 11 代码打包在一起我认为我缺少一些可以添加到 CMake 脚本中的简单内容但在任何地方都找不到它 pybind11 示例只有 C 代码和没有P
如何在 Python for 循环中获取 GAE ndb 中当前记录的密钥？

我目前有一个网页其中显示数据存储中的记录列表以及编辑链接我想从数据库转换它至新开发银行我是 Python 和 GAE 新手当前代码 tbody for listtype in listtypes tr td listtype Li
我无法设置顶级标题

我想为 TopLevel 设置标题但 TopLevel 显示 Root 的标题我认为我的下一个脚本与 TkInter 文档中的示例相对应但给了我不好的结果你能解释一下为什么我的设置master title 顶部 in 应用程序顶部
如何在 PyTorch 中对子集使用不同的数据增强

如何针对不同的情况使用不同的数据增强转换 Subset在 PyTorch 中吗例如 train test torch utils data random split dataset 80000 2000 train and test将具
如何更改Python使用的SQLite版本？

我在 Debian 9 12 上安装了 Python 3 8 和 SQLite 3 16 2 并且需要升级到较新版本的 SQLite 我已经下载并编译了 SQLite 网站上提供的合并并将其放入 usr bin 所以当我这样做时 sqli
了解字典的深度

假设我们有这个字典 d a 1 b c 了解嵌套的最直接方法是什么depth of it 您需要创建一个递归函数 gt gt gt def depth d if isinstance d dict return 1 max map dept
出于安全目的，您是否有理由不执行自己的算法来打乱 ID？

我计划实现我自己的非常简单的哈希公式为具有多个用户的应用程序添加一层安全性我目前的计划如下用户创建一个帐户此时后端会生成一个 ID ID 通过公式运行假设 ID 57 8926 36 7 或同样随机的东西然后我将新的用户
为什么我可以使用 tsql 连接到 Azure MS SQL，但不能使用 pymssql？

我今天在哪里 TDSVER 7 3 tsql H example database windows net U me D ExampleDB p 1433 P notreallymypassword 这不会 gt gt gt import
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
Pandas：如何删除以 nan 作为列名的多个列？

根据标题这是一个可重现的示例 raw data x this that this that this np nan np nan np nan np nan np nan np nan y np nan np nan np nan np

随机推荐

分组时间序列（面板）数据的交叉验证

我使用面板数据随着时间的推移我观察许多单位例如人对于每个单元我都有相同固定时间间隔的记录当将数据分为训练集和测试集时我们需要确保这两个集是不相交的并且顺序的即训练集中的最新记录应该在测试集中最早的记录之前参见例如此博客文章
如何使用可用内存有效地比较 1,000 张图像

这是一个棘手的问题我的磁盘中存储了大约 1 000 张图像我想通过成对比较来找到彼此相似的图像所以我必须做周围1 000 999 2 https stackoverflow com questions 46958633 generat
如何用 Java 以编程方式下载网页

我希望能够获取网页的 html 并将其保存到String 这样我就可以对其进行一些处理另外我如何处理各种类型的压缩我将如何使用 Java 来做到这一点我会使用像样的 HTML 解析器Jsoup http jsoup org 那么就很
如何通过部分名称查找文件夹和文件c#

在我的硬盘驱动器的特定文件夹中我存储了许多其他子文件夹和文件现在我想按部分名称列出这些文件夹和文件名 for example c webapi xx folder c mvctutorial xx folder done webapi
Gradlew bundleRelease 不会在 React-Native 中生成发布 apk

我尝试获取应用程序的apk 我以前也做过效果很好但是我今天尝试使用其他应用程序的获取 apk 但它没有给我发布 apk 为什么我跟着这些步骤 https facebook github io react native docs si
如何更改 ComboFieldEditor 的内容？

我想更改其中一个的值ComboFieldEditor取决于另一个ComboFieldEditor在 Eclipse 插件中例如如果用户更改package 需要在第二个中填充不同的类ComboFieldEditor The ComboFi
如何拆分 XML

我的第一篇文章在这里我已经搜索过但没有找到我要找的东西我不太确定需要什么技术来完成以下操作我使用 Mule 3 3 CE 我需要拆分 XML 文件我需要在每个分割的 XML 中保留 rootElement 及其属性所有 XML
访问 Firestore 规则中的父文档字段

我正在 Firestore 中实现一本食谱书其中每个用户都可以查看所有用户创建的所有食谱但只有食谱的原始作者才可以编辑或删除食谱任何用户都可以创建新配方我的问题是我无法设置子集合的权限以侦听子集合父文档的字段每个配方文档包含
通过流式传输将分段文件上传到 Amazon S3 时内存使用率过高？

我的 Java Spring 应用程序中的以下方法直接将文件流式传输并上传到 Amazon S3 存储桶我研究过使用流将使上传大文件对于我的用例 gt 100MB 视频更加内存有效当使用 25MB 文件测试该方法时 Kuberne
对组合和单独的多个 group_by 变量进行汇总

我使用 dplyr 的 group by 和汇总来获取每个 group by 变量组合的平均值但也想单独获取每个 group by 变量的平均值例如如果我跑 mtcars gt group by cyl vs gt summarise
从 JSON 模式动态创建表单 [Angular 8]

我正在努力从 Angular 8 中的 JSON Schema 创建动态表单我找到了一些库但是一个很旧 https github com dschnelldavis angular2 json schema form 上次提交约 2 年
DeprecationWarning：请使用 dns.resolver.Resolver.resolve()

我使用resolver 作为socket 的替代品因为我发现当多个连接建立到不同的IP时它最终会停止工作无论如何它会向我返回一个警告我应该使用dns resolver Resolver resolve 更改它时它给我一个错误 T
在erlang中打印数字的每个数字的问题

我正在尝试编写一个程序该程序将读入一个数字然后将该数字的每个数字输出到列表中然而在我尝试使用数字 8 和 9 之前大多数事情看起来都很好该程序仅输出 b t反而如果输入的数字包含8或9 同时还有其他数字例如283 就可以正常
jqGrid：使用本地数据类型加载嵌套子网格时出现问题

我正在尝试使用 jqGrid 和本地数据让嵌套子网格工作我已经搜索了很多但未能找到解决方案这是我的代码的简化示例 var mainGridData main grid data id m1 col1 11 col2 12 id m2
将工具提示添加到字体很棒的图标

这里有人为字体很棒的图标添加了工具提示吗我有关注 jsfiddle https jsfiddle net HarrietFiddles 1btr64kw 1 但似乎找不到向图标添加工具提示的指南
在撤销之前混乱的集成后，无法从主分支完全集成到功能分支

我正在使用 Perforce P4V 客户端版本 2013 1 611291 日期为 2013 年 3 月 20 日我尝试从主分支合并集成到我的功能分支我已经很久没有这样做了所以大量的文件被添加到变更列表中然后我解决了无法自动合
如何使用javascript获取DIV子元素

HTML 代码
为什么模拟器上的外部存储处于删除状态？

我正在创建应用程序来在外部存储上存储数据但是该代码在我的模拟器上不起作用 String state Environment getExternalStorageState The returned state is always remo
将 IClientValidatable 保留在模型层之外

我在用着数据注释验证我的模型类我还编写了一些自定义属性最终模型被推送到在 ASP NET MVC 中构建的 Web 界面但我希望保持关注点的清晰分离因此模型类有自己的程序集也将由控制台应用程序使用必须使用IClientVali
在需要身份验证的地方使用 BeautifulSoup

我正在使用 BeautifulSoup4 和 Python 请求为公司项目抓取 LAN 数据由于该网站有登录界面因此我无权访问数据登录界面是一个弹出窗口不允许我在没有登录的情况下访问页面源或检查页面元素我得到的错误是这样的访问错

在需要身份验证的地方使用 BeautifulSoup

访问错误：未经授权

在需要身份验证的地方使用 BeautifulSoup 的相关文章

随机推荐

热门标签