如何使用python从内网站点抓取URL数据?

2023-12-15

我需要一个 Python Warrior 来帮助我(我是个菜鸟)!我正在尝试使用模块 urllib 从内部网站点抓取某些数据。但是,由于这是我公司的网站,仅供员工查看,而不可供公众查看,我认为这就是我得到此代码的原因:

IOError: ('http 错误', 401, '未经授权',)

我该怎么办?它甚至不会使用 htmlfile.read() 读取网站

获取公共站点的示例代码:

import urllib
import re

htmlfile = urllib.urlopen("http://finance.yahoo.com/q?s=AAPL")

htmltext = htmlfile.read()

regex = '<span id="yfs_l84_aapl">(.+?)</span>' 

pattern = re.compile(regex)

price = re.findall(pattern,htmltext)

print price

Try requests with 请求_ntlm:

import requests
from requests_ntlm import HttpNtlmAuth

r = requests.get("http://ntlm_protected_site.com",auth=HttpNtlmAuth('domain\\username','password'))

    print r.text

如果您需要有关此库的任何细节的帮助并且在文档中找不到它,请发表评论。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用python从内网站点抓取URL数据? 的相关文章

  • 当我有自定义身份验证模型时,如何登录 Django Rest 可浏览 API?

    我有一个自定义用户模型 如下所示account models py from django contrib auth modles import AbstractUser from django db models signals impo
  • 如何使用 Python 3 绕过 HTTP Error 403: Forbidden with urllib.request

    您好 不是每次都这样 但有时在尝试访问 LSE 代码时 我会收到每一个烦人的 HTTP 错误 403 禁止消息 任何人都知道我如何仅使用标准 python 模块来克服这个问题 遗憾的是没有漂亮的汤 import urllib request
  • 使用python查找txt文件中字母出现的次数

    我需要从 txt 文件中读取该字母并打印 txt 文件中出现的次数 到目前为止 我已经能够在一行中打印内容 但计数有问题 有人可以指导吗 infile open grades txt content infile read for char
  • 多处理中的动态池大小?

    有没有办法动态调整multiprocessing Pool尺寸 我正在编写一个简单的服务器进程 它会产生工作人员来处理新任务 使用multiprocessing Process对于这种情况可能更适合 因为工作人员的数量不应该是固定的 但我需
  • 如何返回 cost, grad 作为 scipy 的 fmin_cg 函数的元组

    我怎样才能使 scipy 的fmin cg使用一个返回的函数cost and gradient作为元组 问题是有f对于成本和fprime对于梯度 我可能必须执行两次操作 非常昂贵 grad and cost被计算 此外 在它们之间共享变量可
  • Mypy 无法从文字列表推断项目的类型

    我有一个变量x和一个文字列表 例如 0 1 2 我想转换x这些文字之一 如果x在列表中 我将其退回 否则我返回一个后备值 from typing import Literal Set Foo Literal 0 1 2 foos Set F
  • 如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象?

    当对 Pandas groupby 操作的结果执行过滤时 它返回一个数据帧 但假设我想执行进一步的分组计算 我必须再次调用 groupby 这似乎有点绕 有更惯用的方法吗 EDIT 为了说明我在说什么 我们无耻地从 Pandas 文档中窃取
  • Python Anaconda:如何测试更新的库是否与我现有的代码兼容?

    我在 Windows 7 机器上使用 Python 2 7 Anaconda 安装进行数据分析和科学计算 当新的库发布时 例如新版本的 pandas patsy 等 您建议我如何测试新版本与现有代码的兼容性 是否可以在同一台机器上安装两个
  • Python将文本文件解析为嵌套字典

    考虑以下数据结构 HEADER1 key value key value HEADER2 key value key value HEADER3 key value HEADER4 key value key value 原始数据中没有缩进
  • 根据其他单元格值更改多个单元格值

    我想更改包含的单元格moving to movingToOpenor movingToClose基于下一个单元格中给出的状态 有时循环会被中断并且不会从open to close or close to open 这是我当前的数据框 Dat
  • 使用 for 循环创建一系列元组

    我已经搜索过 但找不到答案 尽管我确信它已经存在了 我对 python 很陌生 但我以前用其他语言做过这种事情 我正在以行形式读取数据文件 我想将每行数据存储在它自己的元组中 以便在 for 循环之外访问 tup i inLine wher
  • 给定一个排序数组,就地删除重复项,使每个元素仅出现一次并返回新长度

    完整的问题 我开始在线学习 python 但对这个标记为简单的问题有疑问 给定一个排序数组 就地删除重复项 使得每个 元素只出现一次并返回新的长度 不分配 另一个数组的额外空间 您必须通过修改输入来完成此操作 数组就地 具有 O 1 额外内
  • 如何查找或安装适用于 Python 的主题 tkinter ttk

    过去 3 个月我一直在制作一个机器人 仅用代码就可以完美运行 现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍 主要的一个是能够看起来不像一个 30 年前的程序 我使用的是 Windows 7 我仅使用 Python 3 3
  • 是否需要关闭没有引用它们的文件?

    作为一个完全的编程初学者 我试图理解打开和关闭文件的基本概念 我正在做的一项练习是创建一个脚本 允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
  • 使用另一个数据帧在数据帧中创建子列

    我对 python 和 pandas 很陌生 在这里 我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
  • AWS Lambda 不读取环境变量

    我正在编写一个 python 脚本来查询 Qualys API 中的漏洞元数据 我在 AWS 中将其作为 lambda 函数执行 我已经在控制台中设置了环境变量 但是当我执行函数时 出现以下错误 module initialization
  • 如何给URL添加变量?

    我正在尝试从网站收集数据 我有一个 Excel 文件 其中包含该网站的所有不同扩展名 F i www example com example2 我有一个脚本可以成功从网站中提取 HTML 但现在我想为所有扩展自动执行此操作 然而 当我说 s
  • Django 管理器链接

    我想知道是否有可能 如果可以的话 如何 将多个管理器链接在一起以生成受两个单独管理器影响的查询集 我将解释我正在研究的具体示例 我有多个抽象模型类 用于为其他模型提供小型的特定功能 其中两个模型是DeleteMixin 和GlobalMix
  • pandas 中数据帧中的随机/洗牌行

    我目前正在尝试找到一种方法来按行随机化数据框中的项目 我在 pandas 中按列洗牌 排列找到了这个线程 在 pandas 中对 DataFrame 进行改组 排列 https stackoverflow com questions 157
  • 无法安装最新版本的 Numpy (1.22.3)

    我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本 我知道我可以从源代码本地安装它 但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n

随机推荐

  • Retrofit 2 的定制转换器

    我必须处理动态 JSON 响应 之前 我使用类和注释如下 public class ChatResponse SerializedName status private int status SerializedName error pri
  • 在哪里删除 Swift 中 NSNotification 的观察者?

    我应该在哪里删除观察者NSNotification在斯威夫特 因为viewDidUnload and dealloc 不可用 As of iOS 9 和 OS X 10 11 你不需要移除观察者你自己 如果你不使用基于块的观察者的话 系统会
  • 为什么 IIS Express 在加载 javascript 和 CSS 时返回 HTTP 500 错误?

    我正在尝试使用 IIS Express 开发 ASP NET MVC5 解决方案进行本地调试 通常 Chrome 在尝试加载某些 JS 和 CSS 文件时会报告 HTTP500 错误 有些使用 MVC 的内置捆绑和缩小功能 有些则使用自己的
  • 错误:使用 wikixmlj 解析 xml 文件时出现 xml.sax.SAXParseException

    我正在使用解析维基百科 xml 转储wikixmlj并收到以下错误 org xml sax SAXParseException lineNumber 64243259 columnNumber 371 JAXP00010004 The ac
  • Nodejs FS 模块返回 no such file or dir 错误

    Code fs readdir commands err files gt Do something Error ENOENT 没有这样的文件或目录 scandir commands 文件夹 commands does存在 这个文件是src
  • MapKit 中的 MapTypeStyle

    我想知道是否有任何方法可以配置我们的 MapKit 地图 就像我们在 Google 地图 API 中使用 MapTypeStyle 对象一样 如果我参考Apple文档 MKMapView有一个mapType选项 它需要MKMapType常量
  • MySQL删除语句优化

    我有一些删除查询要针对一些相当大的表 100 GB 运行 并且我想尽可能地优化它们 delete from table1 where column1 lt date sub now interval 100 hour 第 1 列是datet
  • 如何使用 C# .NET 将屏幕捕获为视频?

    是否有一些库可以将屏幕捕获为压缩视频文件或可以执行此操作的某种解决方案 此代码使用 NuGet 上提供的 SharpAvi using System using System Drawing using System Drawing Ima
  • 生成唯一ID的公式?

    我想了解一些关于在不使用 GUID 的情况下生成唯一 id 的想法 最好我希望唯一值是 int32 类型 我正在寻找可用于数据库主键以及 url 友好的东西 这些可以被认为是独特的吗 int DateTime Now Ticks int D
  • 在Java中,如何检查输入是否是数字?

    我正在制作一个简单的程序 可以让您添加比赛的结果以及他们完成比赛所用的秒数 为了输入时间 我这样做了 int time Integer parseInt JOptionPane showInputDialog Enter seconds 所
  • d3.layout.histogram() 和属性在 v4 中不起作用

    我想将基于 D3 js v3 的代码 转换 为 D3 js v4 我不知道我必须在以下代码中更改什么才能不显示任何错误 var data d3 layout histogram bins resolution frequency 0 res
  • 负边距删除静态同级的背景属性

    我在底部使用负边距来将相邻元素拉到与当前元素重叠 我的目的是让它重叠 但我希望整个 div 重叠在图像上方 但是 事实证明它也删除了拉动元素的背景 有人可以解释一下吗
  • SQL Server - 重写触发器以避免基于游标的方法

    如果我有桌子Test有两列num1 and num2以及下面的触发器 它只会在插入 num1 时增加 num2 DECLARE PROC NEWNUM1 VARCHAR 10 DECLARE NEWNUM2 numeric 20 DECLA
  • MySQL 和 PHP - 如何显示字段值等于 x 的所有行?

    我有一个数据库表 ff projections 其中包含以下字段 ID Player Position Team Pass Yds Pass TDs Int Thrown Rush Yds Rush TDs Rec Yds Rec TDs
  • MAC iphone SDK中的subversion无法解析用户文件

    我是 iPhone 新手 刚刚用 Subversion 更新了我的项目 现在 如果我尝试打开该项目 我会收到以下错误 无法打开项目 Users dualg4 DEV MacStubs MacStubs xcodeproj 无法打开 因为无法
  • 使用 jQuery 解析 XML

    我有以下 xml area
  • QRunnable 尝试中止任务

    是否可以中止 QRunnable 任务 即使在文档中我也找不到任何方法 多谢 不 您不能中止 QRunnable 任务 在 Qt 中脏中止线程的唯一方法是通过QThread terminate 这是不鼓励的 QThreadPool uses
  • 制作一个函数在返回之前等待事件?

    function myFunction wait what I put there return myFunction this is an event when its triggered I want function to resum
  • 如何使用python从内网站点抓取URL数据?

    我需要一个 Python Warrior 来帮助我 我是个菜鸟 我正在尝试使用模块 urllib 从内部网站点抓取某些数据 但是 由于这是我公司的网站 仅供员工查看 而不可供公众查看 我认为这就是我得到此代码的原因 IOError http
  • WPF 绑定到样式中另一个属性的绑定

    我不确定提出这个问题的最佳方式 抱歉问题标题含糊不清 但本质上我想使用从数据上下文传递属性的值转换器在 TextBox 上设置 MaxLength 属性 以及传入属性上的属性作为转换器参数 我想以一种风格来完成这一切 而不是在逐个控制的基础