如何使用python从内网站点抓取URL数据？

2023-12-15

我需要一个 Python Warrior 来帮助我（我是个菜鸟）！我正在尝试使用模块 urllib 从内部网站点抓取某些数据。但是，由于这是我公司的网站，仅供员工查看，而不可供公众查看，我认为这就是我得到此代码的原因：

IOError: ('http 错误', 401, '未经授权',)

我该怎么办？它甚至不会使用 htmlfile.read() 读取网站

获取公共站点的示例代码：

import urllib
import re

htmlfile = urllib.urlopen("http://finance.yahoo.com/q?s=AAPL")

htmltext = htmlfile.read()

regex = '<span id="yfs_l84_aapl">(.+?)</span>' 

pattern = re.compile(regex)

price = re.findall(pattern,htmltext)

print price

Try requests with 请求_ntlm:

import requests
from requests_ntlm import HttpNtlmAuth

r = requests.get("http://ntlm_protected_site.com",auth=HttpNtlmAuth('domain\\username','password'))

    print r.text

如果您需要有关此库的任何细节的帮助并且在文档中找不到它，请发表评论。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

urllib

intranet

如何使用python从内网站点抓取URL数据？的相关文章

当我有自定义身份验证模型时，如何登录 Django Rest 可浏览 API？

我有一个自定义用户模型如下所示account models py from django contrib auth modles import AbstractUser from django db models signals impo
如何使用 Python 3 绕过 HTTP Error 403: Forbidden with urllib.request

您好不是每次都这样但有时在尝试访问 LSE 代码时我会收到每一个烦人的 HTTP 错误 403 禁止消息任何人都知道我如何仅使用标准 python 模块来克服这个问题遗憾的是没有漂亮的汤 import urllib request
使用python查找txt文件中字母出现的次数

我需要从 txt 文件中读取该字母并打印 txt 文件中出现的次数到目前为止我已经能够在一行中打印内容但计数有问题有人可以指导吗 infile open grades txt content infile read for char
多处理中的动态池大小？

有没有办法动态调整multiprocessing Pool尺寸我正在编写一个简单的服务器进程它会产生工作人员来处理新任务使用multiprocessing Process对于这种情况可能更适合因为工作人员的数量不应该是固定的但我需
如何返回 cost, grad 作为 scipy 的 fmin_cg 函数的元组

我怎样才能使 scipy 的fmin cg使用一个返回的函数cost and gradient作为元组问题是有f对于成本和fprime对于梯度我可能必须执行两次操作非常昂贵 grad and cost被计算此外在它们之间共享变量可
Mypy 无法从文字列表推断项目的类型

我有一个变量x和一个文字列表例如 0 1 2 我想转换x这些文字之一如果x在列表中我将其退回否则我返回一个后备值 from typing import Literal Set Foo Literal 0 1 2 foos Set F
如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象？

当对 Pandas groupby 操作的结果执行过滤时它返回一个数据帧但假设我想执行进一步的分组计算我必须再次调用 groupby 这似乎有点绕有更惯用的方法吗 EDIT 为了说明我在说什么我们无耻地从 Pandas 文档中窃取
Python Anaconda：如何测试更新的库是否与我现有的代码兼容？

我在 Windows 7 机器上使用 Python 2 7 Anaconda 安装进行数据分析和科学计算当新的库发布时例如新版本的 pandas patsy 等您建议我如何测试新版本与现有代码的兼容性是否可以在同一台机器上安装两个
Python将文本文件解析为嵌套字典

考虑以下数据结构 HEADER1 key value key value HEADER2 key value key value HEADER3 key value HEADER4 key value key value 原始数据中没有缩进
根据其他单元格值更改多个单元格值

我想更改包含的单元格moving to movingToOpenor movingToClose基于下一个单元格中给出的状态有时循环会被中断并且不会从open to close or close to open 这是我当前的数据框 Dat
使用 for 循环创建一系列元组

我已经搜索过但找不到答案尽管我确信它已经存在了我对 python 很陌生但我以前用其他语言做过这种事情我正在以行形式读取数据文件我想将每行数据存储在它自己的元组中以便在 for 循环之外访问 tup i inLine wher
给定一个排序数组，就地删除重复项，使每个元素仅出现一次并返回新长度

完整的问题我开始在线学习 python 但对这个标记为简单的问题有疑问给定一个排序数组就地删除重复项使得每个元素只出现一次并返回新的长度不分配另一个数组的额外空间您必须通过修改输入来完成此操作数组就地具有 O 1 额外内
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
是否需要关闭没有引用它们的文件？

作为一个完全的编程初学者我试图理解打开和关闭文件的基本概念我正在做的一项练习是创建一个脚本允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
AWS Lambda 不读取环境变量

我正在编写一个 python 脚本来查询 Qualys API 中的漏洞元数据我在 AWS 中将其作为 lambda 函数执行我已经在控制台中设置了环境变量但是当我执行函数时出现以下错误 module initialization
如何给URL添加变量？

我正在尝试从网站收集数据我有一个 Excel 文件其中包含该网站的所有不同扩展名 F i www example com example2 我有一个脚本可以成功从网站中提取 HTML 但现在我想为所有扩展自动执行此操作然而当我说 s
Django 管理器链接

我想知道是否有可能如果可以的话如何将多个管理器链接在一起以生成受两个单独管理器影响的查询集我将解释我正在研究的具体示例我有多个抽象模型类用于为其他模型提供小型的特定功能其中两个模型是DeleteMixin 和GlobalMix
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157
无法安装最新版本的 Numpy (1.22.3)

我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本我知道我可以从源代码本地安装它但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n

随机推荐

Retrofit 2 的定制转换器

我必须处理动态 JSON 响应之前我使用类和注释如下 public class ChatResponse SerializedName status private int status SerializedName error pri
在哪里删除 Swift 中 NSNotification 的观察者？

我应该在哪里删除观察者NSNotification在斯威夫特因为viewDidUnload and dealloc 不可用 As of iOS 9 和 OS X 10 11 你不需要移除观察者你自己如果你不使用基于块的观察者的话系统会
为什么 IIS Express 在加载 javascript 和 CSS 时返回 HTTP 500 错误？

我正在尝试使用 IIS Express 开发 ASP NET MVC5 解决方案进行本地调试通常 Chrome 在尝试加载某些 JS 和 CSS 文件时会报告 HTTP500 错误有些使用 MVC 的内置捆绑和缩小功能有些则使用自己的
错误：使用 wikixmlj 解析 xml 文件时出现 xml.sax.SAXParseException

我正在使用解析维基百科 xml 转储wikixmlj并收到以下错误 org xml sax SAXParseException lineNumber 64243259 columnNumber 371 JAXP00010004 The ac
Nodejs FS 模块返回 no such file or dir 错误

Code fs readdir commands err files gt Do something Error ENOENT 没有这样的文件或目录 scandir commands 文件夹 commands does存在这个文件是src
MapKit 中的 MapTypeStyle

我想知道是否有任何方法可以配置我们的 MapKit 地图就像我们在 Google 地图 API 中使用 MapTypeStyle 对象一样如果我参考Apple文档 MKMapView有一个mapType选项它需要MKMapType常量
MySQL删除语句优化

我有一些删除查询要针对一些相当大的表 100 GB 运行并且我想尽可能地优化它们 delete from table1 where column1 lt date sub now interval 100 hour 第 1 列是datet
如何使用 C# .NET 将屏幕捕获为视频？

是否有一些库可以将屏幕捕获为压缩视频文件或可以执行此操作的某种解决方案此代码使用 NuGet 上提供的 SharpAvi using System using System Drawing using System Drawing Ima
生成唯一ID的公式？

我想了解一些关于在不使用 GUID 的情况下生成唯一 id 的想法最好我希望唯一值是 int32 类型我正在寻找可用于数据库主键以及 url 友好的东西这些可以被认为是独特的吗 int DateTime Now Ticks int D
在Java中，如何检查输入是否是数字？

我正在制作一个简单的程序可以让您添加比赛的结果以及他们完成比赛所用的秒数为了输入时间我这样做了 int time Integer parseInt JOptionPane showInputDialog Enter seconds 所
d3.layout.histogram() 和属性在 v4 中不起作用

我想将基于 D3 js v3 的代码转换为 D3 js v4 我不知道我必须在以下代码中更改什么才能不显示任何错误 var data d3 layout histogram bins resolution frequency 0 res
负边距删除静态同级的背景属性

我在底部使用负边距来将相邻元素拉到与当前元素重叠我的目的是让它重叠但我希望整个 div 重叠在图像上方但是事实证明它也删除了拉动元素的背景有人可以解释一下吗
SQL Server - 重写触发器以避免基于游标的方法

如果我有桌子Test有两列num1 and num2以及下面的触发器它只会在插入 num1 时增加 num2 DECLARE PROC NEWNUM1 VARCHAR 10 DECLARE NEWNUM2 numeric 20 DECLA
MySQL 和 PHP - 如何显示字段值等于 x 的所有行？

我有一个数据库表 ff projections 其中包含以下字段 ID Player Position Team Pass Yds Pass TDs Int Thrown Rush Yds Rush TDs Rec Yds Rec TDs
MAC iphone SDK中的subversion无法解析用户文件

我是 iPhone 新手刚刚用 Subversion 更新了我的项目现在如果我尝试打开该项目我会收到以下错误无法打开项目 Users dualg4 DEV MacStubs MacStubs xcodeproj 无法打开因为无法
使用 jQuery 解析 XML

我有以下 xml area
QRunnable 尝试中止任务

是否可以中止 QRunnable 任务即使在文档中我也找不到任何方法多谢不您不能中止 QRunnable 任务在 Qt 中脏中止线程的唯一方法是通过QThread terminate 这是不鼓励的 QThreadPool uses
制作一个函数在返回之前等待事件？

function myFunction wait what I put there return myFunction this is an event when its triggered I want function to resum
如何使用python从内网站点抓取URL数据？

我需要一个 Python Warrior 来帮助我我是个菜鸟我正在尝试使用模块 urllib 从内部网站点抓取某些数据但是由于这是我公司的网站仅供员工查看而不可供公众查看我认为这就是我得到此代码的原因 IOError http
WPF 绑定到样式中另一个属性的绑定

我不确定提出这个问题的最佳方式抱歉问题标题含糊不清但本质上我想使用从数据上下文传递属性的值转换器在 TextBox 上设置 MaxLength 属性以及传入属性上的属性作为转换器参数我想以一种风格来完成这一切而不是在逐个控制的基础

如何使用python从内网站点抓取URL数据？

如何使用python从内网站点抓取URL数据？ 的相关文章

随机推荐

热门标签

如何使用python从内网站点抓取URL数据？的相关文章