使用脚本或工具仅获取 HTML 元素

2023-12-19

我正在尝试获取大量状态信息，这些信息在网站中编码，主要在“ head >”元素内。

我知道我可以使用wget or curl或 python 获取整个页面。但我不想给服务器带来太多不必要的压力（页面本身相当大/复杂）。

有没有什么方法可以只获取头元素？

我认为除了检查 html 标头之外，代理服务器还执行其他操作。

只是为了澄清：我不搜索 html-headers，只搜索 html-<head>.

不可能只加载之间的数据<head>标签，因为服务器在发送请求的页面之前必须解析该页面。

一个可能的解决方案是读取几个字节，直到</head>找到标签。

以下内容如下n来自源的字节并检查字符串是否</head>已经包括了。如果是这样，字节将转换为string并修剪以使结果包含标签<head> and </head>以及它们之间的数据。否则继续读取n字节直到</head>被发现。

import urllib.request


def get_head_tag_data(url, n=512):
    """Read n bytes form source until '</head> is included. Trim result to
       '<head> ... </head>' and return it as string."""

    # open resource
    with urllib.request.urlopen(url) as site:
        # read n bytes until `buff` includes "</head>"
        data = b''
        i = 1
        while True:
            buff = site.read(n)
            data += buff
            if b'</head>' in buff:
                break
            elif buff == b'':
                raise AttributeError('Not head-tag found.')
            i += 1

    print('{} bytes read'.format(n*i))

    # cast to string
    data = str(data)

    # detect tag position
    start_tag = data.find('<head>')
    end_tag = data.find('</head>') + 7

    return data[start_tag:end_tag]


tag_data = get_head_tag_data('https://stackoverflow.com', n=256)

请注意，此函数不会检查可能的错误，例如，如果没有</head> tag.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

cURL

scripting

Wget

使用脚本或工具仅获取 HTML 元素的相关文章

使用 :hover 作为元素的内联样式（使用 HTML/CSS/php）[重复]

这个问题在这里已经有答案了可能的重复如何将 a hover 规则嵌入到文档中间的样式属性中 https stackoverflow com questions 131653 how do i embed an ahover rule i
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检
Matplotlib 图例，跨列添加项目而不是向下添加项目

对于下面的简单绘图有没有办法让 matplotlib 填充图例以便它从左到右填充行而不是第一列然后第二列 gt gt gt from pylab import gt gt gt x arange 2 pi 2 pi 0 1 gt gt
雅虎财务请求功能出现 404 客户端错误

yahoo Financials的请求功能出现404 Client Error 直接点击以下网址没有问题 https finance yahoo com quote AAPL financials p AAPL https finance
App Engine NDB：如何访问属性的 verbose_name

假设我有这个代码 class A ndb Model prop ndb StringProperty verbose name Something m A m prop a string value 当然现在如果我打印 m prop 它会
使用pathlib获取主目录

翻看新的pathlib在 Python 3 4 中我注意到没有任何简单的方法来获取用户的主目录我能想到的获取用户主目录的唯一方法是使用旧的os path像这样的库 import pathlib from os import path p
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
ValueError：数据必须为正（boxcox scipy）

我正在尝试将我的数据集转换为正态分布 0 8 298511e 03 1 3 055319e 01 2 6 938647e 02 3 2 904091e 02 4 7 422441e 02 5 6 074046e 02 6 9 265747e
将输入中每个单词的第一个字符设为大写

我想知道如何在输入区域自动生成单词的第一个字符目前我的代码是 Name
Py2exe - Pmw WindowsError：[错误 3]

我正在尝试使用 Py2exe 构建独立的可执行文件我已经导入了 Pmw 类当我运行独立可执行文件时出现以下错误 Traceback most recent call last File py line 9 in
PHP 共享标头而不使用服务器端脚本？

到目前为止我总是通过 PHP 解决简单的问题您有一个包含页眉菜单页脚和内容字段的网站每个页面的页眉菜单和页脚通常是相同的在没有 PHP 或任何其他服务器端语言的情况下如何使页眉菜单和页脚数据仅存在于一个文件中例如您不会有
Python：在字典中查找具有唯一值的键？

我收到一个字典作为输入并且想要返回一个键列表其中字典值在该字典的范围内是唯一的我将用一个例子来澄清假设我的输入是字典 a 构造如下 a dict a cat 1 a fish 1 a dog 2 lt unique a bat 3
如何使用 JavaScript 获取元素的填充值？

我有一个textarea在我的 HTML 中我需要获取整数或浮点形式的填充数值以像素为单位我如何使用 JavaScript 获取它我没有使用 jQuery 所以我正在寻找纯 JavaScript 解决方案这将返回padding l
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
python中有没有一种方法可以将存储在列表中的正则表达式模式列表应用到单个字符串？

我有一个正则表达式模式列表存储在列表类型中我想将其应用于字符串有谁知道一个好方法将列表中的每个正则表达式模式应用于字符串和如果匹配则调用与列表中该模式关联的不同函数如果可能的话我想用 python 来做这件事提前致谢 im
在webview android中加载本地html文件

我正在尝试在 android 的 webview 中加载 html 文件的内容但是它给了我网页不可用错误如果我尝试使用谷歌或雅虎等网站它们就会起作用 html文件位于src gt main gt assests gt index
如何：带有 onclick 的 div 位于另一个带有 onclick 的 div 中

只是一个简单的问题我遇到了 div 与 onclick javascript 之间的问题当我点击内部 div 时它应该只触发它的 onclick javascript 但外部 div 的 javascript 也会被触发用户如何点击
使用 VBA 通过 Access 导航网页/操作 IE

你好 StackOverflow 社区我有一个关于使用 Access VBA 操作 IE 的问题本质上我正在尝试编写代码使用 IE 打开特定网页在该页面中搜索特定链接目标链接的名称将取决于用户的情况通过以编程方式单击该链接导航

随机推荐

如何将h1和h2写在同一行？

我有一个页面我只想制作一个标题该标头是一个 h1 文本左对齐并且 h2 右对齐在同一行在它们之后 hr 到目前为止我的代码如下所示如果您测试它您会发现它是错误的 h1 align left Title h1 h2 align
如何以整数形式反转 RGB 颜色？

给定 32 位无符号整数形式的 RGB 颜色例如 0xFF00FF 如何反转它获得负颜色而不使用位移操作提取其各个分量我想知道是否可以仅使用按位运算 AND OR XOR 更准确地说使用最少指令数的算法是什么我觉得就是这么简单
如何从 JSESSIONID 加载 Java HttpSession？

我想获得JavaHttpSession通过 JSESSIONID 是否可以如果是怎么办您基本上需要手动将它们全部收集在一个Map https docs oracle com en java javase 17 docs api jav
android应用程序可以检查手机的版本吗

我想编写一个使用动态壁纸的应用程序仅版本 7 及更高版本支持此功能应用程序是否可以检查 Android 手机的版本并根据版本运行不同的代码例如使用动态壁纸或静态背景你有一个代码示例吗这需要特殊权限吗假设您需要 Android
使用pauseOnConnect 通过 https 传递连接

我正在使用pauseOnConnect选项开启net createServer 允许我将连接传递给我使用集群创建的工作人员 server net createServer pauseOnConnect true function conne
使用Spring boot和javafx会消耗大量内存吗？

我愿意在我的 JavaFX 应用程序中使用 Spring boot 技术以获得其依赖注入的优势但我想知道对内存的影响因为你知道任何带有组件符号的类都会被加载到 MetaSpace 因为 Spring boot 会从中创建一个静态对
Laravel 的 5.3 通行证和 api 路线

我正在使用 Laravel Framework 版本 5 3 9 新下载的内容没有通过作曲家添加任何内容除了 laravel passport 1 0 我做了中建议的所有事情docs https laravel com docs mast
Visual Studio 2010 代码覆盖率 - 找不到由检测实用程序创建的备份文件

我尝试在 VS 2010 中运行代码覆盖率但遇到以下错误不生成覆盖范围信息代码覆盖率就地检测无法完全备份二进制文件 MyProject dll 找不到由检测实用程序创建的备份文件 MyProject dll orig 检查为测试运行
使用 PHP/MySQL 比较标签组以查找相似性/分数

如何将一组标签与数据库中另一个帖子的标签进行比较以获取相关帖子我想做的是将帖子上的一组标签与另一个帖子的标签进行比较但不是每个标签单独假设您想根据帖子中的标签获取真正相关的项目然后从最相关到最不相关的顺序显示它们每次都必须显示三
如何在 C# 中发出 HTTP 请求 [重复]

这个问题在这里已经有答案了我如何在 Windows 中用 C 发出卷曲请求或我想使用此参数发出网络请求它应该收到有效的响应 request curl http www1 bloomingdales com api store v2 s
Spark阶段交换的意义

谁能解释一下我的 Spark DAG 中的 Spark 阶段中交换的含义我的大部分阶段要么以交换开始要么以交换结束 1 WholeStageCodeGen gt 交换 2 交换 gt WholeStageCodeGen gt SortA
离散傅里叶变换：如何正确使用 fftshift 和 fft

我想对 numpy 数组 Y 进行数值计算为了进行测试我使用高斯函数 Y exp x 2 符号傅立叶变换为 Y 常数 exp k 2 4 import numpy X numpy arange 100 100 Y numpy exp
如何重新启动流星

If I close the browser tab and press Ctrl Z to exit the current running meteor process how do I start meteor again to re
如何在 SQL Server 2008 中将图像字段中的 varbinary 值更新为 null？

我上传了一张图像并存储到数据库的图像字段中该图像存储为 0xFFD8FFE 当我尝试用 null 更新上面的内容时出现了一个异常数据类型 image 和 varbinary max 在等于运算符中不兼容我想将上面的值更改为空只需使
基于唯一列的行求和 awk

我正在寻找一种更优雅的方法来执行此操作对于超过 100 列 awk a 1 4 b 1 5 c 1 6 d 1 7 e 1 8 f 1 9 g 1 10 END for i in a print i a i b i c i d i e i
如何在MS Word中自定义引文样式？

要在 MS Word 中创建自定义引文样式我按照此网页中的说明进行操作https msdn microsoft com en us vba word vba articles create custom bibliography styl
显示一个元素并在 1 秒后隐藏它

我有以下元素 div class text hide Hello SO div 我用 jQuery 展示它如下所示 text addClass show removeClass hide So my div 是表演我现在希望它在 1 秒
切换到较新版本的 android ndk 时未定义的模块

我正在尝试从 ndk r11c 升级到 ndk r14 当我运行 r14 时出现错误 Android NDK 模块 myJNI 依赖模块 png jpeg log 在我的 Android 版本中 LOCAL SHARED LIBRARIE
setcookie() 不会在 Google Chrome 中设置 cookie

我正在阅读一些有关如何设置 cookie 的 PHP 教程我注意到 cookie 在 FF4 和 IE9 上成功设置但在 Chrome 11 0 696 60 中没有设置 PHP 文件由 XAMPP localhost 提供我尝试了
使用脚本或工具仅获取 HTML 元素

我正在尝试获取大量状态信息这些信息在网站中编码主要在 head gt 元素内我知道我可以使用wget or curl或 python 获取整个页面但我不想给服务器带来太多不必要的压力页面本身相当大复杂有没有什么方法可以只获取头

使用脚本或工具仅获取 HTML 元素

使用脚本或工具仅获取 HTML 元素 的相关文章

随机推荐

热门标签

使用脚本或工具仅获取 HTML 元素的相关文章