如何告诉 python HTMLParser 停止

2024-03-30

我有一个用例告诉我们当标签是link它的属性是rel=dns-prefetch然后就说预解析dns已启用。

我做了一个标志pre_resolve_dns_enabled并将其设置为 true，如下所示。

class Extractor(HTMLParser):

    def __init__(self):
        HTMLParser.__init__(self)
        self.pre_resolve_dns_enabled = False

    def feed(self, data):
        HTMLParser.feed(self,data)

    def handle_starttag(self, tag, attrs):
        if tag == 'link' and ('rel', 'dns-prefetch') in attrs:
            self.pre_resolve_dns_enabled = True
            #Now if one dns is resolved so whole domain remains resolved , how do I tell the parser to abort now , leaving the flag to true.

有什么帮助吗？

HTMLParser 并不是设计来停止的。为此，您想使用流解析器，例如xml.sax or xml.etree.cElementTree.

消化整个 HTML 文件真的有问题吗？预期的用例如下：

extractor = Extractor()
... feed html to extractor using one or more .feed() calls ...
extractor.close()

if extractor.pre_resolved_dns_enabled:
  ...
else:
  ...

如果这确实是一个问题，您可以将输入的 HTML 分成块并提供它们，直到找到您的标签，例如：

html = ...the html to parse...
chunks = [ html[i:i+1024] for i in xrange(0, len(html), 1024) ]
extractor = Extractor()
for c in chunks:
  if extractor.pre_resolved_dns_enabled:
    break
  extractor.feed(c)
extractor.close()
# check extractor.pre_resolved_dns_enabled

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

DNS

htmlparsing

如何告诉 python HTMLParser 停止的相关文章

由于“环境错误：[错误 13]：权限被拒绝：'usr/local/bin/f2py'”而无法安装软件包

我正在尝试在 macOS X 上安装 numpy 但执行命令后pip install numpy我收到错误环境错误错误13 权限被拒绝 usr local bin f2py 我如何解决它这对我有用 pip3 install user
使用 Python 或 Django 处理收到的电子邮件？

我了解如何通过 Django 发送电子邮件但我希望用户能够回复电子邮件如果他们发送以及我收到的电子邮件包含与某个字符串匹配的消息我将调用一个函数我已经做了一些谷歌搜索但除了自己制作脚本之外似乎没有什么好的解决方案如果有什么东
为什么 python 允许没有“pass”语句的空函数（带有文档字符串）主体？

class SomeThing object Represents something def method one self This is the first method will do something useful one da
Django 是否使用一个线程来处理 WSGI 或 Gunicorn 中的多个请求？

根据标题我想知道 Django 在通过 WSGI 或 Gunicorn 运行时是否使用一个线程来处理多个请求我知道从不应该访问的地方访问请求是一种不好的做法但我仍然想这样做我认为有充分的理由例如在我的自定义模板加载器中访问当前用户
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
具有相同内容的拆分列表

例如我有以下列表 contents i have two pens prices 5 made in and 我想将它们分开使其具有与以下内容相同的内容 array 0 i have two pens array 1 prices 5 a
根据两个预先计算的直方图报告两个样本的 K-S 统计量

Problem 在这里我绘制了存储在文本文件中的 2 个数据集在列表中 dataset 每个包含 218 亿个数据点这使得数据太大而无法作为数组保存在内存中我仍然能够将它们绘制为直方图但我不确定如何通过2 样本KS测试 http
如何使用Python在没有窗口的情况下在屏幕上显示文本

问题我需要在没有窗口的情况下直接将文本写入屏幕文本需要显示在所有其他窗口和全屏应用程序之上并且不应以任何方式单击或交互 Example The text doesn t need to have a transparent backg
SQLAlchemy+pymysql 错误：sqlalchemy.util.queue.Empty

尝试使用 Eclispse 在 Ubuntu 上运行 Python 2 SQLAlchemy 0 8 和 MySQL5 2 但我不断收到以下错误我使用 pymysql 实际上是 pymysql3 引擎模块监视器 from sqlalch
尽管 Matplotlib FuncAnimation(...,repeat=False) 保存的动画图不断循环

我想使用制作动画matplotlib进行 Powerpoint 演示动画应该只播放一次在我的代码中参数repeat of FuncAnimation 被设置为 false 因为我需要将图导入到powerpoint中所以我使用保存它a
Python Raspberry pi - 如果路径不存在，则跳过循环

我有一个收集温度文本文件中的值的功能它使用部分预定义的路径但是有时如果温度传感器未加载断开连接则路径不存在如果路径不可用如何设置条件或例外来跳过循环我想使用 continue 但我不知道要设置什么条件 def read
带有 UnboundLocalError 的本地和全局引用

我不太明白为什么代码 def f print s s foo f 运行得很好但是 def f print s s bar s foo f 给我 UnboundLocalError 我知道我可以通过声明来解决这个问题s作为函数内的全局变量或简
Flask-Mail - 基于 Flask-Cookiecutter 异步发送电子邮件

我的烧瓶项目基于烧瓶饼干切割机 https github com sloria cookiecutter flask我需要异步发送电子邮件发送电子邮件的功能由以下配置米格尔的教程 https blog miguelgrinberg com
如何在 Mac OS X 10.8 上安装 hg Convert 所需的 python subversion 绑定？

我正在寻找一种解决方案最好是干净且简单的以启用hg convert使用 SVN 存储库在 OS X 10 8 上工作目前如果您尝试转换 SVN 存储库您将得到一个could not load Subversion python b
仅获取图像中的外部轮廓

我有这段代码可以在图像中绘制轮廓但我只需要外部轮廓 import cv2 import numpy as np camino C Users Usuario Documents Deteccion de Objetos 123 jpg
Python range() 和 zip() 对象类型

我了解功能如何range and zip 可以在 for 循环中使用然而我期望range 输出一个列表很像seq在 Unix shell 中如果我运行以下代码 a range 10 print a 输出是range 10 表明它不是一
在python中打开带有重音符号的文本文件

我尝试使用 Python 2 7 打开法语文本文件我使用了命令 f open textfr r 但是当我使用 f read 我失去了重音字符我明白了u J xc3 xa9tais xc3 xa0巴黎而不是J tais 巴黎等当在lin
加载 IPython 笔记本时出错

一旦我用 Jupyter 打开笔记本文件它要求我转换文件我就再也无法在标准 IPython 笔记本中打开它了我收到以下错误 Error loading notebook Bad Request 2014 12 21 04 13 03
Unpivot Pandas 数据

我目前有一个DataFrame布置为 Jan Feb Mar Apr 2001 1 12 12 19 2002 9 2003 我想将数据逆透视使其看起来像 Date Value Jan 2001 1 Feb 2001 1 Mar 200
ValueError：对于optimize.curve_fit中所需的数组来说对象太深

我正在尝试拟合化学系统中四个变量 A B C D 的人口增长和衰退的动力学模型我正在尝试求解以下一组方程我已将其以矩阵形式附加方程的矩阵形式 https i stack imgur com ysEdZ png 其中 t 是时间步长 k

随机推荐

错误：没有名为“fcntl”的模块

我收到以下错误 Traceback most recent call last File C Users aaaa Desktop ttttttt py line 5 in
Rockscroll 之类的记事本++ 插件？

有没有像 Rockscoll for VisualStudio for notepad 这样的插件至少有接近它的东西吗 Thanks 它是内置的 View gt Document Map
Rails link_销毁嵌套资源？

我有一个嵌套的资源附件我想创建一个link to销毁删除附件这是我所拥有的但它是作为 GET 与 PUT 发布的有想法吗谢谢 Try link to Delete Attachment a
瑞典 BankID 使用 hmac 生成 Python 动画 QR 代码

我正在开发一个 Django 项目它将使用 BankID 进行授权和数字签名我在用pybankid https github com hbldh pybankid 关于这个项目我除了好话之外没有什么可说的我的问题在于尝试使用bank
为什么可为 null 的 int 不能隐式转换为 int ？技术原因还是设计选择？

在 C 中没有从int 键入int type 我定义了以下隐式运算符 namespace System public partial struct Int32 public static implicit operator Int32 i
关于函数指针转换的澄清

函数类型左值可以转换为函数指针右值 int func int func ptr func 但从 4 1 1 非函数非数组类型 T 的左值 3 10 可以转换到一个右值这是否意味着函数上未完成左值到右值的转换另外当数组衰减为指
如何在 C++ 中编写具有多个数据字段的类似 Java 枚举的类？

来自 Java 背景的我发现 C 的枚举非常蹩脚我想知道如何在 C 中编写类似 Java 的枚举其中枚举值是对象并且可以具有属性和方法例如将以下 Java 代码其中一部分足以演示该技术翻译为 C public enum Pl
MediaStyle：RemoteServiceException：从包中发布的错误通知

我正在尝试使用下面的代码在我的应用程序中创建一个通知媒体控制器该代码在所有设备上都可以正常工作华为 P8 Lite with 安卓5 0 我从 Firebase 测试实验室收到此错误日志 android app RemoteService
带 params 的命名参数

我有一种从数据库获取值的方法 public virtual List
警告：重载的虚拟函数“Base::process”在“派生”类中仅部分被重写

我低于警告我的代码的一部分是 class Base public virtual void process int x virtual void process int a float b protected int pd float p
如何设置 IHostingEnvironment.ContentRootPath？

在我的 Azure Service Fabric Web API 项目中我可以使用以下代码将 appsettings json 文件添加到我的配置中 Api cs class protected override IEnumerable
djangorest框架-使用detail_route和detail_list

在我的代码中我有一个用户的视图集我想要的是只允许读取操作用户 42 and users ReadOnlyModelViewSet 做得很好另外我想要一个用户注册我可以的网址POST以便注册新用户 class UserViewS
查找多边形重叠

我必须找到多边形重叠并获取它们的几何形状有人知道该怎么做吗这是多边形表 DECLARE Table TABLE id varchar 32 shape geometry INSERT INTO Table VALUES Californ
如何使用三个不同的键，例如(Ctrl Shift O) 在 vb.net 中打开窗体？

I need to use three different keys e g Ctrl Shift F12 to open another form in vb net 请帮我在 keydown 事件中您可以访问这些键例如在此处理程序
添加 request_mem_region 后，我的驱动程序每次第一次访问都会失败，并显示“忙”消息

好吧这对我来说真的很奇怪我有一个模拟的 CAN 总线驱动程序它是一个 Linux 内核模块然后我有一个在用户空间中运行的测试应用程序它通过打开文件描述符并发送来访问驱动程序ioctl 消息现在 CAN 总线驱动程序只是我一直采用
我可以使用哪些工具来确定应用程序的硬件要求？

For regular readers The saga continues 我的应用程序在我的开发机器上运行良好该机器是作为相当好的游戏装备购买的 5 年前因此它是 64 位 2 2GHz 时钟速度和 2GB 内存然而工作中的机
如何为已渲染的多个3D模型拥有多个模型矩阵？

我已经遵循了 vulkan 教程的大部分内容 https vulkan tutorial com https vulkan tutorial com 我目前有一个 vulkan 程序可以使用 OBJ 文件加载多个 3D 模型但是我只有一
如何从源代码构建 VSCode 应用程序包

我正在尝试在 Mac 上从源代码构建 VSCode 并制作应用程序包我尝试以下这些说明 https github com Microsoft vscode wiki How to Contribute packaging这表明你可以运行g
向量迭代器

我有以下代码 vector
如何告诉 python HTMLParser 停止

我有一个用例告诉我们当标签是link它的属性是rel dns prefetch然后就说预解析dns已启用我做了一个标志pre resolve dns enabled并将其设置为 true 如下所示 class Extractor HTML

如何告诉 python HTMLParser 停止

如何告诉 python HTMLParser 停止 的相关文章

随机推荐

热门标签

如何告诉 python HTMLParser 停止的相关文章