Python：使用html解析器提取特定数据

2024-04-30

我开始使用 Python 中的 HTMLParser 从网站中提取数据。我得到了我想要的一切，除了两个 HTML 标签内的文本。以下是 HTML 标签的示例：

<a href="http://wold.livingsources.org/vocabulary/1" title="Swahili" class="Vocabulary">Swahili</a>

还有其他以开头的标签。他们有其他属性和值，因此我不想拥有他们的数据：

<a href="http://wold.livingsources.org/contributor#schadebergthilo" title="Thilo Schadeberg" class="Contributor">Thilo Schadeberg</a>

该标签是表中的嵌入标签。我不知道这与其他标签是否有什么区别。我只想要一些名为“a”且属性为 class="Vocabulary" 的标签中的信息，并且我想要标签内的数据，在示例中它将是“斯瓦希里语”。所以我所做的是：

class AllLanguages(HTMLParser):
    '''
    classdocs
    '''
    #counter for the languages
    #countLanguages = 0
    def __init__(self):
        HTMLParser.__init__(self)
        self.inLink = False
        self.dataArray = []
        self.countLanguages = 0
        self.lasttag = None
        self.lastname = None
        self.lastvalue = None
        #self.text = ""


    def handle_starttag(self, tag, attr):
        #print "Encountered a start tag:", tag      
        if tag == 'a':
            for name, value in attr:
                if name == 'class' and value == 'Vocabulary':
                    self.countLanguages += 1
                    self.inLink = True
                    self.lasttag = tag
                    #self.lastname = name
                    #self.lastvalue = value
                    print self.lasttag
                    #print self.lastname
                    #print self.lastvalue
                    #return tag
                    print self.countLanguages




    def handle_endtag(self, tag):
        if tag == "a":
            self.inlink = False
            #print "".join(self.data)

    def handle_data(self, data):
        if self.lasttag == 'a' and self.inLink and data.strip():
            #self.dataArray.append(data)
            #
            print data

该程序打印标签中包含的所有数据，但我只希望标签中包含的数据具有正确的属性。我如何获得这些具体数据？

看来你忘记设置了self.inLink = False in handle_starttag默认情况下：

from HTMLParser import HTMLParser


class AllLanguages(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.inLink = False
        self.dataArray = []
        self.countLanguages = 0
        self.lasttag = None
        self.lastname = None
        self.lastvalue = None

    def handle_starttag(self, tag, attrs):
        self.inLink = False
        if tag == 'a':
            for name, value in attrs:
                if name == 'class' and value == 'Vocabulary':
                    self.countLanguages += 1
                    self.inLink = True
                    self.lasttag = tag

    def handle_endtag(self, tag):
        if tag == "a":
            self.inlink = False

    def handle_data(self, data):
        if self.lasttag == 'a' and self.inLink and data.strip():
            print data


parser = AllLanguages()
parser.feed("""
<html>
<head><title>Test</title></head>
<body>
<a href="http://wold.livingsources.org/vocabulary/1" title="Swahili" class="Vocabulary">Swahili</a>
<a href="http://wold.livingsources.org/contributor#schadebergthilo" title="Thilo Schadeberg" class="Contributor">Thilo Schadeberg</a>
<a href="http://wold.livingsources.org/vocabulary/2" title="English" class="Vocabulary">English</a>
<a href="http://wold.livingsources.org/vocabulary/2" title="Russian" class="Vocabulary">Russian</a>
</body>
</html>""")

prints:

Swahili
English
Russian

另外，请看一下：

scrapy https://scrapy.readthedocs.org/en/latest/
lxml http://lxml.de/
美丽汤 https://pypi.python.org/pypi/BeautifulSoup/

希望有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

python27

htmlparsing

HTMLParser

Python：使用html解析器提取特定数据的相关文章

Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
我可以在我的机器上同时安装 python 2.7 和 3.5 的tensorflow吗？

目前我通过 Anaconda 在我的机器 MAC OX 上安装了 Python 2 7 Python 3 5 Tensorflow for Python 3 5 我也想在我的机器上安装 Tensorflow for Python 2 7 当
您可以格式化 pandas 整数以进行显示，例如浮点数的“pd.options.display.float_format”？

我见过this https stackoverflow com questions 18404946 py pandas formatdataframe and this https stackoverflow com questions
立体太阳图 matplotlib 极坐标图 python

我正在尝试创建一个与以下类似的简单的立体太阳路径图 http wiki naturalfrequent com wiki Sun Path Diagram http wiki naturalfrequency com wiki Sun Pa
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
如何使用 Mysql Python 连接器检索二进制数据？

如果我在 MySQL 中创建一个包含二进制数据的简单表 CREATE TABLE foo bar binary 4 INSERT INTO foo bar VALUES UNHEX de12 然后尝试使用 MySQL Connector P
Jupyter Notebook 找不到 Python 模块

不知道发生了什么但每当我使用 ipython 氢原子或 jupyter 笔记本时都找不到任何已安装的模块我知道我安装了 pandas 但笔记本说找不到我应该补充一点当我正常运行脚本时 python script py 它确实导入
适用于移动设备的响应式订单确认电子邮件？

我从未见过令人惊叹的订单确认发票电子邮件即使是最好的 html5 网站也会发送糟糕的订单确认电子邮件有时是纯文本我相信这是因为发票通常需要使用表格来显示购买的物品这在移动设备上实现起来非常困难我发现了一些让手机上的表格更易于管理
将特定字形与网络字体一起使用

使用网络字体我想使用字体功能设置 CSS 中的选项以及跨度类HTML 中以便使用字体集中的特定替代字形我需要以正确的语法使用哪些值 GID Unicode 才能定位特定的目标glyph内glyph备择方案这些功能使用 OpenTyp
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
根据列 value_counts 过滤数据框（pandas）

我是第一次尝试熊猫我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串因此会多次出现在数据帧中我想从中导出另一个数据框一个只有那些user ids列出至少有 2 个或更多string
在本地网络上运行 Bokeh 服务器

我有一个简单的 Bokeh 应用程序名为app py如下 contents of app py from bokeh client import push session from bokeh embed import server do
Facebook 点赞按钮消失

我的网站中的 Facebook Like 按钮出现问题添加此代码由 facebook 提供按钮在创建时正确显示在任何页面中
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我
Scipy Sparse：SciPy/NumPy 更新后出现奇异矩阵警告

我的问题是由大型电阻器系统的节点分析产生的我基本上是在设置一个大的稀疏矩阵A 我的解向量b 我正在尝试求解线性方程A x b 为了做到这一点我正在使用scipy sparse linalg spsolve method 直到最近一切都
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解
更改 Tk 标签小部件中单个单词的颜色

我想更改 Tkinter 标签小部件中单个单词的字体颜色我知道可以使用文本小部件来实现与我想要完成的类似的事情例如使单词 YELLOW 显示为黄色 self text tag config tag yel fg clr yellow s

随机推荐

构建和部署之间的区别？

和有什么区别build and deploy and re deploy 当你只有一些时应该做什么HTML变化和没有Java代码改变我应该做一个build and deploy或者只是一个re deploy 免责声明定义构建和部署的含义
如何用 Go 将多个字符串解析为模板？

有没有像这样的简单方法template ParseFiles base html home html 但是对于字符串来说如何从一组字符串构建模板我有一个基本模板和一个页面模板列表全部为字符串我想在基本模板之上构建它们我想出了如何合
痛苦的泛型，运算符“>=”不能应用于“T”和“T”类型的操作数

这是我的代码 class BinaryTree
VB错误“需要对象”

当我运行以下脚本时我在第 54 行最后一行收到需要对象错误怎么了 Option Explicit Dim cmdString g strHostFile filepath flexnetpath importcmd dtmTod
ora-00972 标识符太长 oracle 10g

我收到标题中提到的错误我使用的是 36 个字符的 ID 此错误仅在我的 asp net web 表单中的 sqldatasource 中抛出当我执行更新时这不是问题Oracle sql developer 我怎样才能解决这个问题 Ora
Spring Security Ldap，仅登录指定组中的用户

就像标题一样我希望只有规范的用户这是我的验证码 public void configureGlobal AuthenticationManagerBuilder auth throws Exception auth ldapAuthen
安全沙箱违规

运行我的 Flash 应用程序时出现以下错误违反安全沙箱与 rtmp system ip live 的连接已停止不允许从 file F Flash 工作 RTS RT vlab BIOTECH NEO 简单神经元的被动属性 vi 特征
Google API 控制台 - 缺少客户端密钥

我尝试为 Android 应用程序创建一个测试客户端 ID 该应用程序使用 OAUTH 2 0 作为检索用户配置文件的登录名我按照步骤在谷歌控制台上完成了客户端 ID 的创建但我没有在任何地方看到客户端密钥我正在尝试帮助我的雇主获取其
catch 块和方法中的 throw new Exception 之间的区别

在一种方法中我希望能够将一个值插入到 div 中该 div 是我选择解析的 html 文档的一部分 public void AddToDiv string div Code to read the html document and l
使用带有 _O_U8TEXT 的 setmode 处理 unicode 时 C++ 崩溃

我尝试打印 unicode 的是 setmode fileno stdout O U8TEXT string str u8 unicode hangul cout lt lt str lt lt endl 我使用 setmode 来正确显示
如何打印/存储非 ASCII 字符（unicode？）

我正在阅读大量的音乐家档案其中许多艺术家的名字中都有奇怪的字符因为他们可能来自德国或其他一些具有非 ASCII 字符的国家我希望能够将这些音乐家的名字存储在列表中并将它们打印到控制台如何打印从文本文件读入的带有奇怪字符的字符串让我
我们可以通过编程方式访问 iOS 系统设置的常规/辅助功能/字幕和字幕吗？

我必须使用 iOS 设置应用程序中的字幕和字幕系统设置有什么办法我们可以通过编程来获取它您可以使用 UIAccessibilityIsClosedCaptioningEnabled 方法来了解 iOS 设置 gt 常规 gt 辅助功能
删除 Eclipse 图形布局中的 Android 状态栏

如何删除 Eclipse 图形布局中 android 模拟器的状态栏我的应用程序设置为以全屏模式运行但我在布局方面遇到了困难因为状态栏出现在 Eclipse 的图形布局中您只需更改下拉列表中的主题或者用 Android 术语来说可
使内容适合 div 的宽度

如何使文本适合 div 的宽度这是我的代码 div class column a href class user thumbnail img src width 100px height 100px a span class name t
ImageMagick - 向图像添加白色透明覆盖层

我需要拍摄一张正常的图像并添加白色透明覆盖层使其看起来像这样不要注意转换后图像上的文本或它是原始图像的裁剪版本这一事实我需要简单地将顶部转换为完全相同的图像只是使用白色透明的覆盖层我还需要它是一个 cli 命令更新答案这更容
如何在Sql Server 2008全文搜索中忽略html标签

我正在使用 SQL Server 2008 全文搜索引擎开发一个知识库项目项目包含在文章和文件中其中每篇文章都有多个文件在这些文章中全部内容是纯html 现在我在 SQL Server 2008 上成功创建了全文目录和索引并且我
Python sched.scheduler 超过最大递归深度

我最近开始学习 Python 我正在制作的简单应用程序的一部分包括一个在其自己的线程中运行的带有 hh mm ss 显示的计时器环顾网络我发现了两种实现此目的的方法使用 sched scheduler 使用threading Time
创建自定义 BigDecimal 类型

在我的应用程序中所有 BigDecimal 数字都被缩放为具有两位小数换句话说每次我在代码中创建一个新的 BigDecimal 时我也需要使用方法scale BigDecimal x BigDecimal ZERO x setSca
如何在 Rails Admin 中隐藏添加新选项

我正在自定义 Rails Admin https github com sferik rails admin https github com sferik rails admin 我需要禁用隐藏某些型号的添加新选项任何帮助都会为我
Python：使用html解析器提取特定数据

我开始使用 Python 中的 HTMLParser 从网站中提取数据我得到了我想要的一切除了两个 HTML 标签内的文本以下是 HTML 标签的示例 a href http wold livingsources org vocabu

Python：使用html解析器提取特定数据

Python：使用html解析器提取特定数据 的相关文章

随机推荐

热门标签

Python：使用html解析器提取特定数据的相关文章