Python 使用正则表达式解析 HTML

2023-12-09

我正在尝试浏览网站的 HTML 并解析它以查找班级的最大注册人数。我尝试检查 HTML 文件的每一行中的子字符串，但这会尝试解析错误的行。所以我现在使用正则表达式。我有\t\t\t\t\t\t\t<td class="odd">([0-9])|([0-9][0-9])|([0-9][0-9][0-9])<\/td>\r\n作为我现在的正则表达式，但此正则表达式与最大注册人数以及部分编号匹配。还有另一种方法可以处理我试图从网页中提取的内容吗？ HTML 代码片段如下：

<tr>
    <td class="tableHeader">Section</td>
    <td class="odd">001</td>
</tr>

<tr>
    <td class="tableHeader">Credits</td>
    <td class="even" align="left">  4.00</td>
</tr>

<tr>
<td class="tableHeader">Title</td>
<td class="odd">Linear Algebra</td>
</tr>

<tr>
    <td class="tableHeader">Campus</td>
    <td class="even" align="left">University City</td>
</tr>

<tr>
    <td class="tableHeader">Instructor(s)</td>
    <td class="odd">Guang  Yang</td>
</tr>
<tr>
    <td class="tableHeader">Instruction Type</td>
    <td class="even">Lecture</td>
</tr>

<tr>
    <td class="tableHeader">Max Enroll</td>
    <td class="odd">30</td>
</tr>

不要使用 REGEXP 解析 HTML。

使用正确的工具完成正确的工作。

让我们打个比方来解释为什么它是错误的：这就像试图拥有一个5岁理解Hamlet，而他没有词汇和语法去理解莎士比亚的，当他能够时他会得到处理更抽象的概念.

使用任一lxml or BeautifulSoup要做到这一点。

举个例子：获取所有偶数和奇数的列表：

>>> from lxml import etree
>>> tree = etree.HTML(your_html_text)
>>> odds = tree.xpath('//td[@class="odd"]/text()')
>>> evens = tree.xpath('//td[@class="even"]/text()')
>>> odds
['001', 'Linear Algebra', 'Guang  Yang', '30']
>>> evens
['  4.00', 'University City', 'Lecture']

edit:

我只是想以一种无法获得部分编号和最大注册编号的方式提取内容。我只需要帮助获取最大注册号码。

好的，现在我得到了你想要的，所以这是使用 lxml 的解决方案：

>>> for elt in tree.xpath('//tr'):
...     if elt.xpath('td[@class="tableHeader"]')[0].text == "Max Enroll":
...         elt.xpath('td[@class="odd"]|td[@class="even"]')[0].text
... 
'30'

在那里你有only最大报名人数。

使用 BeautifulSoup 会更容易一些：

>>> bs = BeautifulSoup(your_html_text)
>>> for t in bs.findAll('td', attrs={'class': 'tableHeader'}):
...   if t.text == "Max Enroll":
...     print t.findNext('td').text
'30'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 使用正则表达式解析 HTML 的相关文章

更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
查找模块中显式定义的函数 (python)

好的我知道您可以使用 dir 方法列出模块中的所有内容但是有什么方法可以仅查看该模块中定义的函数吗例如假设我的模块如下所示 from datetime import date datetime def test return Thi
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
更改 python tkinter canvas 中的线坐标

我画了一条线tkinter Canvas现在我想移动一端这可能吗例如和itemconfig import tkinter tk tkinter Tk canvas tkinter Canvas tk canvas pack line c
Bootstrap 4 移动导航栏消失

我刚刚从 Bootstrap 3 转换为 Bootstrap 4 但我的移动导航栏出现问题使用切换按钮展开导航栏时导航消失我不明白为什么会发生这种情况导航栏下方有一个大屏幕但整个移动导航向上移动如下面的 gif 所示以下是导航
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
`list()` 被认为是一个函数吗？

list显然是内置类型 https docs python org 3 library stdtypes html list在Python中我看到底下有一条评论this https stackoverflow com a 53645813
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
HTML5 文件 API 和 AJAX 上传分块问题

我编写了一个带有单独进度的拖放多个文件上传等除了一件事之外它工作得非常好上传较大文件时有时浏览器会锁定直到上传完成我认为这是因为该文件存储在浏览器的内存中并占用了浏览器可用的所有资源我想知道是否可以逐段读取文件并在读取时通过
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
如何将MathJax公式转换为img

Mathjax 现在在我的项目中运行良好但有一个问题有没有办法将MathJax的公式纯html和css 转换成img文件我可以保存 MathJax 可以配置为生成 SVG 看http docs mathjax org en late
是否可以将 pd.Series 分配给无序 pd.DataFrame 中的列而不映射到索引（即不重新排序值）？

在 Pandas 中创建或分配新列时我发现了一些意外的行为当我对 pd DataFrame 进行过滤或排序从而混合索引然后从 pd Series 创建新列时 Pandas 会重新排序该系列以映射到 DataFrame 索引例如 d
使用正则表达式查找除一个字符串之外的所有字符串[重复]

这个问题在这里已经有答案了我想匹配除字符串之外的所有字符串 ABC 例子 A gt Match F gt Match AABC gt Match ABCC gt Match CBA gt Match ABC gt No match 我尝试
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
如何在单元测试中使用 JSON 发送请求

我的 Flask 应用程序中有在请求中使用 JSON 的代码我可以像这样获取 JSON 对象 Request request get json 这一直工作得很好但是我正在尝试使用 Python 的 unittest 模块创建单元测试但
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可

随机推荐

在 Jupyter 实验室中以深色主题绘制 R 几乎不可见

我尝试在 Jupyter 实验室中使用 R 内核进行绘图并将 Jupyter 实验室主题设置为 Jupyterlab dark 下面是我的代码 options repr plot width 20 repr plot height 5 p
使用三元表达式返回会在第一次迭代时中断 foreach 循环

好的我测试了以下内容我会让您知道我的发现 echo 1 lt 0 true false will echo true echo 1 gt 0 true false will echo true Notice that 1 and 1 a
在armeabi-v7a中，streqh导致“无效指令，您的意思是：strexh，strh？”。 “eq”去哪儿了？

我在尝试为 armeabi v7a 编译的一些 ARM 代码中遇到此错误显然是 v7a 之前的内容 jni 6502asm arm S 108 2 error invalid instruction did you mean strexh
每次列中字符串值发生变化时如何拆分数据框？

我有一个以下形式的数据框 time value label 0 2020 01 01 0 556014 high 1 2020 01 02 0 185451 high 2 2020 01 03 0 401111 medium 3 2020
if 语句如何工作？

我正在用 Python 制作一款基于文本的俄罗斯轮盘游戏但我还没有完成只需查看我的代码就可以看出 usr bin env python print The maximum number of bullets is 3 bulletcou
错误“相机已取消” - App Sencha with PhoneGap

我正在开发一个应用程序您可以用手机拍照并将其发送到社交网络我的应用程序是使用 sencha touch 2 和 Phonegap 开发的当我尝试拍照时我的应用程序重新启动并给出错误相机已取消我尝试查看 console logs
Perl 相当于 (Postgresql BETWEEN 运算符?

有这样的事吗相当于a lt expr lt b 或者用 SQL 术语来说expr BETWEEN a AND b where expr只评估一次或者只是要求这个变得愚蠢在 Perl 中有多种方法可以做到这一点 if a lt x a
如何在设定的时间后自动保存并退出工作表？（Excel VBA）

如果超过 5 分钟没有任何活动是否有办法让打开的工作表自行关闭举例来说我在一张工作表上工作了一段时间然后打开该工作表走开 20 分钟网络上的某人需要访问该工作表但无法访问因为我正在其中我希望这样在我离开办公桌超过 5 分钟后
将函数从递归转换为迭代

我写的这个函数非常慢因为 php 不能很好地处理递归我正在尝试将其转换为 while 循环但我无法理解如何做到这一点谁能给我一些建议吗 public function findRoute curLoc distanceSoFar e
验证输入框中的用户输入

当我运行以下代码片段并输入可接受的值时我得到了所需的结果 do while len strselect 0 or strselect lt gt 1 or strselect lt gt 2 or strselect lt gt 3 st
如何使用 node.js（Firefox 或 Chrome）在 Heroku 上运行 Selenium-Webdriver

我想在 Heroku 上使用 Selenium 和 Firefox 或其他能够显示视频的浏览器不幸的是 PhantomJS 不起作用因为浏览器无法播放视频我已经通过使用这些构建包在 Firefox 中进行了尝试 https githu
如何使用 Python 中的 Plotly Express 向每个条形图添加可点击的链接？

所以基本上我希望用户在单击条形图中的条形时被定向到特定网站但我不知道该怎么做也找不到这方面的资源您可以在以下位置使用 HTML注释 import pandas as pd import plotly express as px df
scipy.sparse.coo_matrix 如何快速找到全零列，填充 1 并标准化

对于矩阵我想找到全为零的列并用 1 填充然后按列对矩阵进行归一化我知道如何使用 np arrays 做到这一点 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 1 1 0 0 0 0 V 0 1 0 0 0
检索作为 POST 响应提供的重定向 URL 中的 OAuth 代码

这里是Python新手所以我确信这是一个微不足道的挑战使用 Requests 模块向 Instagram API 发出 POST 请求以获得稍后在 OAuth 过程中用于获取访问令牌的代码该代码通常在客户端访问因为它在重定向 UR
使用 pypng 将 24 位 PNG 文件转换为 8 位颜色索引图像

我正在尝试编写一个 python 脚本该脚本接受标准 24 位 png 并将其转换为 8 位 png 以实现更好的压缩看起来 pypng 可以做到这一点但我不太清楚如何使用它图像处理对我来说是一个新领域所以这可能看起来很愚蠢我目
WF4.5 不编译并行 C# 工作流程

我有一个 IIS 托管的 xamlx 工作流程其中包含 c 表达式我试图在并行版本控制中运行我完全喜欢这篇文章工作流服务的并行版本控制工作流的新实例按预期工作但是当我调用工作流的先前版本的实例时它会引发错误告诉我它尚未编译
使用reactjs中的props更改更新状态值

我有一个模式组件应该在 setState 更改时调用但由于某种原因它没有更新在第一个文件中我在渲染中设置以下内容
致命错误：调用未定义的函数 mysql_connect() [重复]

这个问题在这里已经有答案了我收到此错误 Fatal error Call to undefined function mysql connect in var www html test1 php on line 8 对于以下代码
如何缓存 angularjs 部分？

在 angularjs 生产中缓存部分的最简单现代的方法是什么目前代码如下 routeProvider when error templateUrl partials error html controller ErrorCtrl 其中
Python 使用正则表达式解析 HTML

我正在尝试浏览网站的 HTML 并解析它以查找班级的最大注册人数我尝试检查 HTML 文件的每一行中的子字符串但这会尝试解析错误的行所以我现在使用正则表达式我有 t t t t t t t td class odd 0 9 0 9

Python 使用正则表达式解析 HTML

Python 使用正则表达式解析 HTML 的相关文章

随机推荐

热门标签