Python正则表达式找不到子字符串,但它应该找到

2023-11-29

我正在尝试使用 BeautifulSoup 解析 html 来尝试提取网页标题。有时这不起作用,因为网站写得不好,例如Bad End标签。当这不起作用时,我会转到手动正则表达式

我有文字

<html xmlns="http://www.w3.org/1999/xhtml"\n      xmlns:og="http://ogp.me/ns#"\n      xmlns:fb="https://www.facebook.com/2008/fbml">\n<head>\n    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"/>\n    <title>\n                    .@wolfblitzercnn prepping questions for the Cheney intvw. @CNNSitRoom today. 5p. \n            </title>\n    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />...

我试图抓住两者之间的价值观<title> and </title>标签。它应该相当简单,但它不起作用。这是我的 python 代码。

result = re.search('\<title\>(.+?)\</title\>', html)
if result is not None:
    title = result.group(0)

无论出于何种原因,这都不适用于本文。它将 result.group() 返回为 None,否则我会收到 AttributeError。 AttributeError:“NoneType”对象没有属性“groups”

我已将此文本 C&P 放入在线 python 正则表达式开发人员中,并尝试了所有选项(re.match、re.findall、re.search),它们在那里工作,但无论出于何种原因,在我的脚本中它无法找到之间的任何内容这些标签。甚至尝试其他正则表达式,例如

<title>(.*?)</title>

etc


您应该使用多塔尔旗使.也匹配换行符。

result = re.search('\<title\>(.+?)\</title\>', html, re.DOTALL)

正如文档所说:

...没有这个标志,'.'会匹配任何东西except换行符

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python正则表达式找不到子字符串,但它应该找到 的相关文章

  • 如何测试使用 XCom 的 Apache Airflow 任务

    我正在尝试找出一种测试 DAG 的方法 其中有几个任务使用 XCom 进行通信 由于控制台命令只允许我从 DAG 运行任务 有没有一种方法可以测试通信而无需通过 UI 运行 DAG Thanks 这是一种对我有用的方法 尽管 Airflow
  • pip 安装失败,SSL 证书验证失败 (_ssl.c:833)

    我无法通过 pip install 安装任何外部 python 模块 我已经正确安装了 python 但如果我使用 pip install 它会显示此错误 这是我运行后的代码pip install pytesseract C Users 1
  • 如何从 Lua 调用 Python 函数?

    我想从我的 lua 文件运行 python 脚本 我怎样才能实现这个目标 Example Python代码 sum py file def sum from python a b return a b Lua code main lua f
  • OpenCV - 我需要将彩色图像插入黑白图像并且

    我用以下代码将黑白图像插入彩色图像 没问题 face grey cv cvtColor face cv COLOR RGB2GRAY for row in range 0 face grey shape 0 for column in ra
  • 如何为 C 分配的 numpy 数组注册析构函数?

    我想在 C C 中为 numpy 数组分配数字 并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
  • 从主机名中提取域名

    是否有一种编程方式可以从给定的主机名查找域名 给出 gt www yahoo co jp 返回 gt yahoo co jp 有效但非常慢的方法是 拆分为 并从左侧删除 1 个组 使用 dnspython 加入并查询 SOA 记录 当返回有
  • 如何在Python中求和

    我想知道如何在 python 中表示总和而不需要像这样的循环here http docs scipy org doc scipy reference tutorial optimize html 我们有 def rosen x The Ro
  • 如何使用 xlrd 将新列和行添加到 .xls 文件

    如何向 xlrd 中的工作表添加新列和 或行 我有一个使用 open workbook 读取的 xls 文件 我需要在第一张表中添加一个新列 bouncebacks 然后在该表中添加新行 但我在 xlrd 文档中找不到任何显示如何添加新行和
  • 是否有更矢量化的方法来沿轴执行 numpy.outer ?

    gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
  • 使用 3d 对象作为 3d 散点图中的标记 - Python

    使用下面的代码 我尝试模拟一个用罐头制成的碗 我希望每个标记都是一个罐头 最好的方法是什么 我真的很感激任何建议 谢谢 import pylab import numpy as np from math import pi sin cos
  • PyCharm 无法识别字典值类型

    我有一个简单的代码片段 其中我将字典值设置为空列表 new dict for i in range 1 13 new dict i 现在 如果在下一行的循环内我会输入new dict i 并添加一个点 我希望 PyCharm 向我显示可用于
  • 如何绘制多类分类器的精度和召回率?

    我正在使用 scikit learn 我想绘制精度和召回曲线 我正在使用的分类器是RandomForestClassifier scikit learn 文档中的所有资源都使用二元分类 另外 我可以绘制多类的 ROC 曲线吗 另外 我只找到
  • Python:帮助(numpy)在退出时导致段错误

    我遇到了一个奇怪的现象 在 python 解释器中 我执行以下操作 gt gt gt import numpy gt gt gt help numpy 帮助显示正确 但一旦我按 q 返回解释器 Segmentation fault core
  • Scrapy的redirect_urls异常.KeyError

    我是 Scrapy 和 Python 的新手 最近推出了我的第一个蜘蛛 有一个功能似乎以前有效 但现在它只适用于我试图废弃的一些网站 代码行是 item url direct response request meta redirect u
  • Python 队列 get()/task_done() 问题

    我的消费者端队列 m queue get queue task done
  • 如何使用 pygame.mixer 重复音乐?

    我创建了以下使用 pygame mixer 播放 mp3 音乐的代码 然而 音乐不会重复 有什么想法可以让音乐重复播放吗 这是代码 playlist list playlist append put music here mp3 playl
  • Pip 突然使用了错误版本的 Python

    在 os x 上使用 pip 时遇到一个奇怪的问题 据我所知 快速查看我的 bash history 似乎可以确认 我最近没有对我的配置进行任何更改 唉 pip 命令似乎突然使用了与以前不同的 python 版本 到目前为止 我使用命令 p
  • Excel VBA 自动过滤子字符串

    我的 Excel 中有多行 其中 D 列为 TDM 02 Bundle Rehoming 5 NE TDM 02 Bundle Rehoming 23 NE IP 02 Bundle Rehoming 7 NE 等 请注意 大多数情况下 N
  • Matplotlib 中的 TwoSlopeNorm 未按预期工作

    我正在尝试创建一个具有发散颜色图的绘图 该颜色图在零附近不对称 In this https stackoverflow com a 20146989 6288682例如 DivergingNorm函数被使用并产生我想要的 然而 我使用的是更
  • 通过 ManyToManyField = Value 对 django 查询集进行排序

    如果有一些模型 例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many

随机推荐

  • Karate WebSocket 如何在一个会话中监听多个消息?

    对于我们的集成测试 我们有一个场景 我们想要监听由我们使用的环境预定义的一定数量的消息 我已经看到可以通过打开新连接来收听多个消息 但这并没有太大的灵活性 您是否阅读过文档 因为据我所知 如果您定义了 处理程序 函数 则可以对多个消息使用相
  • 在 R 中结合 grid_arrange_shared_legend() 和facet_wrap_labeller()

    我正在尝试结合grid arrange shared legend and facet wrap labeller 更具体地说 我想绘制一个包含两个 ggplot 图形的图形 每个图形都有多个面板 并且有一个共同的图例 我还想将部分刻面条标
  • 使用批处理文件并排合并 csv 文件[重复]

    这个问题在这里已经有答案了 我有一个非常基本的批处理命令来将 csv 文件合并在一起 但是我需要将它们合并 以便各列并排而不是继续 每个文件上的记录数量始终相同 这是我到目前为止的基本代码 COPY File1 csv File2 csv
  • 尝试使用 XML 配置关闭一个 URL 的安全性

    我检查了几个博客 doc stackoverflow 论坛条目 但我仍然不知道我做错了什么 我想向任何人授予对 URL 的访问权限 这permitAll不起作用 因为我有自定义过滤器 所以我想创建一个单独的http元素并使用security
  • 基于 boost::asio 的慢速 http 客户端 - (分块传输)

    我正在使用以下代码 取自 boost 教程 从服务器获取 json 字符串 问题是它需要一些时间来执行 即超过 2 秒才能完成 并且客户端和服务器都在本地主机上 如果我删除程序的最后两行 即此时 while boost asio read
  • 有没有办法让 GCC/Clang 知道 C 中的继承?

    我正在编写一个 C 库 它使用一些简单的面向对象继承 如下所示 struct Base int x struct Derived struct Base base int y 现在我想将 Derived 传递给一个采用 Base 的函数 如
  • 有没有像这个网站一样进行 AES 加密的示例 Java 代码?

    http www hanewin net encrypt aes aes test htm 如果您访问该网站并输入以下内容 Key In Hex 00000000000000000000000000123456 Plain Text in
  • 具有列重新排序功能的 JQGrid

    我有一个 jqgrid 我可以使用 JQGrid 中的此选项重新排序我的列 jQuery list jqGrid sortable true 此功能让我可以重新排序所有列 但我希望某些列必须位于固定位置 有办法解决这个问题吗 提前致谢 Br
  • Laravel Eloquent 在当前月份和前 3 个月之间进行选择

    我正在尝试构建一个查询 该查询将选择数据库中现在 当月 和前 3 个月之间的所有记录 我的查询有些有效 但我想忽略该月的某一天 目前 它也选择当前日期的最后几个月 但我想忽略当前日期并使用月份的开始和结束 这是我的查询 dateS Carb
  • 通过命令行传递 karate.env 无法按预期工作[重复]

    这个问题在这里已经有答案了 我下载了空手道演示项目并做了一些小更改 在空手道配置 js 函数的第一行 karate log Environment from command line karate env 然后我从终端执行 mvn test
  • 将自定义数据从购物车项目传递到 Woocommerce 3 中的订单元

    我已经实现了一个自定义 HTML 表单 并要求提供一些数据 我的客户将传递这些数据以成功下订单 如果没有这些细节 我的订单就没有任何意义 对于 HTML 表单 我引用了下面的一些自定义 PHP 脚本 该脚本处理来自表单的 POST 数据并以
  • 在 wsimport 中使用 JAXB 绑定扩展

    我知道如何在普通 JAXB 绑定文件中启用扩展 将它们列在根元素中extensionBindingPrefixes
  • 在 PostgreSQL 中设置时间戳列的时区

    我在 PostgreSQL 表上有一个更新时间戳字段的触发器 但我想将其置于正确的时区 如何将我的列默认设置为始终处于 PST 这是我的触发器 ALTER TABLE coastal ADD latest report TIMESTAMP
  • Rails + Hotwire:为什么我的链接在单击时消失了?

    我正在尝试将 Hotwire Turbo 合并到现有的 Rails 应用程序中 我已将涡轮框架添加到简单的编辑页面 但现在当我单击后退按钮时 它会消失而不是带我到目标页面 链接很简单link to Back my model show pa
  • 获取 SciPy 的 gaussian_kde 函数使用的带宽

    我正在使用 SciPy统计数据 gaussian kde函数从数据集生成核密度估计 kde 函数x y points 这是我的代码的简单 MWE import numpy as np from scipy import stats def
  • 为什么我会收到一个编译错误,显示 error: ‘else’ without previous ‘if’?

    当我尝试编译代码时 出现错误 else 没有前面的 if Fibonacci series using recursion include
  • 如何找到两个矩形之间距离最近的两点?

    我正在尝试找到能够找到代表两个矩形之间最近距离的两个点的算法 点赞积分C and J形成下图中的最小距离 我试图不在这里重新发明轮子并使用已经经过战斗测试的东西 例如增强 几何 距离 但它只返回距离 而不返回点数 不要让事情变得过于通用 通
  • 使用 out 参数的优点和缺点是什么

    任何人都可以指出 out 参数的优缺点 当首选使用 out 参数而不仅仅是返回值时 输出参数有效地允许您从方法返回多个值 这通常比返回包含多个值的任意结构或元组更可取 有人可能会说 使用 out 参数的函数更容易忽视可能的副作用 因为它偏离
  • S3 签名 URL 在参数通过之前就过期了

    我正在尝试为 S3 存储桶对象生成签名 URL 最大过期时间为 604800 秒或 7 天 然而 经过测试 我发现链接在 24 小时内就会过期 经过一番挖掘 我发现这篇文章声称只有当 aws sdk 获得 IAM 用户授权并且 s3 库使用
  • Python正则表达式找不到子字符串,但它应该找到

    我正在尝试使用 BeautifulSoup 解析 html 来尝试提取网页标题 有时这不起作用 因为网站写得不好 例如Bad End标签 当这不起作用时 我会转到手动正则表达式 我有文字 n n n