正则表达式在 BS4 中不起作用

2024-01-04

我正在尝试从 watchseriesfree.to 网站上的特定文件托管程序中提取一些链接。在下面的情况下，我想要rapidvideo链接，所以我使用正则表达式来过滤掉那些文本包含rapidvideo的标签

import re
import urllib2
from bs4 import BeautifulSoup

def gethtml(link):
    req = urllib2.Request(link, headers={'User-Agent': "Magic Browser"})
    con = urllib2.urlopen(req)
    html = con.read()
    return html


def findLatest():
    url = "https://watchseriesfree.to/serie/Madam-Secretary"
    head = "https://watchseriesfree.to"

    soup = BeautifulSoup(gethtml(url), 'html.parser')
    latep = soup.find("a", title=re.compile('Latest Episode'))

    soup = BeautifulSoup(gethtml(head + latep['href']), 'html.parser')
    firstVod = soup.findAll("tr",text=re.compile('rapidvideo'))

    return firstVod

print(findLatest())

但是，上面的代码返回一个空白列表。我究竟做错了什么？

问题就在这里：

firstVod = soup.findAll("tr",text=re.compile('rapidvideo'))

When BeautifulSoup将应用您的文本正则表达式模式，它将使用.string属性 https://www.crummy.com/software/BeautifulSoup/bs4/doc/#string所有匹配的值tr元素。现在.string有这个重要的警告 -当一个元素有多个子元素时，.string is None:

如果一个标签包含多个内容，那么就不清楚是什么.string应该参考，所以.string被定义为None.

因此，你没有结果。

您可以做的是检查实际文本tr元素通过使用搜索功能 https://www.crummy.com/software/BeautifulSoup/bs4/doc/#a-function并打电话.get_text():

soup.find_all(lambda tag: tag.name == 'tr' and 'rapidvideo' in tag.get_text())

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

正则表达式在 BS4 中不起作用的相关文章

如何使用 pyinstaller 包含文件？

我也使用 tkinter 使用 python 3 7 编写了一个程序由于我使用的是外部图片因此当我将所有内容编译为一个 exe 时我需要包含它们我试过做 add data bg png files 但我仍然收到此错误 tkinter
PyQt：如何通过匿名代理使用网页

这真让我抓狂我想在 QWebPage 中显示一个 url 但我想通过匿名代理来实现 Code setting up the proxy proxy QNetworkProxy proxy setHostName 189 75 98 199
即使页面未完全加载，我们也可以使用 Selenium 获取页面源吗（TimeoutException: Message: timeout）？

即使遇到 TimeoutException Message timeout 也能获取页面源码吗当我调用 driver page source 时有时无法加载整页但我只需要它的部分信息尚未确定所以我只想在任何情况下保存页面是否可以
Jupyter Notebooks 不显示进度条

我正在尝试在 Jupyter 笔记本中显示进度条这是一台新电脑我通常做的事情似乎不起作用 from tqdm import tqdm notebook example iter 1 2 3 4 5 for rec in tqdm not
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
正则表达式获取模式的最后一次出现

我有一个字符串我需要选择最后一次出现的模式该字符串是 1302638400000 0 0 1302724800000 0 610 64999999999998 1302811200000 0 2266 6500000000001 130
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
Python 声音（“铃声”）

我想让一个 python 程序在完成任务时通过发出嘟嘟声来提醒我目前我使用import os然后使用命令行语音程序说进程完成我更愿意它是一个简单的铃我知道有一个函数可以用于Cocoa apps NSBeep 但我认为这与此没有太
检测 IDLE 的存在/如何判断 __file__ 是否未设置

我有一个脚本需要使用 file 所以我了解到 IDLE 没有设置这个有没有办法从我的脚本中检测到 IDLE 的存在 if file not in globals file is not set 如果你想做一些特别的事情 file 未设置
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac
长/宽数据到宽/长

我有一个数据框如下所示 import pandas as pd d decil 1 decil 1 decil 2 decil 2 decil 3 decil 3 decil kommune AA BB AA BB AA BB 2010

随机推荐

WebSphere 反向代理插件 - 跳过域

如果可能的话希望有人能给我一些建议我们的 DMZ 中有一个带有 WebSphere 插件的 Linux 盒子这指向运行 WebSphere Application Server 的 Windows 机器 httpd 配置仅包含默认虚拟主
不同子命名空间中的类都出现在 WSDL 的顶层

我正在创建一个包含各种类的 Web 服务其中许多类可以包含对其他类的引用有时这些子类具有相同的名称例如 Customer 和 Customer 但实际上不同因此我将它们放置在不同的命名空间中例如 MyRoot Sub1 MyR
javascript 中的 Promise 底层是如何工作的？我的 Promise 实现效果不一样

我是 JS 的新手我正在尝试了解 Promise 应该如何在幕后工作这里有一个自定义实现 https github com vividbytes implementing promises blob master src impleme
iOS 创建宏

我有一段经常使用的代码想用它制作一个宏但我不太确定该怎么做这是我想使用的代码 UIImage titleImage UIImage imageNamed myLogo png UIImageView titleImageView UI
当文本长于所需长度时，如何剪切文本并附加省略号？

当我需要优雅地显示太大且不适合我想要的空间的字符串时我正在寻找一种附加省略号的好方法我目前正在做的方式是寻找适合空间的最大字符长度然后将字符串剪切到该长度并附加所有这些都在服务器端伪代码应该是这样的 I define this
向 ASP.NET Core Angular 2 Starter 应用程序添加代码覆盖率

安装 NET Core 2 0 SDK 后我使用 Visual Studio 2017 Update 3 中的 Angular ASP NET Core 2 0 模板启动了一个项目 Karma 中的测试工作正常但我想向 Karma 添加
我在哪里可以获得 PHP / MYSQL 聊天室应用程序 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我的问题是对此问题的详细阐述 PHP MYSQL AJAX 聊天 https stackoverflow com questions 10
如何在没有全局变量的情况下避免lua中的循环依赖？

我正在使用 OpenResty 我的应用程序设置为 app clients photoClient lua init lua auth lua 比方说photoClient同时具有未经身份验证和经过身份验证的端点类似于无需登录即可访问的头
连接到 TFS 服务器会关闭 Git 解决方案

我正在使用带有新的内置 Git 支持的 Visual Studio 2013 我们的项目是在TFS 2010中管理的但由于惰性固执我使用git tfs http git tfs com用于源控制我仍然使用 TFS 问题跟踪器等在
USB 电源是否始终启用？如果没有，如何编写驱动程序

我的设备配有交流电源适配器其连接器是迷你 USB 插头然而除非安装了特定的驱动程序否则该设备似乎无法通过计算机的 USB 端口使用标准 USB 迷你 USB 电缆自行供电该驱动程序仅适用于 Windows 我想通过不同平台上的
ASP.net 在服务引用之间重用类型

我有两个服务引用我通过为每个服务引用导入一个 WSDL 将其导入到我的 asp net 项目中第一个引用是来自我的 Web 服务 Acumatica 的默认引用第二个引用是我在原始 Web 服务中创建的自定义端点服务问题是它们都在
执行终端命令

我想从我的 Objective C 项目运行终端命令当我从终端运行它时我使用 cd Users user Desktop project ant release 现在我在 Objective C 项目中使用了它 NSTask task
Django 根据响应内容测试主页的 html

如果我有这样的测试 def test home page returns correct html self request HttpRequest response home page request expected html rend
Android Gradle 插件 0.7.0：“APK 打包期间出现重复文件”

使用 Android Gradle 插件 0 7 0 和以下内容build gradle buildscript repositories mavenCentral dependencies classpath com android to
在 NumPy 中沿 3D 数组的每个轴应用 DFT 矩阵？

我可以首先获得给定大小的DFT矩阵比如说n by import numpy as np n 64 D np fft fft np eye n FFT 当然只是应用的快速算法D到一个向量 x np random randn n ft1 np
MS Access 偶尔出现“无法打开更多数据库”错误

我有一个带有拆分数据库的 MS Access 2013 应用程序一切似乎都进行得很顺利除了偶尔我会得到Error 3048 Cannot open any more databases 当前端尝试运行涉及从后端提取数据的 vba 代码时
我如何告诉动态插入的

正则表达式在 BS4 中不起作用

正则表达式在 BS4 中不起作用 的相关文章

随机推荐

正则表达式在 BS4 中不起作用的相关文章