Beautiful Soup 并通过 ID 提取 div 及其内容

2023-12-01

soup.find("tagName", { "id" : "articlebody" })

为什么这不返回<div id="articlebody"> ... </div>标签和中间的东西?它什么也不返回。我知道它确实存在,因为我正盯着它

soup.prettify()

soup.find("div", { "id" : "articlebody" })也不起作用。

(EDIT:我发现 BeautifulSoup 没有正确解析我的页面,这可能意味着我尝试解析的页面没有以 SGML 或其他方式正确格式化)


您应该发布示例文档,因为代码工作正常:

>>> import BeautifulSoup
>>> soup = BeautifulSoup.BeautifulSoup('<html><body><div id="articlebody"> ... </div></body></html')
>>> soup.find("div", {"id": "articlebody"})
<div id="articlebody"> ... </div>

Finding <div>在里面<div>s 也有效:

>>> soup = BeautifulSoup.BeautifulSoup('<html><body><div><div id="articlebody"> ... </div></div></body></html')
>>> soup.find("div", {"id": "articlebody"})
<div id="articlebody"> ... </div>
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Beautiful Soup 并通过 ID 提取 div 及其内容 的相关文章

  • Pygame读取MIDI输入

    我参考了Pygame MIDI 文档 https www pygame org docs ref midi html and 这段代码 https stackoverflow com questions 62983509 pygame mi
  • 查找 with: 块中定义的函数

    这是一些代码理查德 琼斯的博客 http www mechanicalcat net richard log Python Something I m working on 3 with gui vertical text gui labe
  • 打印 scrapy 请求的“响应”

    我正在尝试学习 scrapy 在遵循教程的同时 我正在尝试进行细微的调整 我想简单地从请求中获取响应内容 然后我会将响应传递到教程代码中 但我无法发出请求并获取响应内容 建议就好 from scrapy http import Respon
  • 如何自动替换多个文件的文本内容中的字符?

    我有一个文件夹 myfolder包含许多乳胶表 我需要替换其中每个字符 即替换任何minus sign by an en dash 只是为了确定 我们正在替换连字符INSIDE该文件夹中的所有 tex 文件 我不关心 tex 文件名 手动执
  • 在 python-docx 中搜索和替换

    我有一个包含以下字符串的文档 模板 你好 我的名字是鲍勃 鲍勃是一个很好的名字 我想使用 python docx 打开此文档并使用 查找和替换 方法 如果存在 来更改每个字符串 Bob gt Mark 最后 我想生成一个新文档 其中包含字符
  • VSCode pytest 测试发现失败

    Pytest 测试发现失败 用户界面指出 Test discovery error please check the configuration settings for the tests 输出窗口显示 Test Discovery fa
  • 唯一的图像哈希值即使 EXIF 信息更新也不会改变

    我正在寻找一种方法来为 python 和 php 中的图像创建唯一的哈希值 我考虑过对原始文件使用 md5 和 因为它们可以快速生成 但是当我更新 EXIF 信息 有时时区关闭 时 它会更改总和 并且哈希也会更改 有没有其他方法可以为这些文
  • 反加入熊猫

    我有两个表 我想附加它们 以便仅保留表 A 中的所有数据 并且仅在其键唯一时添加表 B 中的数据 键值在表 A 和 B 中是唯一的 但在某些情况下键将出现在表 A 和 B 中 我认为执行此操作的方法将涉及某种过滤联接 反联接 以获取表 B
  • Pandas:根据列名进行列的成对乘法

    我有以下数据框 gt gt gt df pd DataFrame ap1 X 1 2 3 4 as1 X 1 2 3 4 ap2 X 2 2 2 2 as2 X 3 3 3 3 gt gt gt df ap1 X as1 X ap2 X a
  • Python While 循环,and (&) 运算符不起作用

    我正在努力寻找最大公因数 我写了一个糟糕的 运算密集型 算法 它将较低的值减一 使用 检查它是否均匀地划分了分子和分母 如果是 则退出程序 但是 我的 while 循环没有使用 and 运算符 因此一旦分子可整除 它就会停止 即使它不是正确
  • Python unicode 字符代码?

    有没有办法将 Unicode 字符 插入 Python 3 中的字符串 例如 gt gt gt import unicode gt gt gt string This is a full block s unicode charcode U
  • 使用循环将对象添加到列表(python)

    我正在尝试使用 while 循环将对象添加到列表中 基本上这就是我想做的 class x pass choice raw input pick what you want to do while choice 0 if choice 1 E
  • urllib2.urlopen() 是否实际获取页面?

    当我使用 urllib2 urlopen 时 我在考虑它只是为了读取标题还是实际上带回整个网页 IE 是否真的通过 urlopen 调用或 read 调用获取 HTML 页面 handle urllib2 urlopen url html
  • 负整数的Python表示

    gt gt gt x 4 gt gt gt print b format x x 4 100 gt gt gt mask 0xFFFFFFFF gt gt gt print b format x mask x mask 4294967292
  • python中的sys.stdin.fileno()是什么

    如果这是非常基本的或之前已经问过的 我很抱歉 我用谷歌搜索但找不到简单且令人满意的解释 我想知道什么sys stdin fileno is 我在代码中看到了它 但不明白它的作用 这是实际的代码块 fileno sys stdin filen
  • Python 矩阵每一行的总和

    lista 1 2 3 4 5 6 7 8 9 print lista def filas lista res for elemento in lista x sum lista elemento res append x print re
  • Python模块单元测试的最佳文件结构组织?

    遗憾的是 我发现有太多方法可以在 Python 中保存单元测试 而且它们通常没有很好的文档记录 我正在寻找一种 终极 结构 它可以满足以下大部分要求 be discoverable by test frameworks including
  • CSV 在列中查找最大值并附加新数据

    大约两个小时前 我问了一个关于从网站读取和写入数据的问题 从那时起 我花了最后两个小时试图找到一种方法来从输出的 A 列读取最大日期值 将该值与刷新的网站数据进行比较 并将任何新数据附加到 csv 文件而不覆盖旧的或创建重复项 目前 100
  • Pandas 在特定列将数据帧拆分为两个数据帧

    I have pandas我组成的 DataFrameconcat 一行由 96 个值组成 我想将 DataFrame 从值 72 中分离出来 这样 一行的前 72 个值存储在 Dataframe1 中 接下来的 24 个值存储在 Data
  • 使用 numpy 加速 for 循环

    下一个 for 循环如何使用 numpy 获得加速 我想这里可以使用一些奇特的索引技巧 但我不知道是哪一个 这里可以使用 einsum 吗 a 0 for i in range len b a numpy mean C d e f b i

随机推荐

  • 如何使用 LINQ 针对 1 个表返回父级和子级

    一直在寻找解决方案 但到目前为止还没有找到 我相当确定通过一个 linq 调用就可以实现这一点 但很难解决 我有以下数据结构 Id ParentId Name ValidFlag 1 NULL parent 1 1 2 NULL paren
  • 检查 Console.ReadLine()!=null

    我正在为我的应用程序制作一个 CMD 并且发现当我检查 Console ReadLine null 时遇到了麻烦 string input Console ReadLine if input null SomeFunction input
  • CSS 多个多列 div

    我有一堆想要显示的项目 文本 图像 混合内容等 用户可以定义该项目出现在哪一行和哪一列 例如 在第 1 行中 可能有两个项目 列 都是图像 在第二行中 可能有三个项目 列 其中一个带有图像 另外两个为纯文本 哦 用户可以指定任何特定列 图像
  • 如何清除JavaScript中的敏感内存?

    我有一个登录表单 供用户输入他 她的密码 该表单绑定到 AngularJS 模型 假设在相应的控制器中 用户给出的密码可通过 scope password 实际的登录过程由以下函数调用处理 login scope email scope p
  • Metro 应用程序中的 FTP

    我正在尝试在 Metro 和 C 中创建 FTP 应用程序 但 System Net 中的 FTP 类已被删除 现在我不知道如何执行此操作 我研究过BackgroundUploader 但不明白如何恢复目录结构等 有没有人有这样做的经验 我
  • 无法在 Javascript 中进行递归调用

    当我尝试运行这个程序时 我在 Firefox 中收到一条错误消息 moveDate 在第 41 行未定义 参考行window setTimeout moveDate 100 有什么想法吗 我认为递归函数能够定义自己 然后调用自己 funct
  • 自定义位置非自定义控制 Google 地图 (v3 API)

    我希望能够调整地图类型控件的位置 我将其设置为右上角 但我需要将其缩小约 50 像素 我读到自定义控件可以填充 DIV 那么非自定义控件呢 我可以延长控制范围吗 下面是 API 为该控件生成的 HTML div class gmnoprin
  • Android 和布局

    我需要在视图中找到文本 文本 更多文本 应位于底部 center horizo ntal 文本 短文本 应位于右对齐位置 但距屏幕顶部约 10 文本 x x x x 应与屏幕中心对齐 第一四分之一的右 下对齐 文本 一些长文本 应该与屏幕第
  • 是否可以在 JAX-RPC java 客户端中访问原始 SOA/XML 消息?

    我正在尝试通过 JAX RPC java 客户端访问 XML 响应 我一直在研究 Axis 自定义处理程序 但看起来它们仅在服务端有用 下面的一些代码将返回 XML 响应有效负载 您可以直接从 AXIS Stub 类获取它 也可以从将其写入
  • 如何在Chrome扩展程序列表中设置宣传图片? [关闭]

    Closed 这个问题是无关 目前不接受答案 我可以看到很多 Chrome 扩展程序在列表中都有宣传图片 以 Gmail 为例 我找不到在开发人员仪表板中设置此图像的位置 如何 参观开发者仪表板并单击编辑链接 向下滚动 屏幕截图部分下方 然
  • sed 移动一行

    我只需要在 sed 中移动一行 我可以选择该行 sed i 7s 我需要将第 7 行向上移动 2 行 这样它将成为第 5 行 如果没有复杂的脚本 我在互联网上找不到任何东西可以做到这一点 我找不到将特定行移动特定次数的简单解决方案 seq
  • 从 ASP.NET C# 应用程序使用 PHP Web 服务(SOAP、WSDL) - 数组问题

    我有一个 Web 服务 用 PHP 定义 WSDL 和实现 这一项比较简单 重要的位定义如下
  • 硫化 Angular.dart?

    有硫化就像 Polymer dart 工具 由 Polymer Transformer 完成 一样 它可以很好地将所有导入的组件内联起来 并通过减少到服务器的往返次数来轻松为应用程序提供服务 有没有像 vulcanize 这样的工具可以用于
  • 如何在转发器内创建嵌套链接按钮?

    我需要在 asp net 页面中创建一个嵌套的链接按钮 看起来像树视图 但都是链接按钮 示例如下所示 ParentLinkButton1 ChildLinkButton1 ChildLinkButton2 ChildLinkButton3
  • 如何将 Visual Studio 2010 与 Visual C++ 2008 编译器一起使用?

    我想使用 Visual Studio 2010 和 9 0 编译器 我该怎么做 我需要这个以便我可以使用 DarkGDK 但是我不想切换 IDE 就在您的项目属性中 平台工具集 默认为 v100 只需将其更改为 v90 即可
  • RDLC 表达式导致#error

    我有两个小数字段 利润和收入 它们显示在 Tablix 控件中 每个控件都有自己的列 在第三列中 我想将利润除以收入 当这些字段中的任何一个为零时 结果是 error 我猜测这是由于除以零造成的 我想出了以下表达式来解决这个问题 iif C
  • R闪亮:如何在数据框中嵌入sliderInputs/selectInputs和radioButtons? (错误:无法将“shiny.tag”类强制到 data.frame)

    我需要在矩阵中嵌入不同类型的输入 它适用于 textInput 和 numericInput 但我找不到 selectInput sliderInput 和 radioButton 的方法 我可以在 HTML 中指定 textInput 和
  • C++中字符的指针

    根据书本 第一行 cout 应该打印我所在位置的地址字符变量 b被存储 这似乎是这种情况整型变量a也 但是第一个 cout 语句打印出一个奇怪的结果 dh 而第二条语句正确打印十六进制值 ox23fd68 为什么会发生这种情况 includ
  • 缺少必需的参数,包括无效的参数值,使用 LinkedIn API 多次参数

    我尝试使用 OAuth2 使用 LinkedIn API 进行身份验证 代码 if isset GET code AND isset GET state code GET code state GET state curl request
  • Beautiful Soup 并通过 ID 提取 div 及其内容

    soup find tagName id articlebody 为什么这不返回 div div 标签和中间的东西 它什么也不返回 我知道它确实存在 因为我正盯着它 soup prettify soup find div id articl