BeautifulSoup：如何显示不显示的div的内部？

2023-12-23

我是 BeautifulSoup 的新手，我有一些我不明白的问题，我认为这个问题可能已经得到解答，但我找到的答案在这种情况下都没有帮助我。

我需要访问 div 的内部来检索网站的词汇表条目，但是该 div 的内部似乎根本“不显示”在 BeautifulSoup 中。你可以帮帮我吗？

这是网站上的 html：

<!DOCTYPE html>
<html lang="en-US" style="margin-top: 0px !important;">
<head>...</head>
<body>
<header>...</header>
<section id="glossary" class="search-off">
    <dl class="title">
        <dt>Glossary</dt>
    </dl>
    <div class="content">
        <aside id="glossary-aside">
            <div></div>
            <ul></ul>
        </aside>
        <div id="glossary-list" class="list">
          <dl data-id="2103">...</dl>
          <dl data-id="1105">
            <dt>ABV (Alcohol by volume)</dt>
            <dd>
              <p style="margin-bottom: 0cm; text-align: justify;"><span style="font-family: Arial Cyr,sans-serif;"><span style="font-size: x-small;"><span style="font-size: small;"><span style="font-size: medium;">Alcohol by volume (ABV) is the measure of an alcoholic beverage’s alcohol content. Wines may have alcohol content from 4% ABV to 18% ABV; however, wines’ typical alcohol content ranges from 12.5% to 14.5% ABV. You can find a particular wine’s alcohol content by checking the label.</span></span></span></span><span style="font-size: medium;">&nbsp;</span></p>
            </dd>
          </dl>
          <dl data-id="1106">...</dl>
          <dl data-id="1213">...</dl>
          <dl data-id="2490">...</dl>
          <dl data-id="11705">...</dl>
          <dl data-id="1782">...</dl>
        </div>
        <div id="glossary-single" class="list">...</div>
    </div>
    <div class="s_content">
        <div id="glossary-s_list" class="list"></div>
    </div>
</section>
<footer></footer>
</body>
</html>

我需要访问不同的<dl>中的标签<div id="glossary-list" class="list">.

我的代码现在如下：

url_winevibe = requests.get("http://winevibe.com/glossary")
soup = BeautifulSoup(html, "lxml")
ct = url_winevibe.find("div", {"id":"glossary-list"}).findAll("dl")

我尝试了各种方法，包括获取后代和孩子，但我得到的只是一个空列表。

如果我尝试ct = soup.find("div", {"id":"glossary-list"})并打印它，我得到：<div class="list" id="glossary-list"></div>。在我看来，div 的内部被某种方式阻塞了，但我不太确定。

有人知道如何访问它吗？

第一个解决方案url基于我对数据加载位置的研究！我确实看到它的负载是通过XHR来自不同的url哪里的JavaScript呈现：

import requests
import json

r = requests.get('http://winevibe.com/wp-json/glossary/key/?l=en').json()
hoks = json.loads(r)
for item in hoks:
  print(item['key'])

第二种解决方案：

from selenium import webdriver
from bs4 import BeautifulSoup
import time

browser = webdriver.Firefox()
url = 'http://winevibe.com/glossary/'
browser.get(url)
time.sleep(20)  # wait 20 seconds for the site to load.
html = browser.page_source
soup = BeautifulSoup(html, features='html.parser')
for item in soup.findAll('div', attrs={'id': 'glossary-list'}):
    for dt in item.findAll('dt'):
        print(dt.text)

您可以使用browser.close()关闭浏览器

Output:

这是最终的代码，它将通过聊天处理所有用户请求：

import requests
import json

r = requests.get('http://winevibe.com/wp-json/glossary/key/?l=en').json()
data = json.loads(r)
result = ([(item['key'], item['id']) for item in data])
text = []
for item in result:
    try:
        r = requests.get(
            f"http://winevibe.com/wp-json/glossary/text/?id={item[1]}").json()
        data = json.loads(r)
        print(f"Getting Text For: {item[0]}")
        text.append(data[0]['text'])
    except KeyboardInterrupt:
        print('Good Bye')
        break

with open('result.txt', 'w+') as f:
    for a, b in zip(result, text):
        lines = ', '.join([a[0], b.replace('\n', '')]) + '\n'
        f.write(lines)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

BeautifulSoup：如何显示不显示的div的内部？的相关文章

使用 Python Multiprocessing Pool.map() 的问题在 Python 3.7.2 中变得棘手，但在 3.6.2 中很快完成

我刚刚将Python从3 6 2 gt 3 7 2并且遇到了问题multiprocessing图书馆我在 Django 应用程序中使用它该应用程序在工作函数中使用 Django 特定的函数见下文在我的代码中我有以下内容 impor
将 JSON 发布到 Python CGI

我已经安装了 Apache2 并且 Python 可以工作但我有一个问题我有两页一个是 Python 页面另一个是带有 JQuery 的 Html 页面有人可以告诉我如何让我的 ajax 帖子正常工作吗
为什么 Python 在导入脚本时只保存脚本的字节码？

既然执行Python字节码会比运行原始源代码更快因为Python不需要重新编译为什么Python在导入脚本时只保存编译后的字节码呢为每个执行的脚本保存 pyc 文件不是更好吗无论如何 Python 解释器的启动时间都需要时间即使您
如何在 Debian 上的 virtualenv 中安装 numpy？

注参见这另一篇文章 https stackoverflow com questions 6442754 how to install h5py numpylibhdf5 as non root on a debian linux syst
如何（重新）命名 pandas 数据框中的空列标题而不导出到 csv

我有一个熊猫数据框df1带有一个索引列和一系列未命名的值我想为未命名的系列指定一个名称到目前为止我知道的唯一方法是导出到df1 csv using df1 to csv df1 csv header Signal 然后使用以下命令重新
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
通过 python 中的另外两个修改数组[重复]

这个问题在这里已经有答案了假设我们有三个一维数组 A 长度为 5 B 长度相同示例中为5 C 更长比如长度为 100 C最初用零填充 A给出索引C应更改的元素它们可能会重复以及B给出应添加到初始零的值C 例如如果A 1 3 3
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
将 Python Pandas DataFrame 写入 Word 文档

我正在努力创建一个使用 Pandas DataFrames 的 Python 生成的报告目前我正在使用DataFrame to string 方法但是这会作为字符串写入文件有没有办法让我实现这一目标同时将其保留为表格以便我可以使
使用pathlib获取主目录

翻看新的pathlib在 Python 3 4 中我注意到没有任何简单的方法来获取用户的主目录我能想到的获取用户主目录的唯一方法是使用旧的os path像这样的库 import pathlib from os import path p
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
Django 多对多关系（类别）

我的目标是向我的 Post 模型添加类别我希望以后能够按不同类别有时是多个类别查询所有帖子模型 py class Category models Model categories 1 red 2 blue 3 black title
查找与另一列 Pandas 中的唯一值关联的列中的值的交集

如果我有一个像这样的数据框非常小的例子 col1 col2 0 a 1 1 a 2 2 b 1 3 b 2 4 b 4 5 c 1 6 c 2 7 c 3 我想要所有的交集col2当价值观与其独特性相关时col1值因此在这种情况下交集
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
Python：在字典中查找具有唯一值的键？

我收到一个字典作为输入并且想要返回一个键列表其中字典值在该字典的范围内是唯一的我将用一个例子来澄清假设我的输入是字典 a 构造如下 a dict a cat 1 a fish 1 a dog 2 lt unique a bat 3
是否可以使用 Anaconda 包作为 Google Cloud Functions 的依赖项？

我正在使用 Python 运行时编写 Google Cloud Function 我需要包含一些无法使用的依赖项pip 如文档中所述here https cloud google com functions docs writing spe
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
为boost python编译的.so找不到模块

我正在尝试将 C 代码包装到 python 中只需一个类即可导出两个函数我编译为map so 当我尝试时import map得到像噪音一样的错误 Traceback most recent call last File
MoviePY 无法在 Windows 上检测 ImageMagick 二进制文件

我刚买了一台新笔记本电脑想要设置MoviePY在那新的Windows 64x Python3 7 0 机器我对所有内容都进行了三次检查但是当涉及到我的代码的文本部分时它向我抛出了这个错误 OSError MoviePy Error
Biopython 可以执行 Seq.find() 来解释歧义代码吗

我希望能够在 Seq 对象中搜索考虑歧义代码的子序列 Seq 对象例如以下内容应该是正确的 from Bio Seq import Seq from Bio Alphabet IUPAC import IUPACAmbiguousDNA

随机推荐

耦合常微分方程的龙格库塔

我正在 Octave 中构建一个函数来解决N耦合常微分方程类型 dx dt F x y z t dy dt G x y z t dz dt H x y z t 使用这三种方法中的任何一种 Euler Heun 和 Runge Kutta 4
如何在电子表格的 Google Apps 脚本中使用数组作为自定义函数的参数

我正在尝试使用脚本编辑器在我的谷歌电子表格中创建自定义函数我似乎无法允许用户为函数提供一个数组作为参数当我像这样进行硬编码时我的脚本可以工作 var values SpreadsheetApp getActiveSheet getRa
Plotly：如何自定义图例？

我已经自定义了使用plotly绘制的数据点的颜色数据点的颜色是根据与其关联的标签指定的不过设置之后legend True所有三种颜色在字典中定义都不会显示在图中我想 a rgb 147 112 219 the actual col
iOS PhoneGap 构建失败

我是新来的PhoneGap适用于 iOS 和 Xcode 我的应用程序在 Android 手机上运行良好但遇到了问题我能够在 iOS 模拟器中构建并运行该应用程序但是当我将其存档以在设备上进行测试时出现以下错误我到处搜索但找不到有
JQuery Mobile，整个网站的一个页脚片段

I m not询问如何获得固定页脚我有一个多页和单页的结构我想知道如何在整个网站中仅使用一个 html 片段我真的在寻找一种解决方案因为我想仅在一个位置编辑页脚并在所有页面中查看修改 Thanks 编辑我正在开发一个用 Phone
为什么 VisualVM 探查器中没有显示所有方法？

我在用VisualVM看看我的应用程序在哪里慢但它并没有显示所有方法可能没有显示所有延迟应用程序的方法我有一个实时应用程序声音处理并且有几百微秒的时间不足有没有可能VisualVM隐藏本身速度很快的方法 UPDATE 1 我通过
使用 PK 反馈循环复制行

鉴于以下情况表1 Id Field1 Field2 NULL 1 2 NULL 3 4 我想将 Field1 和 Field2 的值插入到另一个表 Table2 中 Table2 有一个自增整数主键我想从表 2 中检索新的 PK 并更新
由于访问控制列表，SSRS 401.3 错误访问被拒绝

卸载 Oracle 10 客户端安全补丁后不知道是什么触发了它我在用户访问我们的 SSRS 测试服务器时遇到了问题首先发生的事情是 SQL 服务和 SSRS 服务拒绝在 NT AUTHORITY SYSTEM 下启动当我将其更改为
无法使用 dotnet CLI 和 nuspec 文件打包 NuGet 包

我有几个项目正在从 NET Framework 4 7 迁移到 NET Standard 2 0 结果我正在尝试使用dotnet pack命令来创建我的 NuGet 包同时使用我的nuspec带有令牌的文件我有几个自定义构建脚本可以为
匹配引用的 csv 中的未转义引号

我查看了几篇具有类似标题的 Stack Overflow 帖子但没有一个已接受的答案对我有用我有一个 CSV 文件其中数据的每个单元格均由逗号分隔并被引用包括数字每行以换行符结束一些文本单元格中有引号我想使用正则表达式
ngrx 订阅存储不会在状态更改时更新 Angular 5

我正在构建一个应用程序它将城市名称发送到 api 端点并返回该城市的天气它使用两个操作一个将更新城市使用名称作为有效负载第二个操作加载返回的新数组以更新状态该效果使用 switchMap 映射 api 调用然后返回结果用于显示
jsf隐式对象cc和组件之间的区别

也许这是一个愚蠢的问题但我用 cc 引用复合组件例如 cc attrs randomAttr 但我也看到了 component 隐式对象我使用它是因为我被告知要这样做但我不太明白它的用途谁能解释一下吗 cc指评估时正在处理的顶级复
在没有内置函数的情况下按降序排列文件中的元素

我按照冒泡排序重新编写了程序 def main try array file open input Please enter the name of the file you wish to open A file read split f
SASS 和 SCSS 变量名称的合法字符

SCSS 变量名称中可以使用哪些字符如果你查看源代码SASS 词法分析器 https github com nex3 sass blob stable lib sass script lexer rb 你会看到的 A hash of re
有没有办法检测 NaN 和 -NaN？

我想将 lua 数字保存到字符串和句柄中NaN大小写正确检测任何 NaN 都很容易 x x 然而我发现只有一种检测方法是NaN or NaN是使用tostring x nan 有更好的方法吗代替tostring x nan 不方便携带
Swift Calendar.当前内存泄漏？

我在应用程序中遇到了内存问题我已经能够将其分解为 NSCalendar 一个简单的视图控制器如下所示 class ViewController UIViewController override func viewDidLoad supe
使用输入元素上的修饰键触发单击事件

我正在为某些功能编写测试其中涉及用户按住 Shift 键并单击复选框我在用着 input trigger Event click shiftKey true 来模拟那个但是当事件监听器被调用时 event shiftKey财产总是被报
如何使用 javascript (jquery) 将整数值添加到返回字符串的值？

我有一个简单的 html 块例如 span 8 span 我尝试使用 jquery 将 1 添加到值 8 var currentValue replies text var newValue currentValue 1 replies
Win32 命名管道和消息大小限制 - 旧的 64K 限制是否仍然适用？

Win32 过去对消息模式管道的消息大小限制为 64K 正如 KB 文章的残余所证明的那样Q119218 PRB 命名管道 Write 限制为 64K https support microsoft com en us kb 119218
BeautifulSoup：如何显示不显示的div的内部？

我是 BeautifulSoup 的新手我有一些我不明白的问题我认为这个问题可能已经得到解答但我找到的答案在这种情况下都没有帮助我我需要访问 div 的内部来检索网站的词汇表条目但是该 div 的内部似乎根本不显示在 Beau

BeautifulSoup：如何显示不显示的div的内部？

BeautifulSoup：如何显示不显示的div的内部？ 的相关文章

随机推荐

热门标签

BeautifulSoup：如何显示不显示的div的内部？的相关文章