如何提取div标签中的强元素

2024-02-28

我是网络抓取新手。我正在使用 Python 来抓取数据。有人可以帮助我如何从以下位置提取数据：

<div class="dept"><strong>LENGTH:</strong> 15 credits</div>

我的输出应该是 LENGTH：15 credits

这是我的代码：

from urllib.request import urlopen
from bs4 import BeautifulSoup 

length=bsObj.findAll("strong")
for leng in length:
    print(leng.text,leng.next_sibling)

Output:

DELIVERY:  Campus
LENGTH:  2 years
OFFERED BY:  Olin Business School

但我只想有长度。

网站：http://www.mastersindatascience.org/specialties/business-analytics/ http://www.mastersindatascience.org/specialties/business-analytics/

您应该稍微改进您的代码以找到strong元素by text:

soup.find("strong", text="LENGTH:").next_sibling

或者，对于多个长度：

for length in soup.find_all("strong", text="LENGTH:"):
    print(length.next_sibling.strip())

Demo:

>>> import requests
>>> from bs4 import BeautifulSoup
>>>
>>> url = "http://www.mastersindatascience.org/specialties/business-analytics/"
>>> response = requests.get(url)
>>> soup = BeautifulSoup(response.content, "html.parser")
>>> for length in soup.find_all("strong", text="LENGTH:"):
...     print(length.next_sibling.strip())
... 
33 credit hours
15 months
48 Credits
...
12 months
1 year

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

beautifulsoup

如何提取div标签中的强元素的相关文章

检测到通过 ChromeDriver 启动的 Chrome 浏览器

我正在尝试在 python 中使用 selenium chromedriver 来访问 www mouser co uk 网站然而从第一次拍摄开始它就被检测为机器人有人对此有解释吗此后我使用的代码 options Options
如何使用 BeautifulSoup 从表中选择特定行？

So I have a question related to a previous question but I realized I needed to go one level more to get an 11 digit NDC
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
Python tkinter.filedialog Askfolder 干扰 clr

我主要在 Spyder 中工作构建需要弹出文件夹或文件浏览窗口的脚本下面的代码在spyder中完美运行在 Pycharm 中 askopenfilename工作良好同时askdirectory什么都不做卡住了但是如果在调试模式
Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
Pandas：如何将数据框插入 Clickhouse

我正在尝试将 Pandas 数据框插入 Clickhouse 这是我的代码 import pandas import sqlalchemy as sa uri clickhouse default localhost default ch
Alembic：如何迁移模型中的自定义类型？

My User模型是 class User UserMixin db Model tablename users noinspection PyShadowingBuiltins uuid Column uuid GUID default
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
如何在 Django 中使用基于类的视图创建注册视图？

当我开始使用 Django 时我几乎使用 FBV 基于函数的视图来处理所有事情包括注册新用户但当我更深入地研究项目时我意识到基于类的视图通常更适合大型项目因为它们更干净且可维护但这并不是说 FBV 不是无论如何我将整个项目
Python、subprocess、call()、check_call 和 returncode 来查找命令是否存在

我已经弄清楚如何使用 call 让我的 python 脚本运行命令 import subprocess mycommandline lumberjack sleep all night work all day subprocess cal
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
Werkzeug 中的线程和本地代理。用法

首先我想确保我正确理解了功能的分配分配本地代理功能以通过线程内的模块包共享变量对象我对吗其次用法对我来说仍然不清楚也许是因为我误解了作业我用烧瓶如果我有两个或更多模块 A B 我想将对象C从模块A导入到模块B 但我
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
使用 Python 将对象列表转为 JSON

我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du

随机推荐

VBA/VB6 中的 NaN 测试

我使用 VBA 将字节数组中的 8 字节浮点数加载到 Double 中有些数字将为 IEEE 754 NaN 即如果您尝试使用 Debug Print 打印它您将看到 1 QNAN 我的问题是如何测试 Double 中包含的数据是否
Python pandas 将带时区的 unix 时间戳转换为日期时间

我有一个数据框 df pd DataFrame unix utc ts 1503007204222 1503007210206 1503007215121 1503007220475 tz 0000 0100 CEST EEST 我想将 u
multipart/form-data，字段的默认字符集是什么？

如果没有给出字符集应该使用什么默认编码来解码多部分表单数据 RFC2388 规定 4 5 表单数据中文本的字符集多部分表单数据的每个部分都应该有一个内容类型如果字段元素是文本则字符集文本参数表示使用的字符编码例如带有一个
如何在 Angular2 中对复选框进行单元测试

我有一个用 Angular2 编写的复选框示例代码
运行时：无法创建新的操作系统线程

在54核机器上我使用os Exec 生成数百个客户端进程并使用大量的 goroutine 来管理它们有时但并非总是我会得到这样的信息 runtime failed to create new OS thread have 1306
给定一个不带空格的短语，添加空格以构成正确的句子

这就是我的想法但它是 O n 2 例如输入是 Thisisawesome 我们需要检查添加当前字符是否会使旧的搜索结果变得更长且有意义但为了看到我们需要备份的地方我们必须一直遍历到起点例如 awe 和 some 是合适的词但 a
ReferenceError：WScript 未定义

我希望使用 Javascript 执行以下操作这是我的完整 JS 文件 test js var xo WScript CreateObject Msxml2 XMLHTTP var xa WScript CreateObject ADOD
我如何根据键值将 python dict 排序到嵌套列表

我有一个嵌套字典 d records name abhi age 23 dept cse name anu age 20 dept ece name ammu age 25 dept cse name anju age 26 dept ec
MySQL 对索引 TIMESTAMP 列使用文件排序

我有一个拒绝使用索引的表它总是使用文件排序该表是 CREATE TABLE article ID int 11 NOT NULL AUTO INCREMENT Category ID int 11 DEFAULT NULL Subcat
Node.js：req.params 与 req.body

我一直在将几个不同教程中的代码拼凑在一起使用 Node express Angular 和 mongodb 使用 MEAN 堆栈构建一个基本的待办事项应用程序一篇教程介绍了为 GET POST 和 DELETE 操作创建 api 但忽略
如何使用 PhpWord 读取 Doc 文件？

最近我下载了从github下载的php word 但我不知道如何通过这个读取word文件该库中没有任何帮助我看到一个与 php excel b 相同的文件但不知道如何使用以下文件 simple01 example php
Keras：具有多个参数的 Lambda 层函数

我正在尝试写一个LambdaKeras 中调用函数的层connection 运行一个循环for i in range 0 k where k作为函数的输入 connection x k 现在当我尝试调用功能 API 中的函数时我尝试使用
在 javascript 中创建可调整大小/可拖动/旋转视图

我一直在尝试用 Javascript 创建这样的东西正如您所看到的容器可以被拖动旋转和调整大小大多数事情都工作正常但是旋转容器时调整容器大小会产生奇怪的输出我预计这会发生相反我得到这个这是完整的代码 https jsfid
Swift 3 错误：“另请参阅”标注未显示

我刚刚将我的项目迁移到 Swift 3 发现快速帮助中的另请参阅标注没有显示在 Swift 的早期版本中一切都运行得很好下面是我的代码 Adds a See also callout in the Quick Help for a
无表单方法的 POST (PHP)

有没有什么方法可以使用 POST 方法而不使用表单将内容从一个页面传递到另一个页面就像在 get 中一样你可以只附加一个与您想发送的任何内容一起你能为帖子做点什么吗我还阅读了另一篇文章其中提到要使用会话但会话会以 cookie
UITableView 使用 UIRefreshControl 拖动距离

我在 UITableView 上实现 UIRefreshControl 时遇到一些麻烦一切工作正常除了我必须滚动屏幕的 80 之类的内容才能触发 UIRefreshControl 有时我什至无法触发它因为屏幕底部有一个选项卡栏当手指
window.location.assign（“链接”），不起作用

这是 JavaScript 代码
如何使用 htaccess 分割 URL

例如 google com en game game1 html应该google com index php p1 en p2 game p3 game1 html 我怎样才能分割URL并发送index php 部分仅当查询参数具有固定长
:host-context 在 Lit-Element Web 组件中未按预期工作

我有两个 Lit element Web 组件一个是units list 其中包含许多units list item元素这units list item元素有两种不同的显示模式紧凑和详细由于列表元素支持无限滚动因此可能包含数千个单
如何提取div标签中的强元素

我是网络抓取新手我正在使用 Python 来抓取数据有人可以帮助我如何从以下位置提取数据 div class dept strong LENGTH strong 15 credits div 我的输出应该是 LENGTH 15 cred

如何提取div标签中的强元素

如何提取div标签中的强元素 的相关文章

随机推荐

热门标签

如何提取div标签中的强元素的相关文章