beautifulsoup find_all 错误？

2024-06-25

现在我正在使用 beautiful soup 来解析 html 页面。但有时我通过find_all得到的结果小于页数。例如这个页面有 18 个标题跨度。但是当我使用以下代码时，它只有两个！谁能告诉我为什么。先感谢您！

soup = BeautifulSoup(page, 'html.parser')
hrefDivList = soup.find_all("span", class_ = "headline")
#print hrefDivList
print len(hrefDivList)

您可以尝试为 Beautifulsoup 使用不同的解析器。

import requests
from bs4 import BeautifulSoup

url = "<your url>"
r = requests.get(url)

soup = BeautifulSoup(r.content, 'lxml')
hrefDivList = soup.find_all("span", attrs={"class": "headline"})
print len(hrefDivList)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

beautifulsoup

findAll

beautifulsoup find_all 错误？的相关文章

如何删除 BeautifulSoup 中的空格

我正在使用 BeautifulSoup 解析一堆 HTML 除了一个小问题外一切进展顺利我想将输出保存到单行字符串中以下内容作为我当前的输出 li span class plaincharacterwrap break Zazzafo
使用 Python 抓取维基百科数据

我正在尝试从以下内容中检索 3 列 NFL 球队球员姓名大学球队维基百科页面 http en wikipedia org wiki 2008 NFL draft 我是 python 新手一直在尝试使用 beautifulsoup 来
Python获取网站的所有内容到html文件

请有人帮忙我想将所有内容从 url 转移到 html 文件有人可以帮助我吗我也必须使用用户代理欢迎来到SO 当您提出问题时您需要提交您尝试过的代码您可以在这里学习如何正确提问 https stackoverflow com he
用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？

最近我一直在用 python 开发一个项目其中涉及抓取一些网站的一些代理我遇到的问题是当我尝试抓取某个知名代理站点时当我要求 Beautiful Soup 查找 IP 在代理表中的位置时它并没有按照我的预期执行操作我将尝试查找每
ModuleNotFoundError：没有名为“bs4”的模块

当我尝试像这样导入 BeautifulSoup 时 from bs4 import BeautifulSoup 当我运行我的代码时我收到此错误消息 ModuleNotFoundError No module named bs4 如果有人知
加速美丽汤

我正在运行本课程网站的抓取工具我想知道将页面放入 beautifulsoup 后是否有更快的方法来抓取页面花费的时间比我预期的要长得多 Tips from selenium import webdriver from selenium
Beautifulsoup findAll 是如何工作的

我注意到一些奇怪的行为findAll的方法 gt gt gt htmls p class slytherin p p class gryffindor p gt gt gt soup BeautifulSoup htmls html par
Selenium/BeautifulSoup - WebScrape 该字段

我的代码运行良好并打印除带有下拉列表的行之外的所有行的标题例如如果单击第 4 行则会出现一个下拉菜单我实现了一个尝试理论上会单击下拉菜单然后拉出标题但是当我执行 click 并尝试打印时对于具有这些下拉列表的行它们不
在搜索栏中输入查询并抓取结果

我有一个数据库其中包含不同书籍的 ISBN 号我使用 Python 和 Beautifulsoup 收集了它们接下来我想为书籍添加类别书籍类别有一个标准一个网站叫https www bol com nl https www bol
BeautifulSoup - 抓取论坛页面

我正在尝试抓取论坛讨论并将其导出为 csv 文件其中包含线程标题用户和帖子等行其中后者是每个人的实际论坛帖子我是 Python 和 BeautifulSoup 的初学者所以我对此感到非常困难我当前的问题是 csv 文件中
如何使用 Python 抓取网站中嵌入的表格

这是我正在尝试抓取的网站 https clinicaltrials gov ct2 results term wound care https clinicaltrials gov ct2 results term wound care 具
为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

尝试抓取条目页面转换为制表符分隔格式主要拉出序列和 UniProt 登录号当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
导入错误：Mac 上没有名为 bs4 的模块

今晚我坐下来决定学习如何使用 python 受到这篇网页抓取文章的启发 cam ly danesblog 2011 01 craigslist arbitage 在完成教程后我 1 下载并安装python http www python o
Beautiful Soup 获取动态表数据

我有以下代码 url https www basketball reference com leagues NBA 2017 standings html all expanded standings html urlopen url so
美丽的汤刮 - 登录凭据不起作用

尝试使用登录凭据抓取页面 payload email gmail com password urls login url https www spotrac com signin url https www spotrac com nba
python中多个页面的数据串联时出现错误

我在连接多个页面的数据并将其导出到单个 CSV 文件中时遇到错误根据我的代码数据导出到第 10 页但在第 10 页之后它正在工作 import urllib request from bs4 import BeautifulSoup
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
使用 Beautifulsoup 抓取多个网站

我想知道为什么列出all links and all titles不想接收列表中的任何记录titles and links 我也尝试过 extend 方法但没有帮助 import requests from bs4 import Beau
如何阅读网站内容？

我是使用 python 2 7 的网络爬虫的新手一背景现在我想收集有用的数据AQICN org http aqicn org city shenyang usconsulate 这是一个很棒的网站提供世界各地的空气质量数据我想用
将表抓取到列表中

我正在尝试从网页中提取表格我已经设法将表中的所有数据放入列表中然而所有表数据都被放入一个列表元素中我需要帮助将干净数据即字符串没有所有 HTML 包装从表的行获取到它们自己的列表元素中所以而不是 list tr th a

随机推荐

SQLPlus 中的运行循环

我制作了一个 bash 脚本它通过 SQLPlus 连接到数据库并运行一个包含 For 循环的 SQL 脚本如下所示但是一旦运行它它就会卡在循环的 BEGIN 中如下所示我尝试直接通过SQLPlus运行结果是一样的那么任何人
除非登录，否则 WooCommerce 不允许将产品添加到购物车

最近出现此问题如果我未登录 Wordpress 我无法将产品添加到我的 WooCommerce 购物车它按应有的方式重定向到购物车页面但显示购物车为空当我以任何角色的用户身份登录时效果都很好我搜索了一下发现了这个线程 htt
Flutter：后台中的 SVG 图像抛出错误

我必须将 SVG 图像保留在背景中并将文本保留在顶部当我保留 Flutter SVG 包中的 SVG 图像时出现了这样的错误 I flutter 24437 Unsupported operation Could not resolve
iOS7 色调颜色仅在呈现并关闭另一个 ViewController 后才起作用

我在 iOS7 中遇到了一个非常奇怪的色调问题当我第一次加载时遇到问题的 ViewController 时所有色调都是浅灰色就好像一切都处于非活动状态或位于使屏幕变暗的 UIAlertView 后面这些按钮仍然处于活动状态并且工作正
C# - 将 WPF Image.source 转换为 System.Drawing.Bitmap

我发现很多人都在转换BitmapSource to a Bitmap 但是关于ImageSource to Bitmap 我正在制作一个成像程序我需要从显示的图像中提取位图Image元素有谁知道如何做到这一点 EDIT 1 这是一个用于
Django：设置为 30 秒后过期的 Cookie 实际上会在 30 分钟后过期？

这是我的代码 def update session request if not request is ajax or not request method POST return HttpResponseNotAllowed POST u
使用 sed 更改 /etc/fstab

我想改 etc fstab在脚本内我想添加acl属性到根分区 One fstab行条目如下所示 UUID 730aee20 52b7 4920 75cd d0d995ef2445 ext3 errors remount ro 0 1 我想
Paypal IPN 并行支付问题

我正在用这个http www binpress com app paypal adaptive payments pro codeigniter library 140 http www binpress com app paypal ad
如何修改Open Shift中的节点启动命令？

我使用 ES6 和 babel node 来创建我的应用程序并且我要求我的应用程序以命令启动babel node app js 此命令列在我的 package json 中的 script start 中因此命令 npm start 运
在 R heatmap.2 中移动颜色键（gplots 包的功能）

我现在阅读了 heatmap 2 帮助手册几次并且在各种在线教程中我也没有读到有关将颜色键移动到不同位置的方法现在我想知道这是否可能如果您使用 gplots 包中的 heatmap 2 函数则默认情况下颜色键位于左上角中每个元素
使用两个不同颜色的数据集创建 matplotlib 热图

我目前有两个大数据集我想对它们进行比较我把它们分开一个是红色的一个是蓝色的但是我想并排显示红色和蓝色我该怎么办我当前的代码是 column labels list heatmap ylabels row labels list
在 NHibernate 中标准化 EnumStringType

我目前正在 NHibernate 中使用枚举映射如下 public enum UploadMethod Java Silverlight Gears Flash class UploadMethodType EnumStringType
如何在使用代理服务器访问 Internet 的 Windows 计算机上安装 Rails？

我是 ruby 方式的忠实粉丝然而今天它妨碍了我安装rails的事实上的方法我在WinXP机器上以域用户身份运行是下载并安装 ruby 一键安装程序 type gt gem install rails在命令提示符下步骤 2 失败
Vue CLI 3 不会将供应商转换为 ES5

我们有一个 vue cli 3 项目它工作得很好并且编译没有问题事实上我们必须支持仅支持 ES5 代码的旧浏览器在项目中我们集成了一些用ES6编写的外部库 reconnecting websocket是一个例子 Problem 使用
如何包装 Python 迭代器以使其线程安全？

因为有时它比围绕队列设计解决方案更实用所以我想编写一个简单的包装器来使迭代器线程安全到目前为止我的灵感来自these https stackoverflow com questions 1131430 are generators t
使用 gem 添加辅助方法

我找到了很多有关添加表单辅助方法的信息请参阅我的其他问题之一但我找不到有关添加辅助方法的任何信息就好像它们是在application helper rb 我尝试过复制application helper rb从 Rails 应用程序到
如何获取正在执行的jade脚本的文件名

是否存在可以从具有各种参数的玉模板中访问的全局对象是否有一个全局变量包含当前正在执行的jade文件的路径 5 html head title Test body I want to be able to know what the cur
Friendly_id 和真实ID

有什么办法可以得到真正的id使用Friendly id 修改的模型中的列出于性能原因我不想对其进行另一个数据库查询广义上来说Friendly id修改to param and find方法接下来应该可以工作 affiche Affi
OpenCV argc 和 argv 混淆

我正在检查一些 OpenCV 教程并在开头找到了这一行这是链接代码位于 CalcHist 部分下http opencv willowgarage com documentation c histograms html http ope
beautifulsoup find_all 错误？

现在我正在使用 beautiful soup 来解析 html 页面但有时我通过find all得到的结果小于页数例如这个页面有 18 个标题跨度但是当我使用以下代码时它只有两个谁能告诉我为什么先感谢您 soup Beautif

beautifulsoup find_all 错误？

beautifulsoup find_all 错误？ 的相关文章

随机推荐

热门标签

beautifulsoup find_all 错误？的相关文章