beautifulsoup find_all 错误?

2024-06-25

现在我正在使用 beautiful soup 来解析 html 页面。但有时我通过find_all得到的结果小于页数。例如这个页面有 18 个标题跨度。但是当我使用以下代码时,它只有两个!谁能告诉我为什么。先感谢您!

soup = BeautifulSoup(page, 'html.parser')
hrefDivList = soup.find_all("span", class_ = "headline")
#print hrefDivList
print len(hrefDivList)

您可以尝试为 Beautifulsoup 使用不同的解析器。

import requests
from bs4 import BeautifulSoup

url = "<your url>"
r = requests.get(url)

soup = BeautifulSoup(r.content, 'lxml')
hrefDivList = soup.find_all("span", attrs={"class": "headline"})
print len(hrefDivList)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

beautifulsoup find_all 错误? 的相关文章

  • 如何删除 BeautifulSoup 中的空格

    我正在使用 BeautifulSoup 解析一堆 HTML 除了一个小问题外 一切进展顺利 我想将输出保存到单行字符串中 以下内容作为我当前的输出 li span class plaincharacterwrap break Zazzafo
  • 使用 Python 抓取维基百科数据

    我正在尝试从以下内容中检索 3 列 NFL 球队 球员姓名 大学球队 维基百科页面 http en wikipedia org wiki 2008 NFL draft 我是 python 新手 一直在尝试使用 beautifulsoup 来
  • Python获取网站的所有内容到html文件

    请有人帮忙 我想将所有内容从 url 转移到 html 文件 有人可以帮助我吗 我也必须使用用户代理 欢迎来到SO 当您提出问题时 您需要提交您尝试过的代码 您可以在这里学习如何正确提问 https stackoverflow com he
  • 用 Beautiful Soup 进行抓取:为什么 get_text 方法不返回该元素的文本?

    最近我一直在用 python 开发一个项目 其中涉及抓取一些网站的一些代理 我遇到的问题是 当我尝试抓取某个知名代理站点时 当我要求 Beautiful Soup 查找 IP 在代理表中的位置时 它并没有按照我的预期执行操作 我将尝试查找每
  • ModuleNotFoundError:没有名为“bs4”的模块

    当我尝试像这样导入 BeautifulSoup 时 from bs4 import BeautifulSoup 当我运行我的代码时 我收到此错误消息 ModuleNotFoundError No module named bs4 如果有人知
  • 加速美丽汤

    我正在运行本课程网站的抓取工具 我想知道将页面放入 beautifulsoup 后是否有更快的方法来抓取页面 花费的时间比我预期的要长得多 Tips from selenium import webdriver from selenium
  • Beautifulsoup findAll 是如何工作的

    我注意到一些奇怪的行为findAll的方法 gt gt gt htmls p class slytherin p p class gryffindor p gt gt gt soup BeautifulSoup htmls html par
  • Selenium/BeautifulSoup - WebScrape 该字段

    我的代码运行良好 并打印除带有下拉列表的行之外的所有行的标题 例如 如果单击第 4 行 则会出现一个下拉菜单 我实现了一个 尝试 理论上会单击下拉菜单 然后拉出标题 但是 当我执行 click 并尝试打印时 对于具有这些下拉列表的行 它们不
  • 在搜索栏中输入查询并抓取结果

    我有一个数据库 其中包含不同书籍的 ISBN 号 我使用 Python 和 Beautifulsoup 收集了它们 接下来我想为书籍添加类别 书籍类别有一个标准 一个网站叫https www bol com nl https www bol
  • BeautifulSoup - 抓取论坛页面

    我正在尝试抓取论坛讨论并将其导出为 csv 文件 其中包含 线程标题 用户 和 帖子 等行 其中后者是每个人的实际论坛帖子 我是 Python 和 BeautifulSoup 的初学者 所以我对此感到非常困难 我当前的问题是 csv 文件中
  • 如何使用 Python 抓取网站中嵌入的表格

    这是我正在尝试抓取的网站 https clinicaltrials gov ct2 results term wound care https clinicaltrials gov ct2 results term wound care 具
  • 为什么我用 beautifulSoup 刮的时候有桌子,但没有 pandas

    尝试抓取条目页面转换为制表符分隔格式 主要拉出序列和 UniProt 登录号 当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
  • 导入错误:Mac 上没有名为 bs4 的模块

    今晚我坐下来决定学习如何使用 python 受到这篇网页抓取文章的启发 cam ly danesblog 2011 01 craigslist arbitage 在完成教程后我 1 下载并安装python http www python o
  • Beautiful Soup 获取动态表数据

    我有以下代码 url https www basketball reference com leagues NBA 2017 standings html all expanded standings html urlopen url so
  • 美丽的汤刮 - 登录凭据不起作用

    尝试使用登录凭据抓取页面 payload email gmail com password urls login url https www spotrac com signin url https www spotrac com nba
  • python中多个页面的数据串联时出现错误

    我在连接多个页面的数据并将其导出到单个 CSV 文件中时遇到错误 根据我的代码 数据导出到第 10 页 但在第 10 页之后它正在工作 import urllib request from bs4 import BeautifulSoup
  • BeautifulSoup 中的嵌套标签 - Python

    我在网站和 stackoverflow 上查看了许多示例 但找不到解决我的问题的通用解决方案 我正在处理一个非常混乱的网站 我想抓取一些数据 标记看起来像这样 table tbody tr tr tr td td td table tr t
  • 使用 Beautifulsoup 抓取多个网站

    我想知道为什么列出all links and all titles不想接收列表中的任何记录titles and links 我也尝试过 extend 方法 但没有帮助 import requests from bs4 import Beau
  • 如何阅读网站内容?

    我是使用 python 2 7 的网络爬虫的新手 一 背景 现在 我想收集有用的数据AQICN org http aqicn org city shenyang usconsulate 这是一个很棒的网站 提供世界各地的空气质量数据 我想用
  • 将表抓取到列表中

    我正在尝试从网页中提取表格 我已经设法将表中的所有数据放入列表中 然而 所有表数据都被放入一个列表元素中 我需要帮助将 干净 数据 即字符串 没有所有 HTML 包装 从表的行获取到它们自己的列表元素中 所以而不是 list tr th a

随机推荐

  • SQLPlus 中的运行循环

    我制作了一个 bash 脚本 它通过 SQLPlus 连接到数据库并运行一个包含 For 循环的 SQL 脚本 如下所示 但是一旦运行它 它就会卡在循环的 BEGIN 中 如下所示 我尝试直接通过SQLPlus运行 结果是一样的 那么任何人
  • 除非登录,否则 WooCommerce 不允许将产品添加到购物车

    最近出现此问题 如果我未登录 Wordpress 我无法将产品添加到我的 WooCommerce 购物车 它按应有的方式重定向到购物车页面 但显示 购物车为空 当我以任何角色的用户身份登录时 效果都很好 我搜索了一下 发现了这个线程 htt
  • Flutter:后台中的 SVG 图像抛出错误

    我必须将 SVG 图像保留在背景中并将文本保留在顶部 当我保留 Flutter SVG 包中的 SVG 图像时 出现了这样的错误 I flutter 24437 Unsupported operation Could not resolve
  • iOS7 色调颜色仅在呈现并关闭另一个 ViewController 后才起作用

    我在 iOS7 中遇到了一个非常奇怪的色调问题 当我第一次加载时遇到问题的 ViewController 时 所有色调都是浅灰色 就好像一切都处于非活动状态或位于使屏幕变暗的 UIAlertView 后面 这些按钮仍然处于活动状态并且工作正
  • C# - 将 WPF Image.source 转换为 System.Drawing.Bitmap

    我发现很多人都在转换BitmapSource to a Bitmap 但是关于ImageSource to Bitmap 我正在制作一个成像程序 我需要从显示的图像中提取位图Image元素 有谁知道如何做到这一点 EDIT 1 这是一个用于
  • Django:设置为 30 秒后过期的 Cookie 实际上会在 30 分钟后过期?

    这是我的代码 def update session request if not request is ajax or not request method POST return HttpResponseNotAllowed POST u
  • 使用 sed 更改 /etc/fstab

    我想改 etc fstab在脚本内 我想添加acl属性到根分区 One fstab行条目如下所示 UUID 730aee20 52b7 4920 75cd d0d995ef2445 ext3 errors remount ro 0 1 我想
  • Paypal IPN 并行支付问题

    我正在用这个http www binpress com app paypal adaptive payments pro codeigniter library 140 http www binpress com app paypal ad
  • 如何修改Open Shift中的节点启动命令?

    我使用 ES6 和 babel node 来创建我的应用程序 并且我要求我的应用程序以命令启动babel node app js 此命令列在我的 package json 中的 script start 中 因此命令 npm start 运
  • 在 R heatmap.2 中移动颜色键(gplots 包的功能)

    我现在阅读了 heatmap 2 帮助手册几次 并且在各种在线教程中我也没有读到有关将颜色键移动到不同位置的方法 现在 我想知道这是否可能 如果您使用 gplots 包中的 heatmap 2 函数 则默认情况下颜色键位于左上角 中每个元素
  • 使用两个不同颜色的数据集创建 matplotlib 热图

    我目前有两个大数据集 我想对它们进行比较 我把它们分开 一个是红色的 一个是蓝色的 但是我想并排显示红色和蓝色 我该怎么办 我当前的代码是 column labels list heatmap ylabels row labels list
  • 在 NHibernate 中标准化 EnumStringType

    我目前正在 NHibernate 中使用枚举 映射如下 public enum UploadMethod Java Silverlight Gears Flash class UploadMethodType EnumStringType
  • 如何在使用代理服务器访问 Internet 的 Windows 计算机上安装 Rails?

    我是 ruby 方式的忠实粉丝 然而今天它妨碍了我 安装rails的事实上的方法 我在WinXP机器上以域用户身份运行 是 下载并安装 ruby 一键安装程序 type gt gem install rails在命令提示符下 步骤 2 失败
  • Vue CLI 3 不会将供应商转换为 ES5

    我们有一个 vue cli 3 项目 它工作得很好并且编译没有问题 事实上 我们必须支持仅支持 ES5 代码的旧浏览器 在项目中我们集成了一些用ES6编写的外部库 reconnecting websocket是一个例子 Problem 使用
  • 如何包装 Python 迭代器以使其线程安全?

    因为有时它比围绕队列设计解决方案更实用 所以我想编写一个简单的包装器来使迭代器线程安全 到目前为止 我的灵感来自these https stackoverflow com questions 1131430 are generators t
  • 使用 gem 添加辅助方法

    我找到了很多有关添加表单辅助方法的信息 请参阅我的其他问题之一 但我找不到有关添加辅助方法的任何信息 就好像它们是在application helper rb 我尝试过复制application helper rb从 Rails 应用程序到
  • 如何获取正在执行的jade脚本的文件名

    是否存在可以从具有各种参数的玉模板中访问的全局对象 是否有一个全局变量包含当前正在执行的jade文件的路径 5 html head title Test body I want to be able to know what the cur
  • Friendly_id 和真实ID

    有什么办法可以得到真正的id使用Friendly id 修改的模型中的列 出于性能原因 我不想对其进行另一个数据库查询 广义上来说Friendly id修改to param and find方法 接下来应该可以工作 affiche Affi
  • OpenCV argc 和 argv 混淆

    我正在检查一些 OpenCV 教程 并在开头找到了这一行 这是链接 代码位于 CalcHist 部分下http opencv willowgarage com documentation c histograms html http ope
  • beautifulsoup find_all 错误?

    现在我正在使用 beautiful soup 来解析 html 页面 但有时我通过find all得到的结果小于页数 例如这个页面有 18 个标题跨度 但是当我使用以下代码时 它只有两个 谁能告诉我为什么 先感谢您 soup Beautif