抓取问题:“检查元素”与“查看页面源代码”不同

2024-06-24

我正在尝试对一个网页进行网络抓取,该网页内部包含多个选项卡。当我单击所需的选项卡并显示其内容后,首先出现两个问题。 1- 网页地址不会更改,并且所有选项卡都相同。 2-当我使用浏览器(firefox和chrome)的“查看页面源”查看页面源时,所有选项卡的页面源看起来也相同,而当我对其中一个选项卡使用“Inspect Elemnt”时,我看到了我的目标所显示代码的 html 形式的内容。

问题是我无法通过用于整个 WEB 世界的网络抓取的 python 典型代码访问所需的选项卡内容。这些代码通常基于 bs4。

有谁有任何想法或示例代码来学习如何处理我的问题? 我正在查看的页面位于以下地址:


如果页面具有 javascript DOM 元素,则无法正确使用 beautifullsoup 进行网页抓取。您尝试抓取的页面具有 javascript 元素并显示数据。 查看源代码和检查元素之间的差异是由浏览器造成的。实际上,浏览器使其可供用户阅读。 综上所述,您必须使用模拟浏览器来获取您要查找的数据。这可以通过 Selenium 来完成。您可以搜索 using selenium and python for webscraping。

这是使用 selenium 和 python 进行网页抓取的简单示例:

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException


url = 'http://tsetmc.com/Loader.aspx?ParTree=151311&i=63917421733088077#'

#firefox driver for selenium from: https://github.com/mozilla/geckodriver/releases

driver = webdriver.Firefox(executable_path=r'your-path\geckodriver.exe')
driver.get(url)

wait = WebDriverWait(driver, 10)

try:
    #wait for the page to load completely
    element = wait.until(EC.visibility_of_all_elements_located((By.XPATH, "/html/body/div[4]/form/div[3]/div[2]/div[1]/div[2]/div[1]/table/tbody")))
    time.sleep(1)
finally:
    driver.quit()

此代码将打开 Firefox,您必须将目录放入'your-path\geckodriver.exe'部分。 请注意有关 geckodriver 的评论。你需要它来运行硒。

您可以搜索有关 Selenium 的更多信息。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

抓取问题:“检查元素”与“查看页面源代码”不同 的相关文章

  • 有没有办法同步 gif 文件?

    我有一个页面 上面有 7 个 gif 文件 有没有办法将它们全部同步 以便它们同时开始播放 我正在考虑预加载它们 但如果一个加载时间比另一个加载时间长 它们仍然可能无法开始同步 正如 Archer 上面指出的 一种方法是预加载它们 然后重置
  • 用另一个文本替换所选内容

    我正在尝试用其他文本替换所选文本 考虑以下是文本行 世界你好 早上好 你好世界 早上好 如果我选择第二个morning文本 我想用晚上替换早上的文本 因此输出需要如下所示 世界你好 早上好 你好世界 晚安 我尝试了替换功能 但它正在替换第一
  • 在 uiwebview 中使用 javascript 将样式应用于文本范围

    我在 iPhone 上的 UIWebView 中将一些简单样式的文本显示为 html 它基本上是一系列段落 偶尔有强烈或强调的短语 在运行时 我需要将样式应用于文本范围 有一些类似的场景 其中之一是突出显示搜索结果 如果用户搜索了 某事 我
  • 通过删除顶部和底部的空间来添加段落中的行高

    我正在尝试使用 css 在段落中添加行高 下面是我的html div p Lorem ipsum dolor sit amet oratio doctus his an Nisl saperet delenit ad eos his ero
  • 嵌套序列化器中的上下文 Django Rest Framework

    如果我有一个嵌套序列化器 class ChildSerializer ModelSerializer class Meta fields c name model Child class ParentSerializer ModelSeri
  • 如何缩短静态 HTML 网站的加载时间?

    我们正在开发一个网站 注意到 GIF 图像 100kb 200kb 加载速度非常慢 该网站是一个带有 CSS HTML 的静态网站 有谁能指出为什么图像加载缓慢 使用 JPG 会提高性能吗 以下是该图像的 HTML 代码 div img s
  • python 3.6 selenium webdriver错误X显示需要发送密钥无法使用Xvfb

    我正在使用 selenium webdriver Chrome 为我的测试环境创建具有特定功能的网络驱动程序 class MyDriver webdriver Chrome def init self executable path chr
  • 允许用户在 HTML5 Canvas 游戏中键入文本

    我正在尝试结合使用 Canvas 和优秀的 KineticJS 库来编写我的第一个 HTML5 游戏 但我很早就遇到了一些困难 我想做的是要求用户在游戏的框中输入他们的名字 做了一些研究后 除了在我正在使用的画布部分上获取浮动 HTML 元
  • Firefox 在构建页面时使白色“闪烁”

    我一直致力于构建一个带有 Flash 幻灯片组件的网站 但我有点困惑 当我在 Firefox 3 6 8 中查看该页面时 它似乎首先下载该页面的内容 并在下载幻灯片时发出白色 闪烁 但是当我在 Safari 中查看页面时 它似乎首先构建页面
  • HTML 文本下方的白点

    我在网站上的输出在文本下方有点 为什么会出现以及如何删除它 HTML p align center font size 4 5 color 979C91 a href customer html span class fa fa penci
  • 在 python 中查找第 n 个最常见的单词并进行计数

    我是一名刚来到这里的本科生 热爱编程 我在实践中遇到一个问题 想在这里寻求帮助 给定一个字符串整数 n 返回第 n 个最常见的单词及其计数 忽略大小写 对于单词 请确保返回时所有字母均为小写 提示 split 函数和字典可能有用 例子 输入
  • 子 div 超出父 div 范围

    目前我正在使用 CSS 和 HTML 等设计一个网站 但是我遇到了一个问题 当我向子级添加浮动时 我的子级 div 超出了父级 div 的范围 该网站位于此处我的网页设计 http 7sisters in test mintbite 更加详
  • 删除 HTML5 离线应用程序缓存

    我有一个带有关联的应用程序缓存清单的 HTML 文档 但现在我想暂时摆脱离线应用程序缓存 如果我从清单中删除对清单的提及标签 已经有缓存版本的浏览器将继续使用该缓存版本 如果我更新应用程序缓存清单 无论如何 仍然有一个应用程序缓存 删除离线
  • 如何使用 Flex 创建自定义马赛克

    我正在尝试使用 Flex 创建一个自定义马赛克 如下所示 除了框 4 的高度和宽度加倍之外 所有框的宽度都是父容器的三分之一 我设法达到以下条件 push group element ul push group element ul li
  • 强制浏览器打开文件而不是提示下载

    在 Firefox 和 Chrome 中单击 PDF 链接时 有时会打开该文件以在浏览器中查看 有时会提示 另存为 对话框 如果我想强制链接始终提示下载 我可以使用downloadHTML5 属性 然而 我想做相反的事情 IE 强制链接始终
  • 在java中将HTML转换为RTF?

    我需要将 HTML 转换为 RTF 我正在使用以下代码 private static String convertToRTF String htmlStr OutputStream os new ByteArrayOutputStream
  • 持续运行的 C# 代码 - 服务还是单独的线程?

    我有一个 NET 4 Web 应用程序 它有 3 个关联的独立项目 DAL BAL 和 UI 我正在使用实体框架进行数据库交互 我有代码循环遍历一堆数据库数据 根据找到的内容调用方法 然后更新数据库 我希望这段代码一直运行 同时 我希望用户
  • 如何转义 onClick 处理程序内 JavaScript 代码中的字符串?

    也许我只是想得太难了 但我在弄清楚链接的 onClick 处理程序内的某些 JavaScript 代码中的字符串上使用什么转义时遇到了问题 例子 a href Select a The and 是发生模板替换的地方 我的问题是项目名称可以包
  • 单击即可切换背景颜色和过渡

    这看起来应该很容易 但我真的找不到办法做到这一点 动画 http doir ir css gif http doir ir css gif 当您单击这些相应的链接时 我需要更改和过渡页面的背景颜色 我见过的最接近触发这种类型转换的事情是 仅
  • 如何在网页上显示进度条直到网页完全加载?

    我想在网页中显示进度条 加载弹出窗口 直到页面完全加载 我的网页很重 因为它包含一个 HTML 编辑器 这是一个基于 jQuery 的 HTML 编辑器 需要很多时间才能完全加载 在加载时 我希望在页面上显示一个进度条 该进度条将在整个页面

随机推荐

  • 缺少升级:在 netty 4.x 上同时提供 http 和 ws

    我正在 netty 上编写一个聊天应用程序 我尝试为两者服务HTTP and WS 但是http响应只是这些消息 不是 WebSocket 握手请求 缺少升级 这是我的代码片段 在InitChannel方法中 p addLast new H
  • R:如何改变格子(levelplot)颜色主题?

    我安装的默认主题是将值映射为粉色和青色的主题 例如如何将其更改为灰度主题 您可以使用 library lattice lattice options default theme standard theme color FALSE 它会打开
  • 如何在 Mule DataWeave 中过滤 JSON 数组

    我有这样的 JSON dcsId 1184001100000000517 marketCode US languageCode en US profile base username arunima27 activeInd R phone
  • 将 Excel 模板 (xltx) 作为 Excel 模板而不是工作簿打开

    我正在尝试编写一行代码来打开 Excel 模板 xltx 文件作为 Excel 模板文件而不是新工作簿 我只是想让用户查看和编辑他们在我们网络上的库文件夹中的模板 然而 我尝试过的所有操作都会打开一个新的工作簿而不是模板 我尝试过互操作 W
  • cordova 平台添加 android 在列出 Android 目标时不起作用

    当我想向我的phoneGap 应用程序添加Android 平台时 我遇到了问题 当我执行命令 cordova platform add android 时 我在 CLI 中收到此消息 Checking Android requirement
  • 如何从Python列表中删除单词

    到目前为止我已经完成了我的代码 但它无法与remove 一起正常工作 任何人都可以帮助我 Created on Apr 21 2015 author Pallavi from pip vendor distlib compat import
  • 训练后将保存的 NEAT-Python Genome 应用到测试环境

    我使用了一些 NEAT 算法为一些简单的游戏 例如 flappybird 编写了自己的 AI 代码 一切正常 我知道发生了什么 问题是我不知道如何处理结果 人工智能学到了一些东西 我想保存这个进度 TechwithTim YouTuber
  • 连接别名计算列中的行

    我有两张表 一张名为 Car 一张名为 Mileage 汽车表有以下列 CarName varchar max 里程表有以下列 CarMileage int CarName varchar max TotalGasTrips int 我的代
  • 如何使用 webRTC、node.js 和 socket.io 构建多用户视频聊天 Web 应用程序

    我正在尝试制作一个支持多用户视频聊天的网络应用程序 我读过一篇关于 webrtc 的文章 webrtc 入门 http www html5rocks com en tutorials webrtc basics http www html5
  • TFS 快速错误:工作文件夹 C:\LocalFolder 已在使用中

    我正在使用 VS 2015 并且正在开发一个具有本地工作区的项目C 本地文件夹映射到 服务器文件夹 在某些时候 当我尝试探索源代码管理时 VS 2015 崩溃了 所以我不得不终止 devenv exe 进程 接下来 当我重新打开解决方案时
  • 为什么 Silverlight 内容控件不进行垃圾回收?

    我一直在调查为什么我的一些控件没有被垃圾收集 并注意到很容易防止从 ContentControl 继承的简单控件被破坏 这是一个例子 这是我的自定义内容控件 public class MyCustomControl ContentContr
  • 如何解决颤动错误中的“作为前缀”

    The name LocationAccuracy is defined in the libraries package geolocation geolocation dart package geolocator geolocator
  • 磁盘上可能的最小文件大小是多少?

    我正在尝试找到一种解决方案来将二进制文件存储在磁盘上的最小大小 我正在从 30 字节的数据库中读取车辆 VIN 和车牌号 当我将其放入 txt 文件并保存时 其大小为 30B 但其在磁盘上的大小为 4KB 这意味着如果我保存 100000
  • 自定义对元组向量进行排序

    我有一个元组向量 例如 vector
  • 可并行化 OVER EACH BY

    我一次又一次地遇到这个障碍 JOIN EACH 和 GROUP EACH BY 子句不能用于窗口函数的输出 https stackoverflow com questions 20966816 join each and group eac
  • WebRTC如何处理多对多连接?

    如果我和其他 7 个用户在一个房间里 我想知道 WebRTC 是否强制每个用户与其他每个参与者建立连接 显然 它会消耗 7kb s 7 的下载甚至上传速度 并且如果连接已经很忙 许多连接就无法处理这个问题 相反 使用某种媒体中继 带宽使用量
  • OpenCart 在控制器外部加载模型

    我正在开发一个 OpenCart 项目 该项目需要大量定制 对于我的项目 我必须更改购物车库 system library cart php 中的某些内容 我必须调用在产品模型 catalog model catalog product p
  • Android - 启动画面的淡出动画

    我想为我的启动画面添加淡出动画 即在关闭启动画面时我想带来淡出动画效果 这是我尝试过的代码 overridePendingTransition R anim fade in R anim fade out 但以上只能从2 0开始使用 Ny
  • 使用 Python 图像库 (PIL) 绘制抗锯齿线

    我正在使用 Python 图像库的 ImageDraw line 绘制一堆线条 但它们看起来很可怕 因为我找不到消除锯齿的方法 如何在 PIL 中消除锯齿线 这是一个非常快速地组合在一起的函数 用于用 PIL 绘制一条抗锯齿线 这是我在谷歌
  • 抓取问题:“检查元素”与“查看页面源代码”不同

    我正在尝试对一个网页进行网络抓取 该网页内部包含多个选项卡 当我单击所需的选项卡并显示其内容后 首先出现两个问题 1 网页地址不会更改 并且所有选项卡都相同 2 当我使用浏览器 firefox和chrome 的 查看页面源 查看页面源时 所