抓取问题：“检查元素”与“查看页面源代码”不同

2024-06-24

我正在尝试对一个网页进行网络抓取，该网页内部包含多个选项卡。当我单击所需的选项卡并显示其内容后，首先出现两个问题。 1- 网页地址不会更改，并且所有选项卡都相同。 2-当我使用浏览器（firefox和chrome）的“查看页面源”查看页面源时，所有选项卡的页面源看起来也相同，而当我对其中一个选项卡使用“Inspect Elemnt”时，我看到了我的目标所显示代码的 html 形式的内容。

问题是我无法通过用于整个 WEB 世界的网络抓取的 python 典型代码访问所需的选项卡内容。这些代码通常基于 bs4。

有谁有任何想法或示例代码来学习如何处理我的问题？我正在查看的页面位于以下地址：

如果页面具有 javascript DOM 元素，则无法正确使用 beautifullsoup 进行网页抓取。您尝试抓取的页面具有 javascript 元素并显示数据。查看源代码和检查元素之间的差异是由浏览器造成的。实际上，浏览器使其可供用户阅读。综上所述，您必须使用模拟浏览器来获取您要查找的数据。这可以通过 Selenium 来完成。您可以搜索 using selenium and python for webscraping。

这是使用 selenium 和 python 进行网页抓取的简单示例：

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException


url = 'http://tsetmc.com/Loader.aspx?ParTree=151311&i=63917421733088077#'

#firefox driver for selenium from: https://github.com/mozilla/geckodriver/releases

driver = webdriver.Firefox(executable_path=r'your-path\geckodriver.exe')
driver.get(url)

wait = WebDriverWait(driver, 10)

try:
    #wait for the page to load completely
    element = wait.until(EC.visibility_of_all_elements_located((By.XPATH, "/html/body/div[4]/form/div[3]/div[2]/div[1]/div[2]/div[1]/table/tbody")))
    time.sleep(1)
finally:
    driver.quit()

此代码将打开 Firefox，您必须将目录放入'your-path\geckodriver.exe'部分。请注意有关 geckodriver 的评论。你需要它来运行硒。

您可以搜索有关 Selenium 的更多信息。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

抓取问题：“检查元素”与“查看页面源代码”不同的相关文章

有没有办法同步 gif 文件？

我有一个页面上面有 7 个 gif 文件有没有办法将它们全部同步以便它们同时开始播放我正在考虑预加载它们但如果一个加载时间比另一个加载时间长它们仍然可能无法开始同步正如 Archer 上面指出的一种方法是预加载它们然后重置
用另一个文本替换所选内容

我正在尝试用其他文本替换所选文本考虑以下是文本行世界你好早上好你好世界早上好如果我选择第二个morning文本我想用晚上替换早上的文本因此输出需要如下所示世界你好早上好你好世界晚安我尝试了替换功能但它正在替换第一
在 uiwebview 中使用 javascript 将样式应用于文本范围

我在 iPhone 上的 UIWebView 中将一些简单样式的文本显示为 html 它基本上是一系列段落偶尔有强烈或强调的短语在运行时我需要将样式应用于文本范围有一些类似的场景其中之一是突出显示搜索结果如果用户搜索了某事我
通过删除顶部和底部的空间来添加段落中的行高

我正在尝试使用 css 在段落中添加行高下面是我的html div p Lorem ipsum dolor sit amet oratio doctus his an Nisl saperet delenit ad eos his ero
嵌套序列化器中的上下文 Django Rest Framework

如果我有一个嵌套序列化器 class ChildSerializer ModelSerializer class Meta fields c name model Child class ParentSerializer ModelSeri
如何缩短静态 HTML 网站的加载时间？

我们正在开发一个网站注意到 GIF 图像 100kb 200kb 加载速度非常慢该网站是一个带有 CSS HTML 的静态网站有谁能指出为什么图像加载缓慢使用 JPG 会提高性能吗以下是该图像的 HTML 代码 div img s
python 3.6 selenium webdriver错误X显示需要发送密钥无法使用Xvfb

我正在使用 selenium webdriver Chrome 为我的测试环境创建具有特定功能的网络驱动程序 class MyDriver webdriver Chrome def init self executable path chr
允许用户在 HTML5 Canvas 游戏中键入文本

我正在尝试结合使用 Canvas 和优秀的 KineticJS 库来编写我的第一个 HTML5 游戏但我很早就遇到了一些困难我想做的是要求用户在游戏的框中输入他们的名字做了一些研究后除了在我正在使用的画布部分上获取浮动 HTML 元
Firefox 在构建页面时使白色“闪烁”

我一直致力于构建一个带有 Flash 幻灯片组件的网站但我有点困惑当我在 Firefox 3 6 8 中查看该页面时它似乎首先下载该页面的内容并在下载幻灯片时发出白色闪烁但是当我在 Safari 中查看页面时它似乎首先构建页面
HTML 文本下方的白点

我在网站上的输出在文本下方有点为什么会出现以及如何删除它 HTML p align center font size 4 5 color 979C91 a href customer html span class fa fa penci
在 python 中查找第 n 个最常见的单词并进行计数

我是一名刚来到这里的本科生热爱编程我在实践中遇到一个问题想在这里寻求帮助给定一个字符串整数 n 返回第 n 个最常见的单词及其计数忽略大小写对于单词请确保返回时所有字母均为小写提示 split 函数和字典可能有用例子输入
子 div 超出父 div 范围

目前我正在使用 CSS 和 HTML 等设计一个网站但是我遇到了一个问题当我向子级添加浮动时我的子级 div 超出了父级 div 的范围该网站位于此处我的网页设计 http 7sisters in test mintbite 更加详
删除 HTML5 离线应用程序缓存

我有一个带有关联的应用程序缓存清单的 HTML 文档但现在我想暂时摆脱离线应用程序缓存如果我从清单中删除对清单的提及标签已经有缓存版本的浏览器将继续使用该缓存版本如果我更新应用程序缓存清单无论如何仍然有一个应用程序缓存删除离线
如何使用 Flex 创建自定义马赛克

我正在尝试使用 Flex 创建一个自定义马赛克如下所示除了框 4 的高度和宽度加倍之外所有框的宽度都是父容器的三分之一我设法达到以下条件 push group element ul push group element ul li
强制浏览器打开文件而不是提示下载

在 Firefox 和 Chrome 中单击 PDF 链接时有时会打开该文件以在浏览器中查看有时会提示另存为对话框如果我想强制链接始终提示下载我可以使用downloadHTML5 属性然而我想做相反的事情 IE 强制链接始终
在java中将HTML转换为RTF？

我需要将 HTML 转换为 RTF 我正在使用以下代码 private static String convertToRTF String htmlStr OutputStream os new ByteArrayOutputStream
持续运行的 C# 代码 - 服务还是单独的线程？

我有一个 NET 4 Web 应用程序它有 3 个关联的独立项目 DAL BAL 和 UI 我正在使用实体框架进行数据库交互我有代码循环遍历一堆数据库数据根据找到的内容调用方法然后更新数据库我希望这段代码一直运行同时我希望用户
如何转义 onClick 处理程序内 JavaScript 代码中的字符串？

也许我只是想得太难了但我在弄清楚链接的 onClick 处理程序内的某些 JavaScript 代码中的字符串上使用什么转义时遇到了问题例子 a href Select a The and 是发生模板替换的地方我的问题是项目名称可以包
单击即可切换背景颜色和过渡

这看起来应该很容易但我真的找不到办法做到这一点动画 http doir ir css gif http doir ir css gif 当您单击这些相应的链接时我需要更改和过渡页面的背景颜色我见过的最接近触发这种类型转换的事情是仅
如何在网页上显示进度条直到网页完全加载？

我想在网页中显示进度条加载弹出窗口直到页面完全加载我的网页很重因为它包含一个 HTML 编辑器这是一个基于 jQuery 的 HTML 编辑器需要很多时间才能完全加载在加载时我希望在页面上显示一个进度条该进度条将在整个页面

随机推荐

缺少升级：在 netty 4.x 上同时提供 http 和 ws

我正在 netty 上编写一个聊天应用程序我尝试为两者服务HTTP and WS 但是http响应只是这些消息不是 WebSocket 握手请求缺少升级这是我的代码片段在InitChannel方法中 p addLast new H
R：如何改变格子（levelplot）颜色主题？

我安装的默认主题是将值映射为粉色和青色的主题例如如何将其更改为灰度主题您可以使用 library lattice lattice options default theme standard theme color FALSE 它会打开
如何在 Mule DataWeave 中过滤 JSON 数组

我有这样的 JSON dcsId 1184001100000000517 marketCode US languageCode en US profile base username arunima27 activeInd R phone
将 Excel 模板 (xltx) 作为 Excel 模板而不是工作簿打开

我正在尝试编写一行代码来打开 Excel 模板 xltx 文件作为 Excel 模板文件而不是新工作簿我只是想让用户查看和编辑他们在我们网络上的库文件夹中的模板然而我尝试过的所有操作都会打开一个新的工作簿而不是模板我尝试过互操作 W
cordova 平台添加 android 在列出 Android 目标时不起作用

当我想向我的phoneGap 应用程序添加Android 平台时我遇到了问题当我执行命令 cordova platform add android 时我在 CLI 中收到此消息 Checking Android requirement
如何从Python列表中删除单词

到目前为止我已经完成了我的代码但它无法与remove 一起正常工作任何人都可以帮助我 Created on Apr 21 2015 author Pallavi from pip vendor distlib compat import
训练后将保存的 NEAT-Python Genome 应用到测试环境

我使用了一些 NEAT 算法为一些简单的游戏例如 flappybird 编写了自己的 AI 代码一切正常我知道发生了什么问题是我不知道如何处理结果人工智能学到了一些东西我想保存这个进度 TechwithTim YouTuber
连接别名计算列中的行

我有两张表一张名为 Car 一张名为 Mileage 汽车表有以下列 CarName varchar max 里程表有以下列 CarMileage int CarName varchar max TotalGasTrips int 我的代
如何使用 webRTC、node.js 和 socket.io 构建多用户视频聊天 Web 应用程序

我正在尝试制作一个支持多用户视频聊天的网络应用程序我读过一篇关于 webrtc 的文章 webrtc 入门 http www html5rocks com en tutorials webrtc basics http www html5
TFS 快速错误：工作文件夹 C:\LocalFolder 已在使用中

我正在使用 VS 2015 并且正在开发一个具有本地工作区的项目C 本地文件夹映射到服务器文件夹在某些时候当我尝试探索源代码管理时 VS 2015 崩溃了所以我不得不终止 devenv exe 进程接下来当我重新打开解决方案时
为什么 Silverlight 内容控件不进行垃圾回收？

我一直在调查为什么我的一些控件没有被垃圾收集并注意到很容易防止从 ContentControl 继承的简单控件被破坏这是一个例子这是我的自定义内容控件 public class MyCustomControl ContentContr
如何解决颤动错误中的“作为前缀”

The name LocationAccuracy is defined in the libraries package geolocation geolocation dart package geolocator geolocator
磁盘上可能的最小文件大小是多少？

我正在尝试找到一种解决方案来将二进制文件存储在磁盘上的最小大小我正在从 30 字节的数据库中读取车辆 VIN 和车牌号当我将其放入 txt 文件并保存时其大小为 30B 但其在磁盘上的大小为 4KB 这意味着如果我保存 100000
自定义对元组向量进行排序

我有一个元组向量例如 vector
可并行化 OVER EACH BY

我一次又一次地遇到这个障碍 JOIN EACH 和 GROUP EACH BY 子句不能用于窗口函数的输出 https stackoverflow com questions 20966816 join each and group eac
WebRTC如何处理多对多连接？

如果我和其他 7 个用户在一个房间里我想知道 WebRTC 是否强制每个用户与其他每个参与者建立连接显然它会消耗 7kb s 7 的下载甚至上传速度并且如果连接已经很忙许多连接就无法处理这个问题相反使用某种媒体中继带宽使用量
OpenCart 在控制器外部加载模型

我正在开发一个 OpenCart 项目该项目需要大量定制对于我的项目我必须更改购物车库 system library cart php 中的某些内容我必须调用在产品模型 catalog model catalog product p
Android - 启动画面的淡出动画

我想为我的启动画面添加淡出动画即在关闭启动画面时我想带来淡出动画效果这是我尝试过的代码 overridePendingTransition R anim fade in R anim fade out 但以上只能从2 0开始使用 Ny
使用 Python 图像库 (PIL) 绘制抗锯齿线

我正在使用 Python 图像库的 ImageDraw line 绘制一堆线条但它们看起来很可怕因为我找不到消除锯齿的方法如何在 PIL 中消除锯齿线这是一个非常快速地组合在一起的函数用于用 PIL 绘制一条抗锯齿线这是我在谷歌
抓取问题：“检查元素”与“查看页面源代码”不同

我正在尝试对一个网页进行网络抓取该网页内部包含多个选项卡当我单击所需的选项卡并显示其内容后首先出现两个问题 1 网页地址不会更改并且所有选项卡都相同 2 当我使用浏览器 firefox和chrome 的查看页面源查看页面源时所

抓取问题：“检查元素”与“查看页面源代码”不同

抓取问题：“检查元素”与“查看页面源代码”不同 的相关文章

随机推荐

热门标签

抓取问题：“检查元素”与“查看页面源代码”不同的相关文章