Python selenium 获取“开发者工具”→网络→媒体日志

2024-02-27

我正在尝试以编程方式做一些必然涉及获取“开发人员工具”→网络→媒体日志的事情。

我就不告诉你细节了，长话短说，我需要访问数千个页面，如下所示：https://music.163.com/#/song?id=ID, where ID等号后面是一个数字。

如果你打开这样一个页面，就会有一个播放按钮，该按钮会触发一个javascript，加载整个页面中没有引用的音乐文件，并播放该文件。（注：部分歌曲可能需要中文IP，部分歌曲可能需要VIP账号。）

例如这个页面：https://music.163.com/#/song?id=32477986 https://music.163.com/#/song?id=32477986，它应该看起来像这样：

如果您单击蓝色按钮，则会触发 javascript，并且音乐文件将由 javascript 加载并播放。该音乐文件不会成为网页中的元素，因此无法直接抓取find_element*方法。

但我找到了一种方法来找到音乐文件的地址。

在 Firefox 中，按 F12 打开检查器/“开发人员工具”，单击网络，然后单击媒体。点击蓝色按钮，会出现多个相同文件名的请求，文件名会匹配^[0-9a-f]+\.m4a，并且域可能不同。

像这样：

单击任何记录，您将找到其地址，其中任何一个都可以，如下所示：

我目前正在尝试找出如何以编程方式模拟这个过程。

我用谷歌搜索了这个：，并没有找到我要找的东西，这正是我所期望的。我发布这个链接是为了展示我的研究成果，以及谷歌如何不理解你正在尝试搜索的内容的含义。

无论如何，我偶然发现了这一点：https://www.rkengler.com/how-to-capture-network-traffic-when-scraping-with-selenium-and-python/ https://www.rkengler.com/how-to-capture-network-traffic-when-scraping-with-selenium-and-python/

并用这些进行了测试：

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
capabilities = DesiredCapabilities.CHROME
capabilities["goog:loggingPrefs"] = {'performance': "ALL"}
driver = webdriver.Chrome(desired_capabilities=capabilities)
wait = WebDriverWait(driver, 15)
driver.get('https://music.163.com/#/song?id=32477986')
iframe = driver.find_element_by_xpath('//iframe[@id="g_iframe"]')
driver.switch_to.frame(iframe)
wait.until(EC.visibility_of_element_located((By.XPATH, '//div[2]/div/a[1]')))
play = driver.find_element_by_xpath('//div[2]/div/a[1]')
play.click()
time.sleep(10)
driver.get_log('performance')

它有效，但输出太宽泛，我更喜欢使用 Firefox。

然后我试图找到所有有效的loggingPrefs使用谷歌的选项：，不幸的是，但不出所料，我什么也没找到，除了browser:ALL and driver:ALL.

我找不到任何指定所有可能的开关的文档。

但我想也许我已经找到了一种模式，性能是检查器/开发工具中的一个选项卡，而网络是另一个选项卡。

所以我替换了两次出现的'performance' with 'network'并再次运行代码：

InvalidArgumentException: Message: invalid argument: log type 'network' not found
  (Session info: chrome=89.0.4389.90)

这就是我得到的。

无论如何，这就是我整理的：

import os
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

options = Options()
options.headless = True
path = (os.environ['APPDATA'] + '\Mozilla\Firefox\Profiles\Selenium').replace('\\', '/')
profile = webdriver.FirefoxProfile(path)
profile.set_preference("media.volume_scale", "0.0")

capabilities = DesiredCapabilities.FIREFOX
capabilities["loggingPrefs"] = {'performance': 'ALL'}

Firefox = webdriver.Firefox(firefox_profile=profile, desired_capabilities=capabilities, options=options)
wait = WebDriverWait(Firefox, 15)
Firefox.get('https://music.163.com/#/song?id=32477986')
iframe = Firefox.find_element_by_xpath('//iframe[@id="g_iframe"]')
Firefox.switch_to.frame(iframe)
wait.until(EC.visibility_of_element_located((By.XPATH, '//div[2]/div/a[1]')))
play = Firefox.find_element_by_xpath('//div[2]/div/a[1]')
play.click()
time.sleep(10)
Firefox.get_log('performance')

这就是它失败的原因：

WebDriverException: Message: HTTP method not allowed

我如何使用 Python selenium 获取网络→媒体日志？我什至无法使日志记录首选项起作用。我发现的所有内容都使用“loggingPrefs”键，正如您所见，它不起作用。我好像依稀记得gecko:loggingPrefs但我无法通过谷歌搜索找到任何东西"gecko:loggingPrefs".

还有这条评论：使用 Selenium 从 Firefox 获取 console.log 输出 https://stackoverflow.com/questions/23231931/getting-console-log-output-from-firefox-with-selenium#comment72831205_23231931提到 driver.get_log('browser') 将不再工作。但尚不清楚它是否仅适用于browser或所有日志。

如何获取 Firefox 检查器日志以及如何将其范围缩小到网络→媒体选项卡？

我真的很抱歉，如果我没有表现出足够的研究努力，我到底如何在不使用谷歌的情况下在线研究一些东西呢？难道您从自己使用 Google 的经验中还不够了解吗？Google 永远不会理解您搜索词的含义，它只会查找包含关键字的文档，其中关键字随机散布在文档中，并且结果甚至不必包含所有内容关键词！

谷歌确实是一个糟糕的研究工具，我真的没有什么比谷歌更好的了。因此，如果这还不够，那么我不知道有什么可以算作足够的研究工作。

那么如何使用 Python 3.9.5 selenium 在 Firefox 中获取检查器→网络→媒体日志？

谷歌引导我来到这里，坦率地说，现场搜索引擎甚至比谷歌还要糟糕。我找不到我正在寻找的答案，这正是我在这里提出问题的原因。

经过更多研究，我终于发现了一些东西：https://stackoverflow.com/a/65538568/15290516 https://stackoverflow.com/a/65538568/15290516

这个答案让我离我的目标又近了一步，但我对 javascript 一无所知，测试返回：

JavascriptException: Message: Cyclic object value

但它确实指出了正确的方向，解决方案应该包括.execute_script()为了完成工作，但我不知道命令应该是什么，我尝试谷歌搜索：，亲自看看它返回什么。

嗯，我设法用 Chrome 获取性能日志并将其重定向到一个文本文件，我将其上传到谷歌云端硬盘 https://drive.google.com/file/d/1ml2GXi5wuHedROWLHsoJO7jacC7DJnTI/view?usp=sharing.

我已经在文件中找到了地址（Notepad++搜索.m4a），但我不知道如何以编程方式将结果过滤到与音乐文件相关的请求。

我想，现在我会被 Chrome 和性能日志困住。

但我真的不知道如何过滤请求以仅获取相关请求。那怎么办呢？

最后我自己完成了这件事，没有任何人的帮助。

技巧很简单，一旦你知道该怎么做，实现它并不难。

响应是 json 格式，所以我们需要json module.

json的结构各不相同，但第一级键是固定的，总是三个键：level, message, timestamp.

我们需要messagekey，它的value是一个封装在字符串中的json对象，所以我们需要json.loads打开它的包装。

这些打包的json对象的结构变化很大，但总有一个message钥匙和一个method里面的钥匙message key.

在这里，我们尝试抓取收到的媒体文件地址，长话短说，message→message→method键应该等于'Network.responseReceived'.

If message→message→method键等于'Network.responseReceived'，那么总会有一个message→message→params→response→mimeType key.

该键存储资源的文件类型，我就不告诉你细节了，我知道.mp4代表Motion Picture Expert Group-4是一种视频格式，但这里的媒体类型应该是'audio/mp4'.

如果满足所有有关条件，则媒体文件的地址的值为message→message→params→response→url key.

这是最终的代码：

import json
import os
import random
import sys
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

path = (os.environ['LOCALAPPDATA'] + '\\Google\\Chrome\\User Data')

options = webdriver.ChromeOptions()
options.add_argument('--disable-gpu')
options.add_argument('--headless')
options.add_argument('--log-level=3')
options.add_argument('--mute-audio')
options.add_argument(f'--user-data-dir={path}')

capabilities = DesiredCapabilities.CHROME
capabilities["goog:loggingPrefs"] = {'performance': 'ALL'}

Chrome = webdriver.Chrome(options=options, desired_capabilities=capabilities)
wait = WebDriverWait(Chrome, 5)

def getlink(addr):
    Chrome.get(addr)
    iframe = Chrome.find_element_by_xpath('//iframe[@id="g_iframe"]')
    Chrome.switch_to.frame(iframe)
    wait.until(EC.visibility_of_element_located((By.XPATH, '//div[2]/div/a[1]')))
    play = Chrome.find_element_by_xpath('//div[2]/div/a[1]')
    play.click()
    time.sleep(5)
    logs = Chrome.get_log('performance')
    addresses = []
    for i in logs:
        log = json.loads(i['message'])
        if log['message']['method'] == 'Network.responseReceived':
            if log['message']['params']['response']['mimeType'] == 'audio/mp4':
                addresses.append(log['message']['params']['response']['url'])
    check = set([i.split('/')[-1] for i in addresses])
    if len(check) == 1:
        return random.choice(addresses)

if __name__ == '__main__':
    print(getlink(sys.argv[1]))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python selenium 获取“开发者工具”→网络→媒体日志的相关文章

如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
如何为未捕获的异常处理程序编写单元测试

我有一个函数可以捕获uncaught例外情况如下有没有办法编写一个单元测试来执行uncaught exception handler 功能正常但测试正常退出 import logging def config logger logge
如何调整 matplotlib 单选按钮的大小和纵横比？

我已经尝试了几个小时来使简单的单选按钮列表的大小和纵横比正确但没有成功首先导入模块 import matplotlib pyplot as plt from matplotlib widgets import RadioButtons
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
Selenium IDE-自动化Select2搜索框

我正在尝试自动化 selenium IDE 中的 select2 搜索框我打开它并输入了我正在搜索的搜索关键字但是即使我有用于显示结果的代码它也不起作用问题是我猜字符输入得太快因此结果不会显示在搜索框中我确信我在某个地方出错了
为什么第二个 request.session cookies 返回空？

我想使用 requests Session post 登录网站但是当我已经登录主页然后进入帐户页面时看来cookies还没有保存因为cookies是空的而且我无法进入正确的帐户页面 import requests from bs4
带有空格的 Firestore 文档字段名称在 Python 中与 .where() 一起使用时会返回错误

使用 Firebase 的 Cloud Firestore 在 Python 3 7 中编写一个非常简单的程序在程序中我使用 where 下拉集合的一部分然后使用 for 循环对其进行迭代当任何带有空格的字段名称被传递到 where
OpenCV 跟踪器：模型未在函数 init 中初始化

在视频的第一帧我运行一个对象检测器它返回对象的边界框如下所示
如何使用 opencv python 计算乐高积木上的孔数？

我正在开发我的 python 项目我需要计算每个乐高积木组件中有多少个孔我将从输入 json 文件中获取有关需要计算哪个程序集的信息如下所示 img 001 red 0 blue 2 white 1 grey 1 yellow 1 r
python 中的 h2o 框架子集

如何在 python 中对 h2o 框架进行子集化如果 x 是一个 df 并且 Origin 是一个变量那么在 pandas 中我们通常可以通过以下方式进行子集化 x x Origin AAF 但使用 h2o 框架会出现以下错误 H2O
Python“非规范化”unicode 组合字符

我正在寻找标准化 python 中的一些 unicode 文本我想知道是否有一种简单的方法可以在 python 中获得组合 unicode 字符的非规范化形式例如如果我有序列u o xaf i e latin small lette
App Engine 实体到字典

将 google app engine 实体在 python 中复制到字典对象的好方法是什么我正在使用 db Expando 对象所有属性均为扩展属性 Thanks 有一个名为foo尝试 foo dict
Flask 应用程序路由中的多个参数

烧瓶怎么写app route如果我在 URL 调用中有多个参数这是我从 AJax 调用的 URL http 0 0 0 0 8888 createcm summary VVV change Feauure 我试图写我的烧瓶app rout
如何在 Seaborn 中的热图轴上表达类

我使用 Seaborn 创建了一个非常简单的热图显示相似性方阵这是我使用的一行代码 sns heatmap sim mat linewidths 0 square True robust True sns plt show 这是我得到的
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
基于值而不是类型的单次调度

我在 Django 上构建 SPA 并且有一个庞大的功能其中包含许多功能if用于检查我的对象字段的状态名称的语句像这样 if self state new do some logic if self state archive do s
使用 selenium 和 python 来提取 javascript 生成的 HTML？萤火虫？

这里是Python新手我遇到的是数据收集问题我在这个网站上当我用 Firebug 检查我想要的元素时它显示了包含我需要的信息的源然而常规源代码没有 Firebug 不会给我这个信息这意味着我也无法通过正常的 selenium
numpy polyfit 中使用的权重值是多少以及拟合误差是多少

我正在尝试对 numpy 中的某些数据进行线性拟合 Ex 其中 w 是该值的样本数即对于点 x 0 y 0 我只有 1 个测量值该测量值是2 2 但对于这一点 1 1 我有 2 个测量值值为3 5 x np array 0 1 2 3
根据多个阈值将 SciPy 分层树状图切割成簇

我想将 SciPy 的树状图切割成多个具有多个阈值的簇我尝试过使用 fcluster 但它只能削减一个阈值例如这是我从另一个问题中摘取的一段代码 import pandas data pandas DataFrame total ru
使用 paramiko 运行 Sudo 命令

我正在尝试执行sudo使用 python paramiko 在远程计算机上运行命令我尝试了这段代码 import paramiko ssh paramiko SSHClient ssh set missing host key polic

随机推荐

XPath语法：如何根据父div获取子div信息

我的 scrapy 项目的结果如下所示 div class news li div div class news li div div class news li div div class news li div 每个 news li 类
如何处理两个重叠 div 的“双重不透明度”

我有两个 div 不透明度均为 0 6 我需要它们重叠但保留其不透明度而不是创建新的组合不透明度级别我无法使用图像编辑小圆圈中应该有一个画布元素不确定伪元素是否是最佳解决方案有没有办法用 CSS 来做到这一点或者我应该只使用画
从CSS中的链接中删除下划线

我一直在尝试从网页中删除丑陋的下划线但由于某种原因它不会消失我尝试过使用text decoration none and color FFFFFF 无济于事原始CSS noday color ECECEC font family Ti
如何在鼠标悬停时立即停止 jcarousel 并在鼠标移出时继续

我试图用一个动作来停止转换在本例中是悬停但我不知道如何实现它这是我正在进行测试的地方 http lvamil net gla web http lvemil net gla web 我有3个实例jcarousel我的目标是在鼠标悬停时
如何鼓励用户填写长申请表？

我能想到的是根据用户的地理信息预先填充某些表单输入元素您还能想到哪些其他方法来加快用户在长申请表上的输入速度或者至少让他们专注于填写申请表如果你的形状很长请尝试修剪它不要要求他们填写您并不真正需要的字段如果表单跨越多个页面请向
SQL 中的小数位

我正在计算百分比一个例子是 38589 38400 因此百分比为 100 38589 38400 相当于 100 4921875 但结果显示为 100 如何让它显示 x 位小数同样如果我希望 2 显示为 2 000000 同样的工作吗
使用 Javascript 将对象（元素）向上移动一级

我有几个这样的对象我想搬家type and value向上一步这样他们就在旁边field 然后删除data 当departments转换为 JSON field DEPARTMAN NO data type numeric compar
如何为 BitSet 类型的元素创建 SortedSet（例如 TreeSet）

我有一个号码 power 2 k BitSet 对象我想将它们存储在SortedSet 我使用代码 Set
ArgumentError：发送消息需要 SMTP 收件人地址。设置消息 smtp_envelope_to、to、cc 或 bcc 地址

我得到了一个带有以下邮件配置的 Rails 4 应用程序 config action mailer delivery method smtp config action mailer default url options host myh
将 mssql 日期时间对象转换为 PHP 字符串

我正在从数据库中获取一些信息记录采用 MSSQL DateTime 格式当我返回它时它在我的数组中显示如下 arrayItem gt DateTime Object date gt 2008 06 05 09 14 11 timezo
使用 PYMC3 对 RV 求和

我正在尝试从图像中实现模型我是 PyMC3 的新手我不确定如何正确构建模型我的尝试如下 sample data logprem np array 8 66768002 8 49862181 8 60410456 8 54966038
crontab 并测试要执行的命令

我对 cron 和 crontab 很陌生我已经编辑了 crontab 文件并且需要手动执行其中一个命令以便我可以预先尝试并测试它我怎么做如果失败是否有显示错误的模式编写一个可以测试的 shell 脚本从 crontab 执
如何获取所有可用 shell 命令的列表

在典型的 Linux shell bash 中可以按两次 Tab 键来获取所有可用 shell 命令的列表是否有具有相同行为的命令我想将它通过管道输送到grep并搜索它你可以使用 compgen 例如 compgen c 您也可以
对自签名 uri 的 Angular https 调用失败并显示“net::ERR_CERT_AUTHORITY_INVALID”

我正在使用 Angular http 模块来调用由自签名证书启用的 https 端点代码类似于如下所示 export class AppComponent constructor private http HttpClient title
WordPress 给我提供了 404 页面，除了主页之外的所有页面均未找到

突然我转到我的 WordPress 网站所有页面都给我一个 404 页面未找到页面我假设问题出在永久链接结构上我可以发誓我没有碰过它永久链接设置位于月份和名称我在网上研究过这个问题的类似实例其中很多都与 htaccess文件
FullCalendar 类型错误：$(...).fullCalendar 不是函数

我试图放置 FullCalendar 2 1 1 但它不起作用
HTML：将块元素锚定在父块的底部？

是否有跨浏览器的方法来附加一些内容 div 至底部一个困难是 div 可能应用了任意高度但我希望某些内容始终粘在其底部在过去的糟糕日子里这本来可以像这样完成 table style height 1 tr td valign top
实现您自己的 LINQ 和 IEnumerable [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案在我正在从事的一个项目中确实有巨大的集合 1M 1B元素并且大部分内容都被修改为集合它是一个实时应用程序因此性能至关重要对于
如何更改 CakePHP 2.5 中的页面标题？

From 2 5 迁移指南 http book cakephp org 2 0 en appendices 2 5 migration guide html id1 title for layout已弃用使用 this gt fetch
Python selenium 获取“开发者工具”→网络→媒体日志

我正在尝试以编程方式做一些必然涉及获取开发人员工具网络媒体日志的事情我就不告诉你细节了长话短说我需要访问数千个页面如下所示 https music 163 com song id ID where ID等号后面是一个数字如果

Python selenium 获取“开发者工具”→网络→媒体日志

Python selenium 获取“开发者工具”→网络→媒体日志 的相关文章

随机推荐

热门标签

Python selenium 获取“开发者工具”→网络→媒体日志的相关文章