Python 爬虫小练习

2023-05-16

获得某易云音乐对应歌单下的所有歌曲的歌曲、专辑图片、歌手图片、lrc歌词

import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import urllib.request
import json
import re

headers = {
    'Referer': 'http://music.163.com/',
    'Host': 'music.163.com',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
}
play_url = 'http://music.163.com/playlist?id=752199922'

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
browser = webdriver.Chrome('D:/chromedriver_win32/chromedriver.exe', chrome_options=chrome_options) # 下载的chromedriver_win32的路径
browser.get(play_url)
browser.switch_to.frame('contentFrame')

trList = browser.find_element_by_class_name('m-table ').find_element_by_css_selector('tbody').find_elements_by_tag_name(
    'tr')
assets = []
for i in range(len(trList)):
    asset = []
    tdList = trList[i].find_elements_by_tag_name('td')
    musicID = str(tdList[1].find_element_by_tag_name('a').get_attribute('href')).split('?')[1]
    musicName = tdList[1].find_element_by_tag_name('a').find_element_by_tag_name('b').get_attribute('title')
    singer = tdList[3].find_elements_by_tag_name('a')
    singerList = []
    for j in range(len(singer)):
        singerUrl = singer[j].get_attribute('href')
        singerList.append(singerUrl)
    albumUrl = tdList[4].find_element_by_tag_name('a').get_attribute('href')
    musicUrl = 'http://music.163.com/song/media/outer/url?' + musicID + '.mp3'
    lyricUrl = 'http://music.163.com/api/song/lyric?' + musicID + '&lv=1&kv=1&tv=-1'
    asset.append(musicName)
    asset.append(musicUrl)
    asset.append(lyricUrl)
    asset.append(albumUrl)
    asset.append(singerList)
    assets.append(asset)

for i in assets:
    # 歌曲名称 歌曲下载地址 歌词lrc下载地址 专辑地址
    musicName = i[0]
    musicDownUrl = i[1]
    lrcDownUrl = i[2]
    albumUrl = i[3]
    singerUrl = i[4]
    try:
        # 下载歌曲
        urllib.request.urlretrieve(musicDownUrl, 'D:/歌曲/%s.mp3' % musicName)

        # 下载歌词
        html = requests.get(lrcDownUrl, headers=headers).text
        json_obj = json.loads(html)
        try:
            lrc = json_obj['lrc']['lyric']
            with open('D:歌词/{}.lrc'.format(musicName), 'a', encoding='utf-8') as fp:
                fp.write(lrc)
        except KeyError as e:
            pass

        # 下载专辑图片
        html = requests.get(albumUrl, headers=headers).text
        img = re.findall(r'<meta property="og:image" content="(.*?)" />', html, re.DOTALL)[0]
        req = requests.get(img)
        with open('D:/专辑图片/{}.jpg'.format(musicName), 'wb') as fp:
            fp.write(req.content)

        # 下载专辑图片
        html = requests.get(albumUrl, headers=headers).text
        img = re.findall(r'<meta property="og:image" content="(.*?)" />', html, re.DOTALL)[0]
        req = requests.get(img)
        albumName = re.findall(r'meta property="og:title" content="(.*?)" />', html, re.DOTALL)[0]
        with open('D:/专辑图片/{}.jpg'.format(albumName), 'wb') as fp:
            fp.write(req.content)

        # 下载歌手图片
        for k in singerUrl:
            html = requests.get(k, headers=headers).text
            img = re.findall(r'<meta property="og:image" content="(.*?)" />', html, re.DOTALL)[0]
            req = requests.get(img)
            singerName = re.findall(r'<meta name="keywords" content="(.*?)" />', html, re.DOTALL)[0]

            with open('D:/歌手图片/{}.jpg'.format(singerName), 'wb') as fp:
                fp.write(req.content)
        print('下载成功')
    except:
        print('下载失败')

只不过感觉下载速度有点慢，才60个资源就下了好久，不知道是不是用了chromedriver的原因

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 爬虫小练习的相关文章

MediaPipe基础（9）手指计数

本文实现手指计数 xff0c 可以实现0 5的计数链接 xff1a https span class token punctuation span span class token operator span pan span class
OpenCV基础（19）使用 OpenCV 和 Python 检测 ArUco 标记

在本教程中 xff0c 您将学习如何使用 OpenCV 和 Python 检测图像和实时视频流中的 ArUco 标记 1 使用 OpenCV 和 Python 检测 ArUco 标记在本教程的第一部分 xff0c 您将了解 OpenCV
目标跟踪（7）使用 OpenCV 进行简单的对象跟踪

1 简述目标跟踪的过程是 1 获取对象检测的初始集例如边界框坐标的输入集 2 为每个初始检测创建唯一的ID3 然后跟踪每一个在视频中移动的对象 xff0c 保持唯一ID的分配此外 xff0c 对象跟踪允许我们为每个跟踪对象应用唯一 I
基于OpenCV的轮廓检测（1）

1 目标理解什么叫做轮廓学习如何寻找轮廓以及可视化轮廓找出轮廓的不同特征 xff0c 如面积周长质心边框等将看到许多与轮廓相关的函数 2 什么叫做轮廓轮廓可以简单地解释为连接所有连续点 xff08 沿着边界 xff09 的曲线 x
自动驾驶数据标注技术：如何解决数据标注难题？

自动驾驶数据标注技术是现代自动驾驶汽车发展过程中必不可少的一部分 xff0c 因为它能够提高自动驾驶汽车的性能 xff0c 确保其安全性和准确性然而 xff0c 数据标注的难题也给自动驾驶汽车的发展带来了挑战下面是关于自动驾驶数据标注技
在mac m1上安装docker并在浏览器启动Ubuntu环境

目录一些前言 xff08 说明我要这样做的原因 xff0c 很啰嗦 xff0c 建议直接跳过 xff09 安装docker用docker启动ubuntu的环境在ubuntu中安装qt5qt5bug解决qt5卸载一些前言 xff08 说明
【3D打印机】原来配置Marlin2.0这么简单，别说我没告诉你。

96 96 可能由于各人的打印机款式不同 xff0c 某些参数没有出现在文中 xff0c 但是只要你完全看完本指南 xff0c 就可以理解Marlin是如何工作的 xff0c 我相信在此基础上 xff0c 你在固件中找到哪些不同配置并不困难
Ubuntu18.0 PX4+ROS+MAVROS+Gazebo仿真环境搭建

Ubuntu18 0 PX4 43 ROS 43 MAVROS 43 Gazebo仿真环境搭建 PX4 xff1a 更新git 连接VPN下载安装 xff0c https docs px4 io master en dev setup bu
PX4 APM ROS MAVROS Gazebo之间关系

https www cnblogs com yilangUAV p 14476923 html 1 PX4与APM 参考 https bbs amovlab com forum php mod 61 viewthread amp tid 6
MAVROS机外（offboard）控制例程

PX4与ROS各部分的关系 Simulator仿真器 xff08 Gazebo xff09 xff1a 模拟真实飞行 xff0c 即模拟计算出真实飞行时的传感器状态 xff0c 包括GPS xff0c IMU xff08 惯性测量单元 xf
罗素“杀死了”康托尔

英国数学家罗素提出的著名的罗素悖论 xff0c 直接证明了作为数学大厦基础的集合论是有问题的 xff0c 这也导致了集合论的发现者康托尔一次又一次的经历着罗素的劫难却也解决不了这个问题 xff0c 最终死在了自己工作的哈佛大学精神
px4与gazebo的多无人机编队仿真 offboard模式

转载原文链接 xff1a https blog csdn net weixin 43409270 article details 114703341 多机仿真 1 修改launch文件在 PX4 Autopilot launch目录下
ubuntu18.04的APM环境搭建过程

ubuntu18 04的APM环境搭建过程配置APM环境结合gazebo软件进行仿真Ardupilot之Mavros实现Ros节点控制配置APM环境官方文档 https ardupilot org dev docs building
使用Dronekit控制无人机，DroneKit配置

DroneKit Python是一个用于控制无人机的Python库 DroneKit提供了用于控制无人机的API xff0c 其代码独立于飞控 xff0c 单独运行在机载电脑 xff08 Companion Computer xff09 或
[pixhawk笔记]-飞行模式

pixhawk笔记飞行模式参考 xff1a https www cnblogs com spyplus p 7351690 html 本文翻译自px4官方开发文档 xff1a https dev px4 io en concept fl
常见网络摄像机的端口及RTSP地址

之前用opencv抓视频流搞了很久 xff0c 终于找到一篇比较靠谱的文章亲测雄迈ip摄像头有效海康威视默认IP地址 xff1a 192 168 1 64 DHCP 用户名admin 密码自己设端口 xff1a HTTP 端口 xf
Vue i18n学习记录

昨天接触到了Vue i18n国际化先去搜索了官网都看了一遍有个大致印象以后发现不知道把他的列子写在哪里 xff08 我想找个视频教程都没得 xff09 就是像下面这个图一样你到底是放在哪里的 xff1f xff1f xff1f xf
Vue项目i18n国际化语言切换

1 安装依赖 npm install vue i18n 2 在目录下创建所需文件目录结构在main js中引入 import Vue from 39 vue 39 import App from 39 App vue 39 import
噔噔噔噔~冒泡排序算法

冒泡排序算法冒泡排序算法原理 xff1a 1 比较相邻的元素如果第一个比第二个大 xff0c 就交换他们两个 2 对每一对相邻元素作同样的工作 xff0c 从开始第一对到结尾的最后一对最后的元素会是最大的数 3 针对所有的元素重复以上
微信小程序Map组件全屏显示

微信小程序Map组件全屏显示本人今天遇到了这个问题想要小程序Map组件全屏显示设置css样式height 100 xff1b 是不生效得需要用单位vh 设置css样式为height 100vh xff1b 就可以了仅供参考哦

随机推荐

vue+vant 实现列表上下排序

vue 43 vant 实现列表上下排序 span class token operator lt span template span class token operator gt span span class token opera
用VNC实现远程桌面共享(支持Windows, Linux, ...)

博客已迁到新址 xff0c 请访问Easwy的博客 http easwy com blog 本文链接地址 xff1a http easwy com blog archives linux remote desktop by vnc
[Vue warn]: ＜transition-group＞ children must be keyed: ＜div＞报错解决

标题 Vue warn children must be keyed 今天学习了VUE的列表排序过渡碰见报错报错之前代码为 xff1a span class token operator lt span transition span
小程序用vant-weapp van-field输入框获取不到输入值问题（已解决）

废话不多说直接上代码主要的解决问题的是 bind blur 61 xxx span class token operator lt span van span class token operator span field value s
webstorm手动更新软件

webstorm手动更新软件打开软件 xff0c 进入设置settings搜索Updates点击check now按弹出框内容点击下载更新
vue elementUI点击按钮复制表格某列的链接

vue elementUI点击按钮复制表格某列链接 lt el table data 61 34 gridData 34 size 61 34 mini 34 gt lt el table column type 61 34 selecti
vue 列表进行拖拽排序

文章为记录项目需引入插件vuedraggable handle 61 34 mover 34 为绑定拖拽图标的类名 xff0c 即可只能在图标上才可拖拽 lt el form item label 61 34 34 gt lt ul cl
vue elementui表单验证

this refs form validateField 39 type 39 只为项目记录这个代码为对部分表单字段进行校验的方法
element ui分开的开始结束日期验证

废话不多说直接上代码 lt el form v show 61 34 showSearch 34 ref 61 34 queryForm 34 model 61 34 queryParams 34 inline 61 34 true 34
ant.design pro表格序号自定义，翻页也可按顺序来

title 39 序号 39 dataIndex 39 index 39 valueType 39 indexBorder 39 width 48 hideInSearch true render text record index 61
ant.design pro 发布时间对应两个参数值

title 39 时间 39 dataIndex 39 deployTime 39 valueType 39 dateRange 39 hideInSearch false render record 61 gt lt span gt re
微信小程序图片水印添加

js getCanvasOne url var mycenter 61 0 文字左右居中显示 var myheight 61 0 文字高度 const that 61 this const query 61 wx createSelecto
anaconda出现CondaHTTPError问题解决办法

一 condarc xff08 conda 配置文件 xff09 Configuration Conda documentation condarc以点开头 xff0c 一般表示 conda 应用程序的配置文件 xff0c 在用户的家目录
使用kalibr标定imu

这种方法需要在ubuntu中安装matlab 本人只标定的imu 没有和摄像头联合标定 xff0c 方法和imu utils类似 xff0c 先用ros记录imu数据 xff0c 在通过kalibr来计算随机游走误差和高斯白噪声误差 1 首
联合标定双目相机和imu,使用工具Kalibr

文章目录 imu标定 xff0c 产生数据写入imu yaml中 xff0c 见下文 xff0c imu yaml文件要用于联合标定双目相机标定 xff0c 产生数据文件用于联合标定 xff0c 文件名类似camchain homeubu
matlab从txt文件中提取出有效信息

背景从一份txt文件中筛选出有效信息 xff0c txt文件有非常多行 xff0c 依靠关键字筛选出有效行 xff0c 并从行中提取有效信息 test txt文件例如 xff1a aaa 1 2 3 valid 0 1 0 2 0 3 a
Python 基础第一天

print 34 Hello World 34 print 34 你好 xff0c 世界 34 在 Python 中以单下划线 xff08 xff09 开头命名的标识符表示不能直接访问的类属性 xff0c 以双下划线 xff08 xff0
Python 基础第二天

import random import math 集合 xff08 set xff09 是一个无序的不重复元素序列可以使用或 set 函数创建集合值得注意的是一个空集合必须用set xff0c 使用创建时会创建一个空字典 bas
Django 第六天

Django高级扩展静态文件 xff1a css xff0c js xff0c 图片 xff0c Json文件 xff0c 字体文件等配置settings py xff1a STATICFILES DIRS span class tok
Python 爬虫小练习

获得某易云音乐对应歌单下的所有歌曲的歌曲专辑图片歌手图片 lrc歌词 span class token keyword import span requests span class token keyword from span b

Python 爬虫 小练习

获得某易云音乐 对应歌单下的所有歌曲的歌曲、专辑图片、歌手图片、lrc歌词

Python 爬虫 小练习 的相关文章

随机推荐

热门标签

Python 爬虫小练习

获得某易云音乐对应歌单下的所有歌曲的歌曲、专辑图片、歌手图片、lrc歌词

Python 爬虫小练习的相关文章