Python——beautiful,requests,歌单(多线程)

2023-11-15

一、定义三个函数方便之后调用

1.由url获取soup函数

2.传入soup，进具体信息进行解析

3.由图片链接保存到本地

二、生产-消费主模块（精华部分）

1.获取一个分类下的所有歌单的id，相当于生产者

2.对每个id，获取歌单的详细信息，相当于消费者

三、主要代码展示

一、定义三个函数方便之后调用

1.由url获取soup函数

2.传入soup，进具体信息进行解析

3.由图片链接保存到本地

def get_soup(url):
    '''传入url，得到soup库解析后的结果'''
    response = requests.get(url)
    html = response.text
    soup = BeautifulSoup(html, 'html.parser')
    return soup

def parsing_information(ids,soup,count):
    '''传入上一节的解析内容，对具体信息进行解析'''
    # 获取歌单标题,替换英文分割符
    title = ids[count]['title'].replace(',', '，')
    # 获取歌单id
    id = ids[count]['href']
    #获取创建者昵称
    nickname = soup.select('.s-fc7')[0].get_text()
    #获取介绍
    description = soup.select('p')[1].get_text()
    #获取歌曲数量
    song_num = soup.select('span span')[0].get_text()
    #获取播放量
    play_num = soup.select('strong')[0].get_text() 
    #获取分享次数
    share_num = soup.select('a i')[2].get_text()    
    #获取评论次数
    comment_num = soup.select('a i')[4].get_text()  #评论次数
    list1 = [title,id,nickname,description,song_num,play_num,share_num,comment_num]
    return list1
    
def save_picture(soup):
    '''这是一个传入soup，保存照片到路径的函数'''
    lis = soup.select('#m-playlist')
    img_url = lis[0].select('.j-img')[0]['data-src']
    img = requests.get(url=img_url)
    name_id = str(random.random())
    if os.path.exists(r'E:/学习文件/大三上/现代程序设计/第十二次作业/图片/' + name_id) == False:
        os.mkdir(r'E:/学习文件/大三上/现代程序设计/第十二次作业/图片' + name_id)
    f = open('E:/学习文件/大三上/现代程序设计/第十二次作业/图片/' + name_id +  + ".jpg", "wb")
    f.write(img.content)
    f.close()

二、生产-消费主模块（精华部分）

1.获取一个分类下的所有歌单的id，相当于生产者

传入的q是多线程中使用的队列，函数末尾使用put()函数传入

def producer(q,url):  
    soup = get_soup(url)
    # 获取包含歌单详情页网址的标签
    #对dec a的class进行选择
    ids = soup.select('.dec a')
    q.put(ids)

2.对每个id，获取歌单的详细信息，相当于消费者

def consumer(q):
    row_topname = ['歌曲标题','id','昵称','简介','歌曲数量','播放量','分享次数','评论次数']
    file = open('playlist.csv', 'w', encoding='utf-8')
    csv_writer = csv.writer(file)  #csv格式写入文件file
    csv_writer.writerow(row_topname)
    ids = q.get()
    count = 0
    for id in ids:
        url = 'https://music.163.com/' + id['href']  #生产者传递的id链接
        soup = get_soup(url)
        #使用自定义的解析函数，返回信息列表
        list1 = parsing_information(ids, soup, count)
        #使用自定义的图片保存函数
        save_picture(soup)
        #写入信息进csv文件
        csv_writer.writerow(list1)
        count = count + 1  #计数器
    file.close()

三、主要代码展示

def get_soup(url):
    '''传入url，得到soup库解析后的结果'''
    response = requests.get(url)
    html = response.text
    soup = BeautifulSoup(html, 'html.parser')
    return soup

def parsing_information(ids,soup,count):
    '''传入上一节的解析内容，对具体信息进行解析'''
    # 获取歌单标题,替换英文分割符
    title = ids[count]['title'].replace(',', '，')
    # 获取歌单id
    id = ids[count]['href']
    #获取创建者昵称
    nickname = soup.select('.s-fc7')[0].get_text()
    #获取介绍
    description = soup.select('p')[1].get_text()
    #获取歌曲数量
    song_num = soup.select('span span')[0].get_text()
    #获取播放量
    play_num = soup.select('strong')[0].get_text() 
    #获取分享次数
    share_num = soup.select('a i')[2].get_text()    
    #获取评论次数
    comment_num = soup.select('a i')[4].get_text()  #评论次数
    list1 = [title,id,nickname,description,song_num,play_num,share_num,comment_num]
    return list1
    
def save_picture(soup):
    '''这是一个传入soup，保存照片到路径的函数'''
    lis = soup.select('#m-playlist')
    img_url = lis[0].select('.j-img')[0]['data-src']
    img = requests.get(url=img_url)
    name_id = str(random.random())
    if os.path.exists(r'E:/学习文件/大三上/现代程序设计/第十二次作业/图片/' + name_id) == False:
        os.mkdir(r'E:/学习文件/大三上/现代程序设计/第十二次作业/图片' + name_id)
    f = open('E:/学习文件/大三上/现代程序设计/第十二次作业/图片/' + name_id +  + ".jpg", "wb")
    f.write(img.content)
    f.close()

def producer(q,url):  
    soup = get_soup(url)
    # 获取包含歌单详情页网址的标签
    #对dec a的class进行选择
    ids = soup.select('.dec a')
    q.put(ids)  

def consumer(q):
    row_topname = ['歌曲标题','id','昵称','简介','歌曲数量','播放量','分享次数','评论次数']
    file = open('playlist.csv', 'w', encoding='utf-8')
    csv_writer = csv.writer(file)  #csv格式写入文件file
    csv_writer.writerow(row_topname)
    ids = q.get()
    count = 0
    for id in ids:
        url = 'https://music.163.com/' + id['href']  #生产者传递的id链接
        soup = get_soup(url)
        #使用自定义的解析函数，返回信息列表
        list1 = parsing_information(ids, soup, count)
        #使用自定义的图片保存函数
        save_picture(soup)
        #写入信息进csv文件
        csv_writer.writerow(list1)
        count = count + 1  #计数器
    file.close()
if __name__ == '__main__':
    url_list = []
    plist,clist = [],[]
    q = Queue()
    for n in range(0,1355,35):
        url = f'https://music.163.com/discover/playlist/?order=hot&cat=%E8%AF%B4%E5%94%B1&limit=35&offset={n}'
        url_list.append(url)
    for url in url_list:
        p = Thread(target=producer,args=(q,url,))
        plist.append(p)
    for p in plist:  
        p.start()
    for t in plist:
        p.join()
    for i in range(100): 
        c = Thread(target=consumer,args=(q,))
        clist.append(c)
    for c in clist:  #启动线程
        c.start()
    for c in clist:
        q.put(None)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python基础学习

python

开发语言

Python——beautiful,requests,歌单(多线程) 的相关文章

在 gtk.main() 执行时与 gtk.container 交互？

目前在 Python 中使用电池监视器图标进行实验pygtk and egg trayicon创建一个图标来显示电池图标工具提示我似乎能够添加图标和工具提示文本但是当它到达gtk main 阶段我需要一种方法来修改这些以便它可以显示
Urllib 的 urlopen 在某些网站上被破坏（例如 StackApps api）：返回垃圾结果

我在用着urllib2 s urlopen函数尝试从 StackOverflow api 获取 JSON 结果我正在使用的代码 gt gt gt import urllib2 gt gt gt conn urllib2 urlopen h
如何使用 Julia 查找矩阵中的连通分量

假设我有以下矩阵此处用 Julia 语言定义 mat 1 1 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 1 1 将一组值为 1 的相邻元素视为一个分量如何识别该矩阵有 2 个分量以及每个分量由哪些顶点组成对于矩
pandas DataFrame：获取上个月缺少交易且无法移位（）的值

有没有办法在不生成虚拟行的情况下实现这一点这是我的数据源 Group Store Month Revenue Group1 A 201611 10 Group1 A 201612 20 Group1 A 201701 30 Group1
如何将多项式拟合到带有误差线的数据

我目前正在使用 numpy polyfit x y deg 将多项式拟合到实验数据然而我想拟合一个基于点误差使用加权的多项式我已经发现scipy curve fit http docs scipy org doc scipy refe
Heroku 上的 Django 应用程序在一段时间后删除对象

我编写了一个简单的 Django 问答论坛应用程序并将其部署在 Heroku 上该网站的本地版本运行良好但是生产版本不会将问题答案等存储超过几个小时我决定坚持使用 Django 附带的 sqlite3 我预计该网站不会有太多流量
numpy：与索引数组有效求和

假设我有 2 个矩阵 M 和 N 都有 gt 1 列我还有一个索引矩阵 I 有 2 列 1 列代表 M 一列代表 N N 的索引是唯一的但 M 的索引可能出现多次我想要执行的操作是 for i j in w M i N j 除了 fo
如何更改 Python 函数的表示形式？

gt gt gt def hehe return spam gt gt gt repr hehe
使用 scikit-learn 在朴素贝叶斯分类器中混合类别数据和连续数据

我正在使用 Python 中的 scikit learn 开发分类算法来预测某些客户的性别除此之外我想使用朴素贝叶斯分类器但我的问题是我混合了分类数据例如在线注册接受电子邮件通知等和连续数据例如年龄长度会员资格等
如何在 Django Admin 中禁用事务？

I used transaction non atomic requests for 被超越的save in Person model如下所示 store models py from django db import models fro
忽略覆盖率报告中的空文件

覆盖率 py https github com nedbat coveragepy会包括 init py在其报告中并将其显示为 0 行但覆盖率为 100 我想从覆盖率报告中排除所有空白文件我不能只添加 init py to omit作为
无法解析 ReferenceProperty -- App Engine

我遇到了一个错误无法找出其根本原因错误如下 ReferenceProperty 无法解析 u StatusLog STATUSLOGSID 此错误仅有时发生大约一天一次或两次生成此错误的脚本成功的次数多于失败的次数该错误最奇怪的事
Pandas 使用 NaN 进行数据透视或重塑数据框

我有这个数据框我需要根据以下数据进行旋转或重塑frame col df frame 0 0 1 1 2 2 3 0 4 1 5 2 pvol 0 nan 1 nan 2 nan 3 23 1 4 24 3 5 25 6 vvol 0 10
ModuleNotFoundError：没有名为“googleapiclient”的模块

如果这是一个愚蠢的问题我深表歉意我在 stackoverflow 上搜索过但没有找到解决办法我正在致力于从 Python 2 7 迁移到 Python 3 8 我收到一个程序的以下错误请帮我 Traceback most rece
连接 Flask Socket.IO Server 和 Flutter

基本上我有一个套接字 io 烧瓶代码 import cv2 import numpy as np from flask import Flask render template from flask socketio import Soc
为什么我只能在异步函数中使用await关键字？

假设我有这样的代码 async def fetch text gt str return text async def show something something await fetch text print something 这很
无法使用 Python 3 编写的 gzip.open() 将压缩文件上传到云存储

当我尝试在 Cloud Shell 实例上使用 python 脚本将压缩的 gzip 文件上传到云存储时它总是上传一个空文件这是重现错误的代码 import gzip from google cloud import storage s
将 PySpark RDD 作为新列添加到 pyspark.sql.dataframe

我有一个 pyspark sql dataframe 其中每一行都是一篇新闻文章然后我有一个 RDD 来表示每篇文章中包含的单词我想将单词的 RDD 作为名为单词的列添加到我的新文章数据框中我试过 df withColumn wo
Python tkinter：在组合框中使用“文本变量”似乎没用

使用textvariable在 tkinter 中创建组合框时的属性似乎完全没用有人可以解释一下目的是什么吗我查看了 Tcl 文档它说textvariable用于设置默认值但看起来在 tkinter 中您只需使用 set方法来做到这
Pepper Robot：如何将 Python 地标检测移植到 Choregraphe？

我正在尝试编写一个小程序让 Pepper 通过 Choregraphe 检查房间内的地标用于地标检测的常规 Python 代码工作得很好但我无法将其移植到 Choregraphe http doc aldebaran com 2 5

随机推荐

【C++】类的小练习

目录基本知识例题1 正方体完整代码不足例题2 点与圆要点完整代码头文件point h 源文件基本知识 class 类名访问权限属性参数行为函数注类中的属性和行为统称为成员属性也称成员属性成员变量行为
Binder机制详解（三）

系列目录 Binder机制详解一 Binder机制详解二文章目录前言一 Binder机制理解二应用层 1 Linux下的进程通信 2 binder通信 3 stub 4 流程总结三 native层 1 Binder基于mma
【计算机视觉

文章目录一分割语义相关 18篇 1 1 TomatoDIFF On plant Tomato Segmentation with Denoising Diffusion Models 1 2 CGAM Click Guided Att
k8s跨namespace复制pvc方式之一

前言今天发现小伙伴把mysql的pod部署到了default命名空间下而且已经用了好久而恰巧我们清理k8s空间就把他pod删了小伙伴很恼火哈哈哈哈 default命名空间禁止部署业务pod 幸好pvc还在那如何把default
如何用 Github Pages 免费部署静态站点

最低成本部署静态网站所谓静态网站是指它所有内容都是静态的即预先编写好并存储在服务器上访问者获取到的是事先准备好的静态文件所以完全不需要购买服务器除了域名之外几乎不会有其他花销我在构建五个静态站点的过程中积累了大量经验本篇
sql uniqueidentifier转换成varchar 数据类型

塗聚文 Geovin Du DECLARE myid uniqueidentifier SET myid NEWID SELECT CONVERT char 255 myid AS char GO 塗聚文 Geovin Du declare
css背景图片和背景颜色一起显示

如果需要在一个元素中既要显示背景图片也要显示背景颜色我们都知道背景图片可以使用background image url 来指定也可以省略image 但是如果我们既显示背景图片又要显示背景颜色那么我们可以将background url
使用grep 过滤logcat输出

转自 http www xmumu com post 2012 02 15 15478732 如何过滤 adb logcat 输出简介本文介绍如何在shell 命令行中过滤 adb logcat 输出的几个小技巧开发当中经常看到别人的
自定义busybox文件系统存在的问题

1 串口终端看不到命令行入口只能在显示器端HDMI 看到 2 内核默认无法加载除了busybox openwrt文件系统 debian ubuntu无法加载
缓冲转换流

只用字符流时可能出现乱码而转换流可以解决这个问题再加上缓冲流又可以提高效率 import java io BufferedReader import java io BufferedWriter import java io FileI
C++&QT-day5

作业多重继承 1 定义一个学生类 Student 私有成员属性姓名年龄分数成员方法无参构造有参构造析构函数 show函数 2 再定义一个党员类 Party 私有成员属性党组织活动组织成员方法无参构造有参构造析构函
python封装一个logging模块，可以直接使用

记录下遇到的问题以及解决方法日志等级等级等级代码翻译 NOTSET 0 未设置 DEBUG 10 调试 INFO 20 信息 WARNING 30 警告 WARN 30 警告 ERROR 40 错误 CRITICAL 50 至关重要
【论文阅读】Multimodal Fusion with Co-Attention Networks for Fake News Detection --- 虚假新闻检测，多模态融合

本博客系本人理解该论文之后所写非逐句翻译预知该论文详情请参阅论文原文论文标题 Multimodal Fusion with Co Attention Networks for Fake News Detection 作者 Yang
学深度学习可以做什么？可以从事什么工作？

学习深度学习可以让您涉足人工智能领域的前沿为各种领域带来巨大的创新和改进机会深度学习的核心思想是通过多层神经网络模拟人类大脑的工作方式从而实现对复杂数据的高级处理和理解这为以下方面的应用提供了广泛的可能性学深度学习可以做什么首先
分布式爬虫学习笔记

安装python 虚拟环境将使用python2 3的项目分开 1 安装virtualenvcmd cmd命令 pip install virtualenv 2 因为下载开发包很慢所以下载开发包的第三方镜像 python豆瓣源百度安装
精品，全网最详细-软件测试技术自动化测试总结，最屌详解看了默默卷起来

目录导读一自动化测试二自动化测试的意义三手工测试的局限性四自动化测试带来的好处五自动化测试的前提条件 1 需求变动不频繁 2 项目周期足够长 3 自动化测试脚本可重复使用 4 手工测试无法完成六自动化测试的方法七
使用Python编写一个多线程的12306抢票程序

国庆长假即将到来大家纷纷计划着自己的旅行行程然而对于很多人来说抢购火车票人们成了一个令人头疼的问题 12306网站的服务器经常因为流量高而崩溃导致抢票变得越来越严重异常困难首先让我们来了解一下12306抢票的难点由于很多人都
程序员的职级和薪酬体系

今天我们要讨论一个程序员都关心的话题学了程序到底能赚多少钱老有人问学程序到底有没有前途我应该是学前端呢还是应该学大数据程序员百万年薪到底有多难其实这些问题抛开兴趣的本质都在问一个问题当了程序员能赚多少钱我相信广大程序员的力
MYSQL lag（）和lead（）函数用法

这两个函数是偏移量函数可以查出一个字段的前面N个值或者后面N个值配合over来使用下面举例说明新建表格如下 drop table if exists exam record CREATE TABLE exam record id i
Python——beautiful,requests,歌单(多线程)

目录一定义三个函数方便之后调用 1 由url获取soup函数 2 传入soup 进具体信息进行解析 3 由图片链接保存到本地二生产消费主模块精华部分 1 获取一个分类下的所有歌单的id 相当于生产者 2 对每个id 获取歌单的详

Python——beautiful,requests,歌单(多线程)

一、定义三个函数方便之后调用

1.由url获取soup函数

2.传入soup，进具体信息进行解析

3.由图片链接保存到本地

二、生产-消费主模块（精华部分）

1.获取一个分类下的所有歌单的id，相当于生产者

2.对每个id，获取歌单的详细信息，相当于消费者

三、主要代码展示

Python——beautiful,requests,歌单(多线程) 的相关文章

随机推荐

热门标签