Python_爬虫复习_爬取直播间弹幕生成词云图

2023-10-27

爬取直播间弹幕,生成词云图

一、环境准备: 安装相关第三方库
pip install jieba
pip install wordcloud
二、数据准备:
爬取对象:2021年5月23号,RNG夺冠直播间的弹幕信息
爬取对象路径:
方式1、根据开发者工具(F12),获取请求url、请求头、cookie等信息;
方式2:根据直播地址url,前+字符i
我们这里演示的是,采用方式2。

三‘、代码如下’

import requests, re
import jieba, wordcloud

"""
# 以下是练习代码
def get_f12_barrage(url, headers, file_path):
    
    #通过f12中的,请求地址,获取弹幕数据
    #:param url:  通过弹幕地址(通过开发者工具,从请求数据中获取的)
    #:param headers:   请求头信息
    #:param file_path:  响应数据存储路径
    #:return:    无返回数据
    
    # 1、发送请求,接受响应数据
    response = requests.get(url=url, headers=headers)
    # 2、获取响应数据
    # 返回的响应可能是乱码的,需要先转成响应的编码格式
    # apparent_encoding的作用:会从网页的内容中分析网页编码的方式
    response.encoding = response.apparent_encoding
    # 3、解析响应数据
    content = response.text
    content_list = re.findall(":(.*?)@", content)
    # 4、存储响应数据, ”w+格式“,即文件存在则,先清空再写,不存在则新建文件
    with open(file_path, mode="w+", encoding="utf-8") as fp:
        for line in content_list:
            # 分析每一行,发现第一个字符元素不是想要的,先去除第一个字符
            fp.write(line[1:] + "\n")
    return file_path

"""
# ******************8********************执行代码如下******************************************
# 算法:先爬取数据,再根据爬取的数据,生成词云图
def get_barrage(url, headers, file_path):
    """
    通过请求网页前面+i的弹幕地址,获取弹幕数据
    :param url:  通过弹幕地址(网址前面+i)
    :param headers:   请求头信息
    :param file_path:  响应数据存储路径
    :return:    无返回数据
    """
    # 1、发送请求,接受响应数据
    response = requests.get(url=url, headers=headers)
    # 2、获取响应数据
    # 返回的响应可能是乱码的,需要先转成响应的编码格式
    # apparent_encoding的作用:会从网页的内容中分析网页编码的方式
    response.encoding = response.apparent_encoding
    # 3、解析响应数据
    # 此时response.text可能是乱码的
    content = response.text
    # 正则匹配响应数据,取数目标是(.*?)中的数据
    content_list = re.findall("<d p=\".*?\">(.*?)</d>", content)
    # 4、存储响应数据, ”w+格式“,即文件存在则,先清空再写,不存在则新建文件
    with open(file_path, mode="w+", encoding="utf-8") as fp:
        for line in content_list:
            fp.write(line + "\n")
    return file_path

# https://api.bilibili.com/x/v1/dm/list.so?oid=343174354
# https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid=343174354&date=2021-05-23


def make_word_cloud(word_file_path):
    # 1、打开文件,默认是gbk格式打开,这里指定utf-8打开
    with open(word_file_path, encoding="utf-8") as fp:
        content = fp.read()   # read方法返回的是一个字符串

    # 2、利用结巴,分割词,得到的是一个列表
    content_list = jieba.lcut(content)
    # 再用空格,拼接字符串
    content_str = " ".join(content_list)

    # 3、设置词云图
    wc_config = wordcloud.WordCloud(
        width=700,   # 宽度
        height=500,  # 高度
        background_color='black',  # 背景色
        font_path='msyh.ttc',   # 找字体的配置路径C:\Windows\Fonts\微软雅黑,然后双击(出现3个),选择【常规-属性】
        scale=15,   # 颜色像素
        stopwords={'了', '的'},  # 词云图中过滤掉一些字眼
        contour_width=5,  # 轮廓宽度
        contour_color='red'  # 轮廓颜色
    )

    # 4、根据输入文字内容,形成一个词云图,并存储在指定路径
    wc_config.generate(content_str)
    wc_config.to_file("e:\\reg_cloud.png")
    return word_file_path







if __name__ == "__main__":
    """
    # 从开发者工具或者抓包工具中获取url地址
    f12_url = 'https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid=343174354&date=2021-05-23'
    # 从开发者工具或者抓包工具中,获取请求头信息,主要包括cookie、user-agent
    header = {
        'cookie': 'bsource=search_baidu; _uuid=BBD44BE2-5DAA-A13A-A593-FD3A83C3929423721infoc; buvid3=18335C4D-A3A0-48D5-973A-7943D63AC73E34756infoc; CURRENT_FNVAL=80; blackside_state=1; rpdid=|(um|u)klum~0J\'uYkkJJkJJu; fingerprint=be684c13c90e4279aaaa3e2694da4285; buvid_fp=18335C4D-A3A0-48D5-973A-7943D63AC73E34756infoc; buvid_fp_plain=96D5E0EF-41D9-4A32-BE47-DFF96C44DB9F155821infoc; SESSDATA=f90082f7%2C1637884658%2C008f9%2A51; bili_jct=2f17a04a5651fb1c6579b73aeb640f7f; DedeUserID=1153205015; DedeUserID__ckMd5=b6f334f0a2d86238; sid=6vb9j9nl; bfe_id=6f285c892d9d3c1f8f020adad8bed553',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
    }
    # 申明存储文件的路径
    f12_file_path = "e:\\RNG.txt"
    """


    # 请求路径,是网页前面+i
    url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=343174354'
    file_path = "e:\\RNG_1.txt"
    # 请求头中需要包含cookie 和 user-agent,这些信息都可以用f12获取到,注意有些字符需要转义
    # 为了个人信息安全,这里的cookIe加密显示
    header = {
        'cookie': '********',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
    }
    # 调用方法
    get_barrage(url=url, headers=header, file_path=file_path)
    word_file_path = get_barrage(url=url, headers=header, file_path=file_path)
    make_word_cloud(word_file_path)

四、词云图效果展示
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python_爬虫复习_爬取直播间弹幕生成词云图 的相关文章

随机推荐

  • win10从控制台直接进入Anaconda Prompt环境

  • Uboot 编译失败问题

    编译失败问题汇总 索引 一 已经有uboot源码 并且有 build sh 的情况 一 已经有uboot源码 并且有 build sh 的情况 首先Makefile 没有配置编译器 导致的错误 错误提示信息如下 cc1 error bad
  • day27

    1 网络编程 a 软件 客户端 CS架构 client gt server 浏览器 BS架构 browser gt server b 如何实现相互通信 需求一 编写两个软件 软件之间相互通信 需求二 两个人直接连接 网线 需求三 教室相互通
  • 洛谷P1023 税收与补贴问题

    题目描述 你是某家咨询公司的项目经理 现在你已经知道政府对某种商品的预期价格 以及在各种价位上的销售情况 要求你确定政府对此商品是应收税还是补贴的最少金额 也为整数 才能使商家在这样一种政府预期的价格上 获取相对其他价位上的最大总利润 总利
  • Win10+RTX3060配置CUDA等深度学习环境

    Win10 RTX3060机器学习环境配置 1 下载准备 2 下载安装CUDA和CUDNN 2 1 cuda和cudnn下载 2 2 cuda和cudnn安装 3 安装GPU版pytorch与TensorFlow 3 1 下载 3 2 安装
  • synchronized修饰static方法与非static方法的区别

    当synchronized修饰一个static方法时 多线程下 获取的是类锁 即Class本身 注意 不是实例 作用范围是整个静态方法 作用的对象是这个类的所有对象 当synchronized修饰一个非static方法时 多线程下 获取的是
  • iOS第三方支付集成-支付宝支付

    吐槽一下支付宝的文档和demo 文档真是找的我眼花缭乱 demo写的也是看的捉急 没有微信的简单明了 不过全部找到后 静下心来研究 也还是可以的 一 进入官方下Demo 看文档 工欲善其事必先利其器 先看下demo总不是坏处 也可以学习一下
  • 《Spark大数据技术与应用》肖芳 张良均著——课后习题

    目录 教材 知识汇总 课后习题 第一章 Spark概述 Spark的特点 Spark生态圈 Spark应用场景 第二章 Scala基础 匿名函数 Set Map map flatMap groupBy 课后习题 第三章 Spark编程 教材
  • Unity mlagent中强化学习ppo算法的参数怎么设置?

    Unity ML Agents的PPO算法参数可以通过设置ML Agents的Hyperparameter设置来调整 具体有 batch size discount gae lambda learning rate entropy coef
  • 2022尚硅谷阳哥docker篇之Portainer的监控三剑客

    docker compose yml文件 version 3 1 volumes grafana data services influxdb image tutum influxdb 0 9 restart always environm
  • 戴尔,更换固态硬盘后no bootable devices found

    注意 操作之前要备份 备份 备份 更换固态硬盘后 出现no bootable devices found 可以尝试一下这个方法 https www zhihu com question 299594649 answer 1565769605
  • 机器人学:(1)机器人基础

    1 1 机器人机构 机器人的机械机构由一系列刚性构件 连杆 通过链接 关节 联结起来 机械臂的特征在于具有用于保证可移动性的臂 arm 提供灵活性的腕 wrist 和执行机器人所需完成任务的末端执行器 end effector 机器人分为串
  • TS:etcd集群某个etcd实例启动报错(报cluster ID mismatch)-2022.10.13(已解决)

    目录 文章目录 目录 1 报错现象 2 排查过程 3 解决过程 1 尝试办法1 2 尝试办法2 4 总结 引用 关于我 最后 1 报错现象 在k8s高可用集群搭建过程中 关于etcd集群搭建是 报错了 自己当时环境如下 本次复用3个node
  • Java基础题

    面向对象程序设计期末复习之手写代码 Java编程基础 1 定义一个整型的长度为6的一维数组k 6 并将数组中元素k i 值初始化为i 然后 将元素k 3 打印出来 class test1 public static void main St
  • ISIS简介、NSAP与NET地址、Router-Id转换成NET地址

    2 0 0 ISIS简介 NSAP与NET地址 Router Id转换成NET地址 ISIS简介 IS IS Intermediate System to Intermediate System 中间系统到中间系统 1 该协议最初是ISO国
  • 逆向思维:卡通照片真人化

    之前PaddleGAN的趣味应用如雨后春笋般地出现 非常多的项目都是xxx动漫化 当时就有一个很普通的想法为什么大家都会去搞动漫化 这很可能是因为二次元文化的原因 又或者是动漫化的应用 商业价值 就突然蹦出一个想法 为什么没人弄动漫真人化呢
  • free vs delete简洁版

    free释放的是指针指向的内存 回归到操作系统的空闲内存链表中 之后还需要程序员手动将对应的指针赋值成为NULL 不然那个指针还在 并且还指向那个内存 delete是调用的是对应的new 的变量的析构函数 delete对应new delet
  • 出现 Request Entity Too Large问题的解决方法

    根据经验判断应该是上传文件大小被限制了 检查了应用配置是10M 把它设置成100M 重启服务也不能解决问题 原来我们的tomcat是通过nginx发现服务代理的 问题就出现nginx服务器上 原来nginx默认长传文件的大小是1M 可在ng
  • VMware安装系统时“无法创建新虚拟机: 不具备执行此操作的权限“的解决方案

    VMware安装系统时 无法创建新虚拟机 不具备执行此操作的权限 的解决方案 参考文章 1 VMware安装系统时 无法创建新虚拟机 不具备执行此操作的权限 的解决方案 2 https www cnblogs com kailugaji p
  • Python_爬虫复习_爬取直播间弹幕生成词云图

    爬取直播间弹幕 生成词云图 一 环境准备 安装相关第三方库 pip install jieba pip install wordcloud 二 数据准备 爬取对象 2021年5月23号 RNG夺冠直播间的弹幕信息 爬取对象路径 方式1 根据