Python_爬虫复习_爬取直播间弹幕生成词云图

2023-10-27

`爬取直播间弹幕，生成词云图`

一、环境准备： 安装相关第三方库
pip install jieba
pip install wordcloud
二、数据准备：
爬取对象：2021年5月23号，RNG夺冠直播间的弹幕信息
爬取对象路径：
方式1、根据开发者工具（F12），获取请求url、请求头、cookie等信息；
方式2：根据直播地址url，前+字符i
我们这里演示的是，采用方式2。

三‘、代码如下’

import requests, re
import jieba, wordcloud

"""
# 以下是练习代码
def get_f12_barrage(url, headers, file_path):
    
    #通过f12中的，请求地址，获取弹幕数据
    #:param url:  通过弹幕地址（通过开发者工具，从请求数据中获取的）
    #:param headers:   请求头信息
    #:param file_path:  响应数据存储路径
    #:return:    无返回数据
    
    # 1、发送请求，接受响应数据
    response = requests.get(url=url, headers=headers)
    # 2、获取响应数据
    # 返回的响应可能是乱码的，需要先转成响应的编码格式
    # apparent_encoding的作用：会从网页的内容中分析网页编码的方式
    response.encoding = response.apparent_encoding
    # 3、解析响应数据
    content = response.text
    content_list = re.findall(":(.*?)@", content)
    # 4、存储响应数据, ”w+格式“，即文件存在则，先清空再写，不存在则新建文件
    with open(file_path, mode="w+", encoding="utf-8") as fp:
        for line in content_list:
            # 分析每一行，发现第一个字符元素不是想要的，先去除第一个字符
            fp.write(line[1:] + "\n")
    return file_path

"""
# ******************8********************执行代码如下******************************************
# 算法：先爬取数据，再根据爬取的数据，生成词云图
def get_barrage(url, headers, file_path):
    """
    通过请求网页前面+i的弹幕地址，获取弹幕数据
    :param url:  通过弹幕地址（网址前面+i）
    :param headers:   请求头信息
    :param file_path:  响应数据存储路径
    :return:    无返回数据
    """
    # 1、发送请求，接受响应数据
    response = requests.get(url=url, headers=headers)
    # 2、获取响应数据
    # 返回的响应可能是乱码的，需要先转成响应的编码格式
    # apparent_encoding的作用：会从网页的内容中分析网页编码的方式
    response.encoding = response.apparent_encoding
    # 3、解析响应数据
    # 此时response.text可能是乱码的
    content = response.text
    # 正则匹配响应数据，取数目标是(.*?)中的数据
    content_list = re.findall("<d p=\".*?\">(.*?)</d>", content)
    # 4、存储响应数据, ”w+格式“，即文件存在则，先清空再写，不存在则新建文件
    with open(file_path, mode="w+", encoding="utf-8") as fp:
        for line in content_list:
            fp.write(line + "\n")
    return file_path

# https://api.bilibili.com/x/v1/dm/list.so?oid=343174354
# https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid=343174354&date=2021-05-23


def make_word_cloud(word_file_path):
    # 1、打开文件，默认是gbk格式打开，这里指定utf-8打开
    with open(word_file_path, encoding="utf-8") as fp:
        content = fp.read()   # read方法返回的是一个字符串

    # 2、利用结巴，分割词,得到的是一个列表
    content_list = jieba.lcut(content)
    # 再用空格，拼接字符串
    content_str = " ".join(content_list)

    # 3、设置词云图
    wc_config = wordcloud.WordCloud(
        width=700,   # 宽度
        height=500,  # 高度
        background_color='black',  # 背景色
        font_path='msyh.ttc',   # 找字体的配置路径C:\Windows\Fonts\微软雅黑,然后双击（出现3个），选择【常规-属性】
        scale=15,   # 颜色像素
        stopwords={'了', '的'},  # 词云图中过滤掉一些字眼
        contour_width=5,  # 轮廓宽度
        contour_color='red'  # 轮廓颜色
    )

    # 4、根据输入文字内容，形成一个词云图，并存储在指定路径
    wc_config.generate(content_str)
    wc_config.to_file("e:\\reg_cloud.png")
    return word_file_path







if __name__ == "__main__":
    """
    # 从开发者工具或者抓包工具中获取url地址
    f12_url = 'https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid=343174354&date=2021-05-23'
    # 从开发者工具或者抓包工具中，获取请求头信息，主要包括cookie、user-agent
    header = {
        'cookie': 'bsource=search_baidu; _uuid=BBD44BE2-5DAA-A13A-A593-FD3A83C3929423721infoc; buvid3=18335C4D-A3A0-48D5-973A-7943D63AC73E34756infoc; CURRENT_FNVAL=80; blackside_state=1; rpdid=|(um|u)klum~0J\'uYkkJJkJJu; fingerprint=be684c13c90e4279aaaa3e2694da4285; buvid_fp=18335C4D-A3A0-48D5-973A-7943D63AC73E34756infoc; buvid_fp_plain=96D5E0EF-41D9-4A32-BE47-DFF96C44DB9F155821infoc; SESSDATA=f90082f7%2C1637884658%2C008f9%2A51; bili_jct=2f17a04a5651fb1c6579b73aeb640f7f; DedeUserID=1153205015; DedeUserID__ckMd5=b6f334f0a2d86238; sid=6vb9j9nl; bfe_id=6f285c892d9d3c1f8f020adad8bed553',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
    }
    # 申明存储文件的路径
    f12_file_path = "e:\\RNG.txt"
    """


    # 请求路径，是网页前面+i
    url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=343174354'
    file_path = "e:\\RNG_1.txt"
    # 请求头中需要包含cookie 和 user-agent，这些信息都可以用f12获取到，注意有些字符需要转义
    # 为了个人信息安全，这里的cookIe加密显示
    header = {
        'cookie': '********',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
    }
    # 调用方法
    get_barrage(url=url, headers=header, file_path=file_path)
    word_file_path = get_barrage(url=url, headers=header, file_path=file_path)
    make_word_cloud(word_file_path)

四、词云图效果展示
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

编程

python

Python_爬虫复习_爬取直播间弹幕生成词云图的相关文章

避免由于相对 URL 导致的错误请求

我正在尝试使用Scrapy抓取一个网站并且我想要抓取的每个页面的url都是使用这种相对路径编写的 a href en item to scrap html Link a 现在在我的浏览器中这些链接可以工作您可以访问类似的网址http
在 Pandas 中按日期获取有效合约

我在检测 pandas DataFrame 中的活动合约方面遇到了一些困难假设每一行都是一个协商对于每一行我有两列 initial date 和 end date 我想知道的是按日期划分的活跃合约数量到目前为止我做了一个非常低效的方
为什么 .setGeometry() 不改变 QWidget 实例的大小？

我想使用 QWidget 更改 QPushButton 的大小 setGeometry https doc qt io qtforpython 5 PySide2 QtWidgets QWidget html PySide2 QtWidge
on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍
如何使用 python urllib 在 HTTP/1.1 中保持活力

现在我正在这样做 Python3 urllib url someurl headers HOST somehost Connection keep alive Accept Encoding gzip deflate opener urll
Python Kivy - 在本机网络浏览器中打开 url 的应用程序

我尝试制作一个简单的应用程序在单击 Screen One 上的按钮后在 Kivy 中打开一个网页我使用了这个主题 Python 在应用程序中直接显示网络浏览器 iframe https stackoverflow com questi
如何通过双击在浏览器中打开 ipynb 文件

以前我安装了 Canopy 当时我只需双击 ipynb 文件并在浏览器中打开它们即可但是后来我需要Anaconda 一旦我安装了它这个功能就没有了现在我只希望能够简单地双击 ipynb 文件然后该文件就会在 Firefox 中
matplotlib matshow 标签

我一个月前开始使用 matplotlib 所以我仍在学习我正在尝试用 matshow 制作热图我的代码如下 data numpy array a reshape 4 4 cax ax matshow data interpolation
具有多个元素的数组的真值是二义性错误吗？ Python

from numpy import from pylab import from math import def TentMap a x if x gt 0 and x lt 0 5 return 2 a x elif x gt 0 5 a
Python：计算数据帧列中所有行中特定字符的实例数

我有一个包含列 toaddress ccaddress body 的数据框 df 我想迭代数据帧的索引以获取 toaddress 和 ccaddress 字段中电子邮件地址的最小最大和平均数量这是通过计算这两列中每个字段中的和的实
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
Django 在选择列表更改时创建毫无意义的迁移

我正在尝试使用可调用创建一个带有选择字段的模型以便 Django 在选择列表更改时不会创建迁移如中所述this https stackoverflow com questions 31788450 stop django from cr
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
Scipy 稀疏 Cumsum

假设我有一个scipy sparse csr matrix代表下面的值 0 0 1 2 0 3 0 4 1 0 0 2 0 3 4 0 我想就地计算非零值的累积和这会将数组更改为 0 0 1 3 0 6 0 10 1 0 0 3 0 6
Python - 如何查询定义方法的类？

我的问题有点类似于this one https stackoverflow com questions 5520580 how do you get all classes defined in a module but not impor
Python 3.2 中 **kwargs 和 dict 有什么区别？

看起来Python的很多方面都只是功能的重复除了我在 Python 中的 kwargs 和 dict 中看到的冗余之外还有什么区别吗参数解包存在差异许多人使用kwargs 并通过dict作为论据之一使用参数解包 Prepare f
如何禁止 celery 中的 pickle 序列化

Celery 默认使用 pickle 作为任务的序列化方法如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏
来自 django 教程 was_published_recently.admin_order_field = 'pub_date'

From Django 教程 https www jetbrains com help pycharm 2017 1 creating and running your first django project html d28041e21

随机推荐

win10从控制台直接进入Anaconda Prompt环境
Uboot 编译失败问题

编译失败问题汇总索引一已经有uboot源码并且有 build sh 的情况一已经有uboot源码并且有 build sh 的情况首先Makefile 没有配置编译器导致的错误错误提示信息如下 cc1 error bad
day27

1 网络编程 a 软件客户端 CS架构 client gt server 浏览器 BS架构 browser gt server b 如何实现相互通信需求一编写两个软件软件之间相互通信需求二两个人直接连接网线需求三教室相互通
洛谷P1023 税收与补贴问题

题目描述你是某家咨询公司的项目经理现在你已经知道政府对某种商品的预期价格以及在各种价位上的销售情况要求你确定政府对此商品是应收税还是补贴的最少金额也为整数才能使商家在这样一种政府预期的价格上获取相对其他价位上的最大总利润总利
Win10+RTX3060配置CUDA等深度学习环境

Win10 RTX3060机器学习环境配置 1 下载准备 2 下载安装CUDA和CUDNN 2 1 cuda和cudnn下载 2 2 cuda和cudnn安装 3 安装GPU版pytorch与TensorFlow 3 1 下载 3 2 安装
synchronized修饰static方法与非static方法的区别

当synchronized修饰一个static方法时多线程下获取的是类锁即Class本身注意不是实例作用范围是整个静态方法作用的对象是这个类的所有对象当synchronized修饰一个非static方法时多线程下获取的是
iOS第三方支付集成-支付宝支付

吐槽一下支付宝的文档和demo 文档真是找的我眼花缭乱 demo写的也是看的捉急没有微信的简单明了不过全部找到后静下心来研究也还是可以的一进入官方下Demo 看文档工欲善其事必先利其器先看下demo总不是坏处也可以学习一下
《Spark大数据技术与应用》肖芳张良均著——课后习题

目录教材知识汇总课后习题第一章 Spark概述 Spark的特点 Spark生态圈 Spark应用场景第二章 Scala基础匿名函数 Set Map map flatMap groupBy 课后习题第三章 Spark编程教材
Unity mlagent中强化学习ppo算法的参数怎么设置？

Unity ML Agents的PPO算法参数可以通过设置ML Agents的Hyperparameter设置来调整具体有 batch size discount gae lambda learning rate entropy coef
2022尚硅谷阳哥docker篇之Portainer的监控三剑客

docker compose yml文件 version 3 1 volumes grafana data services influxdb image tutum influxdb 0 9 restart always environm
戴尔，更换固态硬盘后no bootable devices found

注意操作之前要备份备份备份更换固态硬盘后出现no bootable devices found 可以尝试一下这个方法 https www zhihu com question 299594649 answer 1565769605
机器人学：（1）机器人基础

1 1 机器人机构机器人的机械机构由一系列刚性构件连杆通过链接关节联结起来机械臂的特征在于具有用于保证可移动性的臂 arm 提供灵活性的腕 wrist 和执行机器人所需完成任务的末端执行器 end effector 机器人分为串
TS：etcd集群某个etcd实例启动报错(报cluster ID mismatch)-2022.10.13(已解决)

目录文章目录目录 1 报错现象 2 排查过程 3 解决过程 1 尝试办法1 2 尝试办法2 4 总结引用关于我最后 1 报错现象在k8s高可用集群搭建过程中关于etcd集群搭建是报错了自己当时环境如下本次复用3个node
Java基础题

面向对象程序设计期末复习之手写代码 Java编程基础 1 定义一个整型的长度为6的一维数组k 6 并将数组中元素k i 值初始化为i 然后将元素k 3 打印出来 class test1 public static void main St
ISIS简介、NSAP与NET地址、Router-Id转换成NET地址

2 0 0 ISIS简介 NSAP与NET地址 Router Id转换成NET地址 ISIS简介 IS IS Intermediate System to Intermediate System 中间系统到中间系统 1 该协议最初是ISO国
逆向思维：卡通照片真人化

之前PaddleGAN的趣味应用如雨后春笋般地出现非常多的项目都是xxx动漫化当时就有一个很普通的想法为什么大家都会去搞动漫化这很可能是因为二次元文化的原因又或者是动漫化的应用商业价值就突然蹦出一个想法为什么没人弄动漫真人化呢
free vs delete简洁版

free释放的是指针指向的内存回归到操作系统的空闲内存链表中之后还需要程序员手动将对应的指针赋值成为NULL 不然那个指针还在并且还指向那个内存 delete是调用的是对应的new 的变量的析构函数 delete对应new delet
出现 Request Entity Too Large问题的解决方法

根据经验判断应该是上传文件大小被限制了检查了应用配置是10M 把它设置成100M 重启服务也不能解决问题原来我们的tomcat是通过nginx发现服务代理的问题就出现nginx服务器上原来nginx默认长传文件的大小是1M 可在ng
VMware安装系统时“无法创建新虚拟机: 不具备执行此操作的权限“的解决方案

VMware安装系统时无法创建新虚拟机不具备执行此操作的权限的解决方案参考文章 1 VMware安装系统时无法创建新虚拟机不具备执行此操作的权限的解决方案 2 https www cnblogs com kailugaji p
Python_爬虫复习_爬取直播间弹幕生成词云图

爬取直播间弹幕生成词云图一环境准备安装相关第三方库 pip install jieba pip install wordcloud 二数据准备爬取对象 2021年5月23号 RNG夺冠直播间的弹幕信息爬取对象路径方式1 根据

Python_爬虫复习_爬取直播间弹幕生成词云图

爬取直播间弹幕，生成词云图

Python_爬虫复习_爬取直播间弹幕生成词云图 的相关文章

随机推荐

热门标签

`爬取直播间弹幕，生成词云图`

Python_爬虫复习_爬取直播间弹幕生成词云图的相关文章