python网络爬虫(爬取bilibili一位up的视频标题,评论数量等基本信息)

2023-05-16

对爬虫还挺有兴趣的,但是一直没有尝试过,今天看了几篇写得非常好的博客,学到了一丢丢,自己也写了个简单的爬虫娱乐娱乐。

1.分析需求

需求:

爬取b站up主王老菊所有视频投稿的编号,标题,播放数量以及评论数量。

分析:

1.先要进入b站,到这位up主的个人主页:

2.按f12进入控制台f5刷新,如图所示找到需要的信息:

3.图中的xhr文件就包含了我们需要的信息,挨个打开,直到找到需要的信息:

4.把这个文件在浏览器里打开就能找到我们需要的url:

如图:

5.这里有一个问题,老菊的视频投稿一共有19页,而每一页的url其实是不一样的。

但是很容易就能找到规律,在请求访问时,可以用一个循环将所有的url都访问到。

2.环境配置

1.保证网络连接

2.pycharm中安装导入需要的模块

这里我用的是requests第三方模块,安装的时候可能会出现超时或者请求更新pip,解决的办法在我另一篇博客里有。

打开pycharm ,打开设置,点击 + 号,搜索 requests 然后安装。如图:

安装完成之后就可以开始了。

(1)首先导入需要用到的模块


import json
import requests

(2)有些网站会禁止爬取,因此这里采用一个非常基础的方法,模拟浏览器进行访问

headers = {
      'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
    }

这里的内容获取方法如图:

(3)因为老菊投稿一共有19页,所以采用循环的方法:

for i in range(1,20):
    
     url = 'https://api.bilibili.com/x/space/arc/search?mid=423895&pn=%s&ps=25&jsonp=jsonp'%(i)

3.完整代码

#导入模块
import json
import requests

#循环19次,将每一页的数据都抓取到
for i in range(1,20):
    #模拟浏览器
    headers = {
      'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
    }
    #包含待爬取信息的url
    url = 'https://api.bilibili.com/x/space/arc/search?mid=423895&pn=%s&ps=25&jsonp=jsonp'%(i)
    #访问url
    r = requests.get(url,headers)
    #将爬取道德json格式的数据转化为字典
    text = json.loads(r.text)
    #取出嵌套字典里我们想要的部分
    #这里的字典嵌套在控制台里其实看的很清楚,我在上面的截图里圈了出来
    res = text['data']['list']['vlist']
    for item in res:
        #以列表的形式取出对我们有用的数据
        list = ['av: '+str(item['aid']),' 视频标题: '+item['title'],' 播放量: '+str(item['play']),' 评论条数: '+str(item['video_review'])]
        #转化为字符串格式
        result = ''.join(list)
        #写进文件里
        with open('wlg.txt','a+',encoding="utf-8") as f:
            f.write(result+'\n')

4.运行结果

 

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python网络爬虫(爬取bilibili一位up的视频标题,评论数量等基本信息) 的相关文章

  • 【2018-AAAI】Spatial As Deep: Spatial CNN for Traffic Scene Understanding

    概述 提出了SCNN语义分割网络 xff0c 将传统的深度逐层卷积推广到特征图中的逐片卷积 xff0c 在同一特征图的行和列上做信息传递 xff0c 可有效识别强先验结构的目标 此外论文还发布了一个大型的车道线检测数据集CULane Dat
  • 安装Code Blocks时出现can‘t find compiler的解决方法

    安装Code Blocks时出现can t find compiler的解决方法 1 首先我们要下载Code Blocks xff0c 我们可以去官方网站下载https www codeblocks org xff0c 或者直接点击该链接跳
  • OSPF网路拓扑结构(rfc2328)

    OSPF网路拓扑结构 xff08 rfc2328 xff09 OSPF rfc文档 xff08 rfc2328 xff09 中的拓扑结构对理解OSPF分区 区域内路由 区域边界路由 自治系统边界路由等基本概念很有帮助 并且整个文档打大部分内
  • Win10下使用WinSCP+PuTTY实现远程文件操作和终端访问

    Win10下使用WinSCP 43 PuTTY实现远程文件操作和终端访问 0 软件安装 安装WinSCP xff0c 参考官网安装PuTTY xff0c 从这个页面下载 1 WinSCP使用技巧 1 1 连接到远程主机 如下图所示 xff0
  • KVM创建的虚拟机创建快照、查看以及恢复

    KVM虚拟机要使用快照功能 xff0c 磁盘格式必须为qcw2如果不满足qcw2 xff0c 可以参考下面的链接进行修改 xff1a https www jianshu com p f6cc295a2108 创建快照方法 xff1a 创建快
  • KTT条件

    以下都是个人理解 xff0c 刚刚有点理解 xff0c 所以可能表达不清楚 但是又想把一些理解表达出来 xff0c 故写了这篇 上篇文章说了 xff0c 拉格朗日乘子法 xff0c 可以在等式约数的条件下 xff0c 求得某函数f的极大或极
  • github.com 拒绝了我们的连接请求。

    github com 拒绝了我们的连接请求 1 解决方法 1 解决方法 打开Dns检测 Dns查询 站长工具 在检测输入栏中输入GitHub官网 把检测列表里某个IP xff08 我选择最大的IP试了可以 xff09 输入到hosts里 x
  • Git操作详解以及在VScode中的使用

    我们先理清Git和Github的区别 xff0c Git是个版本控制的工具 xff0c 用来管理本地的代码工程 xff0c 它可以记录代码内容的变更 xff1b 而Github是一个代码托管平台 xff0c 我们可以使用Git将本地代码上传
  • 前端性能优化的指标和工具

    目录 一 xff1a 性能指标和优化目标 1 1 网络加载性能 1 2 用户交互体验 二 xff1a RAIL测量模型 2 1 Response xff08 响应 xff09 处理事件应在在50ms内完成 2 2 Animation xff
  • Windows下nvm的安装配置及使用

    目录 一 xff1a nvm简介 二 xff1a nvm下载及安装 三 xff1a nvm配置镜像 四 xff1a nvm的基本使用 五 xff1a nvm的一些常用命令 一 xff1a nvm简介 nvm 全名叫做 nodejs vers
  • SQLyog 链接MYSQL 8.0错误代码1251

    错误代码1251 2018 08 20 15 51 48 打开Navicat 的时候发现报错 xff0c 无法连接mySql数据库 感觉莫名奇妙 xff0c 报错 xff1a 1251 解决方法 xff1a 第一种方式 xff1a 打开Co
  • 关于Mysql数据库连接Navicat时出现1251报错问题的解决方法

    在Mysql数据库出问题后 xff0c 如果按照方法去解决 xff0c 还不如直接删除重装 xff0c 当然这里就要看自己的彻底删除MySQL数据库的方法对不对 xff0c 后面成功彻底删除了MySQL数据库 xff0c 配置好了MySQL
  • ROS初学订阅subscriber

    官方示例 include span class token string 34 ros ros h 34 span include span class token string 34 std msgs String h 34 span s
  • 解决andriod studio每次新建项目都要重新配置gradle的问题

    xff08 知道解决项目的gradle问题 xff0c 想要解决andriod studio每次新建项目都要重新配置gradle的问题的直接看最后一段 xff09 使用andriod studio出现Error Unknown host 3
  • 云原生:未来云计算的新趋势

    云原生 xff1a 未来云计算的新趋势 随着云计算技术的迅速发展 xff0c 云原生已成为最新的趋势 它不仅是云计算的新技术 xff0c 也是未来云计算的新趋势 什么是云原生 xff1f 云原生是指将应用程序设计为在云环境中运行的方式 它强
  • 打包造成The packaging for this project did not assign a file to the build artifact -> [Help 1]

    今天在家打包遇见The packaging for this project did not assign a file to the build artifact 仔细看了一下发现今天脑抽了在Plugins下打包 打包应该在Lifecyc
  • TDA4VM 8.4 RTOS SDK 中 SBL 的编译流程解析与makefile 分析笔记

    目录 0 TDA4VM 8 4 RTOS SDK 中 SBL 的编译流程解析TI SDK 的可执行文件后缀名是 xer5f 的原因sbl ospi img 的 xer5f 可执行文件的生成过程编译依赖的静态库编译可执行文件命令 xer5f
  • 【OpenCV 4开发详解】图像模板匹配

    本文首发于 小白学视觉 微信公众号 xff0c 欢迎关注公众号 本文作者为小白 xff0c 版权归 人民邮电出版社发行所有 xff0c 禁止转载 xff0c 侵权必究 xff01 经过几个月的努力 xff0c 小白终于完成了市面上第一本Op
  • PSPNet | 语义分割及场景分析

    点击上方 小白学视觉 xff0c 选择加 34 星标 34 或 置顶 重磅干货 xff0c 第一时间送达 本次 xff0c 由香港中文大学 CUHK 和商汤科技 SenseTime 提出的金字塔场景解析网络 Pyramid Scene Pa
  • 自制的ST-LINK_V2(带虚拟串口)

    lt 项目 gt 自制的ST LINK V2 带虚拟串口 前言 这是一个自己做的一个st link 带一个虚拟串口 xff0c 体积绝对让人惊喜 xff08 16mm x 45mm xff09 Drawn By 67373UPUP 硬件部分

随机推荐

  • Keil警告:warning: #223-D: function “xxx“ declared implicitly解决

    原因 xff1a 这种情况下很可能是头文件的预定义声明重复了 比如写了两个LED文件 xff0c 一个是LED1 c xff0c 另一个是LED2 c 他们俩都是从LED c移植过来的 xff0c 然后头文件忘了修改 xff0c 里面的预定
  • ubuntu或者树莓派截图工具flameshot下载与快捷键配置

    Ubuntu下截图工具推荐 ubuntu18 04安装0 6以上版本的flameshot
  • FOC单片机底层——STM32 CubeMX ADC的配置

    文章目录 1 STM32 CubeMX的配置1 1 ADC的配置 2 FOC原理部分的思考2 1 编码器角度校准2 1 1 角度校准原理2 1 2 多个角度校准值 3 工程实现部分的思考3 1 定点数和浮点数 1 STM32 CubeMX的
  • 摄像头排线

    文章目录 1 FFC排线 2 FPC排线 3 FFC与FPC的排线区别 1 FFC排线 FFC排线又称 xff1a 柔性扁平线缆 xff0c 可以任意选择导线数目及间距 xff0c 使联线更方便 xff0c 大大减少电子产品的体积 xff0
  • 蜂鸣器

    1 蜂鸣器 xff1a 外形 xff1a 无源蜂鸣器 xff08 外壳有 43 号 xff0c 背面为绿色电路板 xff09 有源蜂鸣器 xff08 无电路板而用黑胶封闭 xff09 源为电源 xff0c 或者振荡电路 内部结构及驱动发声方
  • mysql + redis + flask + flask-sqlalchemy + flask-session 配置及项目打包移植部署

    1 下载mysql installer community 5 7 24 0 msi xff08 https dev mysql com downloads windows installer 8 0 html xff0c 选择Lookin
  • Linux 被暴力破解ssh密码处理

    Linux 被暴力破解ssh密码处理 意外发现自己的云服务器被人持续很长时间暴力破解 xff0c 以下是处理办法 1 查询登录失败日志 通过命令查看被爆破情况 lastb lastb n 20 被持续破解 xff0c 先看20行 lastb
  • Vncviewer的使用流程(经验之谈)

    在这里我主要是解说一下Vncviewer的简单使用步骤以及使用当中要注意的事项 xff01 对着搞就行了 一 进入后记得将服务器的ID改为你要连接的对象人 xff08 即Boss的ID xff09 二 点击选项以及在里面的操作 三 桌面屏幕
  • java获取登陆用户ip方法

    今天和大家分享一下获取登录用户 ip的方法 xff0c 如果你想获取自己的登陆用户 ip xff0c 可以参考以下思路 xff1a 1 可以通过 Java动态链接库的方式获取到 xff0c 方法很简单 xff0c 就是把需要的 ip地址添加
  • npm install 超时/卡住

    第一次使用npm发现什么东西也下不了 xff0c 各种超时 xff0c 更换镜像源 xff0c 删除缓存等方法都无效 xff0c 最后看到一个方法 xff0c 清除了一下代理 xff08 虽然我没有设置过 xff09 xff0c 然后将镜像
  • Docker的网络模式bridge、host、container other、overlay

    docker run创建Docker容器时 xff0c 可以用 net选项指定容器的网络模式 xff0c Docker有以下5种网络模式 xff1a bridge模式 xff1a 使用 net 61 bridge指定 xff0c 默认设置
  • pyqt5 嵌于主界面状态栏的进度条

    写在前面 放在状态栏处的进度条 本想放在主界面 xff0c 但是没找到相关代码 代码 span class token comment coding utf 8 span span class token keyword from span
  • 分布式文件系统-HDFS

    主要内容 xff1a HDFS是什么 xff1f HDFS优点HDFS架构副本机制 1 HDFS是什么 xff1f 是由Hadoop实现的一个分布式的文件系统 xff08 Hadoop Distributed File System xff
  • 让我们来做一个属于自己的浏览器主页吧!

    对于我们程序员来说每天最常用的就是浏览器 因为像google 百度 火狐 必应这些浏览器的主页不太美观壁纸也很少 xff0c 所以我做了一个浏览器主页 xff0c 目前做的功能比较少后续会慢慢完善 xff0c 先给大家展示一下 废话少说我们
  • 卷积的过程

    span class token comment usr bin env python span span class token comment coding utf 8 span span class token comment aut
  • 使用Realsense D435i运行VINS-Fusion并建图

    1 安装VINS 到github xff1a VINS xff0c 按照说明安装依赖和编译vins ceres别装2 0版本 xff0c 装1 4 开始装的2 0遇到错误error integer sequence is not a mem
  • 使用AT命令获取本机号码

    我之前认为手机号码与SIM卡是一一对应的 xff0c 后来想想不对 xff0c 因为有换卡不换号的情况啊 xff0c 所以SIM卡应该只是一个电话号码的储存介质 xff0c 而与SIM卡一一对应的是另一个编码 IMSI xff08 国际移动
  • linux系统中的临时文件

    1 什么是临时文件 下载和安装 39 卸载软件 打开电子邮件和即时消息程序中的文件或传输文件时创建 通常 xff0c 创建临时文件的程序会在完成时将其删除 xff0c 但有时候这些文件会被保留 一段时间后 xff0c 这些废弃的临时文件 x
  • linux中的网络配置之网关

    1 网关 网关 Gateway 又称网间连接器 协议转换器 网关在网络层以上实现网络互连 xff0c 是复杂的网络互连设备 xff0c 仅用于两个高层协议不同的网络互连 网关既可以用于广域网互连 xff0c 也可以用于局域网互连 网关是一种
  • python网络爬虫(爬取bilibili一位up的视频标题,评论数量等基本信息)

    对爬虫还挺有兴趣的 xff0c 但是一直没有尝试过 xff0c 今天看了几篇写得非常好的博客 xff0c 学到了一丢丢 xff0c 自己也写了个简单的爬虫娱乐娱乐 1 分析需求 需求 xff1a 爬取b站up主王老菊所有视频投稿的编号 xf