抖音综合榜单数据爬虫案例

2023-11-13

偶然在抖音创作平台中看到了一系列的排行榜,如热搜榜、热门视频榜、娱乐明星榜、音乐榜等等。

网页链接: https://creator.douyin.com/billboard/home 登陆后可见数据

在这里插入图片描述


榜单接口

接口名 类型 链接
热搜榜单 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=1
热点上升榜 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=9
今日热门视频 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=4
娱乐明星 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=2
体育热力 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=3
直播榜单 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=10
热歌榜 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=5
音乐飙升榜 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=6
原创音乐榜 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=7
二次元榜单 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=61
搞笑榜单 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=86
旅行 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=91
剧情 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=81
美食榜 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=71

以上接口是不能直接进行访问的,需要在请求的时候加上Referer,下面以《今日热门视频》数据为例


今日热门视频

已知今日热门视频的数据接口 和请求方式,可以直接使用requests进行请求。
代码非常简单,请求其他的接口只需要更换 url 即可。

import requests

hot_video_url = 'https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=4'

headers = {
           "user-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36",
           "referer": "https://creator.douyin.com/billboard/hot_aweme"
           }

response = requests.get(url=hot_video_url, headers=headers).json()

print(response)

返回数据示例:
在这里插入图片描述


获取视频详情

在返回过来的数据中,可以看到并没有视频的详细内容,
只有作者名auhor,视频背景图 img_url,分享页链接link,排名rank,标题title,热度value

当想要获得更多的视频信息,比如点赞、转发、评论 或者是 作者的信息,就需要通过其他接口来获取数据。

这里随便选择了一个分享链接Link:
https://www.iesdouyin.com/share/video/6844023242781412622/?region=CN&mid=6844023258854345479&u_code=0&titleType=title
在这里插入图片描述
通过抓包发现了数据的接口:
https://www.iesdouyin.com/web/api/v2/aweme/iteminfo/?item_ids=6844023242781412622

(该接口可直接访问。只有一个 item_ids 参数,可以发现该item_ids和分享链接上video后面的id相同 )

返回数据如下:
在这里插入图片描述


代码示例

先获取《今日热门视频》集合,然后提取出每一个视频对应的item_ids,再根据id获取详细的视频数据

# -*- coding: utf-8 -*-

import requests
import re

hot_video_url = 'https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=4'

headers = {
           "user-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36",
           "referer": "https://creator.douyin.com/billboard/hot_aweme"
           }

response = requests.get(url=hot_video_url, headers=headers).json()


for video in response['billboard_data']:
    link = video['link']            # 分享页链接
    title = video['title']          # 视频标题
    rank = (video['rank'])          # 当前排名
    hot_value = video['value']      # 当前热度

    items_ids = re.findall('video/(.*?)/', link)[0]    # 获取详情数据需要的id

    video_detail_url = 'https://www.iesdouyin.com/web/api/v2/aweme/iteminfo/?item_ids={}'.format(items_ids)

    detail = requests.get(video_detail_url,headers=headers).json()

    print(detail['item_list'][0]['share_url'])

    break   # 只取1条,示例

刚看了一下更新了 2020/09/08

部分接口需要在请求的时候加上cookie,否则会返回 {‘status_msg’: ‘无权限操作’}

可以把整个cookie都复制出来加到header中,也可以只复制里面到 sid_guard

headers = {
           "user-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36",
           "referer": "https://creator.douyin.com/billboard/hot_aweme",
           "cookie":"sid_guard=(这是个示范)"
           }
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

抖音综合榜单数据爬虫案例 的相关文章

  • 11.网络爬虫—多线程详讲与实战

    11 网络爬虫 多线程详讲与实战 程序 进程 线程 线程常用方法 多线程的优点 join 案例 共享全局变量资源竞争 互斥锁 死锁 互斥锁 死锁 多线程实战 某果多线程实战 前言 个人简介 以山河作礼 Python领域新星创作者 CSDN实
  • 13.网络爬虫—多进程详讲(实战演示)

    网络爬虫 多进程详讲 一 进程的概念 二 创建多进程 三 进程池 四 线程池 五 多进程和多线程的区别 六 实战演示 北京新发地线程池实战 前言 个人简介 以山河作礼 Python领域新星创作者 CSDN实力新星认证 第一篇文章 1 认识网
  • [python爬虫] Selenium切换窗口句柄及调用Chrome浏览器

    因为我的博客是根据我每个阶段自己做的事情而写的 所以前言可能有点跑题 但它更有利于让我回忆这个阶段自己的所作所为 这篇文章主要介绍Selenium爬虫获取当前窗口句柄 切换窗口句柄以及调用Chrome浏览器几个知识点 其中获取当前句柄的方法
  • 使用代理服务获取网页源代码测试

    import requests url 输入测试访问网址 headers User Agent Mozilla 5 0 Windows NT 10 0 Win64 x64 AppleWebKit 537 36 KHTML like Geck
  • [python爬虫] Selenium定向爬取虎扑篮球海量精美图片

    前言 作为一名从小就看篮球的球迷 会经常逛虎扑篮球及湿乎乎等论坛 在论坛里面会存在很多精美图片 包括NBA球队 CBA明星 花边新闻 球鞋美女等等 如果一张张右键另存为的话真是手都点疼了 作为程序员还是写个程序来进行吧 所以我通过Pytho
  • 讨论scrapy-splash渲染不成功问题?

    url https wenshu court gov cn website wenshu 181107ANFZ0BXSK4 index html docId 75461a02d9714cec9322ab4500147439 由于scrapy
  • 10.网络爬虫—MongoDB详讲与实战

    网络爬虫 MongoDB详讲与实战 MongoDB MongoDB安装 创建数据目录 1 数据库操作 2 集合操作 3 文档操作 4 索引操作 5 聚合操作 6 备份与恢复 MongoDB增删改查 mongodb集合的增删改查 数据插入到表
  • [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息 两种方法从本质上都是一样的 都是通过分析网页的DOM树结构进行元素定位 再定向爬取具体的电影信息 通过代码的对比 你可以进一步加深Python爬虫的印
  • [python学习] 简单爬取图片网站图库中图片

    最近老师让学习Python与维基百科相关的知识 无聊之中用Python简单做了个爬取 游讯网图库 中的图片 因为每次点击下一张感觉非常浪费时间又繁琐 主要分享的是如何爬取HTML的知识和Python如何下载图片 希望对大家有所帮助 同时发现
  • [Python爬虫] Selenium自动访问Firefox和Chrome并实现搜索截图

    前两篇文章介绍了安装 此篇文章算是一个简单的进阶应用吧 它是在Windows下通过Selenium Python实现自动访问Firefox和Chrome并实现搜索截图的功能 Python爬虫 在Windows下安装PhantomJS和Cas
  • 7.网络爬虫—正则表达式详讲

    7 网络爬虫 正则表达式详讲与实战 Python 正则表达式 re match 函数 re search方法 re match与re search的区别 re compile 函数 检索和替换 检索 替换 findall re findit
  • python分布爬虫基础知识day2

    url详解 URL是Uniform Resource Locator的简写 统一资源定位符 一个URL由以下几部分组成 scheme host port path query string xxx anchor scheme 代表的是访问的
  • DY__ac_signature

    主页中有一个IP的信息 但是请求需要 ac nonce和 ac signature ac nonce是初次请求后服务端返回的 本文分析一下 ac signature怎么来的 文章目录 参数定位 补环境 代码部分 更新 2023 04 20
  • [python知识] 爬虫知识之BeautifulSoup库安装及简单介绍

    一 前言 在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客 维基百科InfoBox和图片 其文章链接如下 python学习 简单爬取维基百科程序语言消息盒 Python学习 简单网络爬虫抓取博客文章及思想介绍 python
  • [Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍

    前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索 Eastmount 关键字及截图的功能 而这篇文章主要简单介绍如何实现自动登录163邮箱 同时继续介绍Selenium Python官网Locating
  • [python爬虫] 爬取图片无法打开或已损坏的简单探讨

    本文主要针对python使用urlretrieve或urlopen下载百度 搜狗 googto 谷歌镜像 等图片时 出现 无法打开图片或已损坏 的问题 作者对它进行简单的探讨 同时 作者将进一步帮你巩固selenium自动化操作和urlli
  • 16.网络爬虫—字体反爬(实战演示)

    网络爬虫 字体反爬 一 字体反爬原理 二 字体反爬模块Fonttools TTF文件 三 FontCreator 14 0 0 2790 FontCreatorPortable下载与安装 四 实战演示 五 后记 前言 个人简介 以山河作礼
  • 13.网络爬虫—多进程详讲(实战演示)

    网络爬虫 多进程详讲 一 进程的概念 二 创建多进程 三 进程池 四 线程池 五 多进程和多线程的区别 六 实战演示 北京新发地线程池实战 前言 个人简介 以山河作礼 Python领域新星创作者 CSDN实力新星认证 第一篇文章 1 认识网
  • python网络爬虫--项目实战--scrapy爬取贝壳网(7)

    一 完整代码 bk py import json import scrapy from ScrapyAdvanced items import HouseItem class BkSpider scrapy Spider name bk a
  • python网络爬虫--练习

    一 爬取王者荣耀英雄信息 单页 import json import pymysql import requests from lxml import etree def get heros url response requests ge

随机推荐

  • Embedding-based Retrieval in Facebook Search 文献翻译

    Embedding based Retrieval in Facebook Search 摘要 在 Facebook 等社交网络中进行搜索与经典网络搜索相比面临不同的挑战 除了查询文本之外 考虑搜索者的上下文以提供相关结果也很重要 他们的社
  • PHP模版语法支持vue,Vue.js中关于常用模板语法的具体介绍

    本篇文章主要介绍了Vue js学习笔记之常用模板语法详解 小编觉得挺不错的 现在分享给大家 也给大家做个参考 一起跟随小编过来看看吧 本文介绍了Vue js 常用模板语法 分享给大家 具体如下 一 文本渲染 Vue支持动态渲染文本 即在修改
  • 深度学习模型部署学习四

    在 PyTorch 中支持更多 ONNX 算子 学习链接 模型部署入门教程 四 在 PyTorch 中支持更多 ONNX 算子 写在前面 本文档为学习上述链接的相关记录 基本内容一致 仅用于学习用途 若侵权请联系我删除 在 PyTorch
  • 视频文件转gif图片Movie To GIF使用

    系列文章目录 前言 在写博客的时候 如果你想把视频文件上传到网页上怎么办 可能有些网页只支持gif文件格式上传 无法直接上传wmv MP4 等视频格式 怎么办 百度上搜索的视频转gif格式工具 要么是要收费的 要么就是有时间后者视频大小限制
  • 印能捷服务器中文字显示方块,修改Preps中文标记字体解决PJTF/JDF无法导入印能捷问题...

    修改Preps中文标记字体解决PJTF JDF无法导入印能捷问题 书法字体2014 04 11AdobeHeitiStd Regular Preps是大家最常用的印刷拼大版软件 特别是配合印能捷流程出版十分方便 不过 preps的标记如果采
  • THE、QS等四大世界大学排名对比 计算机专业究竟哪家强?

    泰晤士高等教育世界大学排名 QS世界大学排名 USNews世界大学排名 上海软科世界大学学术排名是公认的四大权威世界大学排名 今年9月 英国 泰晤士高等教育 Times Higher Education 简称THE 发布了2020世界大学排
  • Linux下编辑并保存文件操作步骤

    墙裂建议看下 戳 vi 和 VIM的区别 详细介绍了编辑文件保存 步骤一 打开命令控制台找到要编辑的文件 可执行命令ls看看下面有几个文件 如要编辑的文件名称为 test 步骤二 打开文件 命令 vi 文件名 如打开文件test vi te
  • 编译器一定会生成默认构造函数和默认析构函数吗-不一定

    构造函数 以下四种情况同时满足时 编译器认为不用生成默认构造函数 1 没有虚函数 2 非静态成员没有 或者 的初始化 比如 int x 3 编译器就会给生成默认构造函数 3 直接继承的基类没有默认构造函数 4 成员函数没有默认构造函数 反过
  • AssetBundle详解与优化

    https www jianshu com p 5226659533cd 1 AssetBundle原理 AssetBundle是Unity中的一种资源包 这种资源包可以是游戏内要用到的几乎所有资源 例如 模型 纹理 预设 场景等大部分文件
  • Windows小技巧13-Windows10无法与时间服务器同步

    Windows小技巧13 Windows10无法与时间服务器同步 异常概述 解决方法 说明 异常概述 最近打开windows 同步时间 发现经常报同步失败的错误 具体如下图所示 经过几次查阅 重试 发现可以自己选择或者定义其他 ntp 同步
  • TestNG+Mybatis+Extent+lombok管理测试

    一 项目结构 maven引入jar包
  • GqlQuery 类

    http wapbaike baidu com view 8965981 htm uid D0604A052A48B0F5013EC29A99F19073 bd page type 1 st 3 step 2 net 0 ldr 0 概述
  • csv反序列化_Python实现序列化及csv文件读取

    导读热词 这篇文章主要介绍了Python实现序列化及csv文件读取 文中通过示例代码介绍的非常详细 对大家的学习或者工作具有一定的参考学习价值 需要的朋友可以参考下 一 python 序列化 序列化指的是将对象转化为 串行化 数据形式 存储
  • 阿里达摩院金榕:从技术到科学,中国AI向何处去?

    点击下方卡片 关注 CVer 公众号 AI CV重磅干货 第一时间送达 本文转载自 机器之心 作者 金榕 阿里巴巴达摩院副院长 原密歇根州立大学终身教授 如果从达特茅斯会议起算 AI 已经走过 65 年历程 尤其是近些年深度学习兴起后 AI
  • Python爬虫的解析(学习于b站尚硅谷)

    目录 一 xpath 1 xpath插件的安装 2 xpath的基本使用 1 xpath的使用方法与基本语法 路径查询 谓词查询 内容查询 使用text查看标签内容 属性查询 模糊查询 逻辑运算 2 安装lxml库 3 代码的演示 3 获取
  • cmake升级及多版本管理

    查看原有的cmake cmake version which cmake gt gt gt usr bin cmake 下载要装的cmake源文件 解压并进入 使用已有的cmake安装 mkdir build cd build cmake
  • 计算机操作系统面试题

    一 认识汇编语言 汇编的本质是机器语言的助记符号 汇编语言本质就是机器语言 二 CPU的基本组成 PC 程序计数器 记录将要执行的指令的地址 Registers 暂时存储CPU计算需要用到的数据 ALU 寄存器中取到数据 进行运算然后将结果
  • 分布式存储基础知识

    2018 4 26 分布式存储的数据类型有以下三类 非结构化的数据 主要是数据之间的关联系不大 像文本图片之类的数据 结构化的数据 数据之间关联系很大 关系型数据库这种 可以用表进行表示的 半结构化的数据 介于上述两种数据类型之间 数据之间
  • DCMTK解析DICOM汇总

    DICOM头信息示例如下 0002 0000 Group Length VR UL Length 4 Value 184 0002 0001 File Meta Information Version VR OB Length 2 Valu
  • 抖音综合榜单数据爬虫案例

    偶然在抖音创作平台中看到了一系列的排行榜 如热搜榜 热门视频榜 娱乐明星榜 音乐榜等等 网页链接 https creator douyin com billboard home 登陆后可见数据 榜单接口 接口名 类型 链接 热搜榜单 Get