【论文笔记】AudioGPT: Understanding and Generating Speech,Music, Sound, and Talking Head

2023-11-17

一.简介 

核心问题:目前llm无法解决复杂的音频信息或进行口语对话。数据和计算资源制约了高方向的发展

本文:

1.使用chatgpt作为接口

2.没有训练口语模型,而是将LLM与语音对话的输入/输出接口(ASR、TTS)连接起来。AudioGPT可以分为四个阶段,包括模态转换、任务分析、模型分配和响应生成。

 二.模块

2.1 模态转换

将输入的文本和语音统一为文本模态

2.2 任务分析

任务处理器H首先将查询分类为通过I/O模式分类的不同任务族。

对于给定所选择的任务族,将查询描述传递到提示管理器M中,以生成包括音频基础模型和相对对应参数变量

2.3 模型分配

将相关资源分配给模型,并执行上一步获得的模型以获得任务输出

2.4生成响应

响应生成与选择任务及其输出高度相关

三. 限制

1)提示工程:AudioGPT使用ChatGPT连接大量基础模型,因此需要提示工程来用自然语言描述音频基础模型,这可能耗时且需要专业知识;

2) 长度限制:ChatGPT中的最大令牌长度可能会限制多回合对话,这也会影响用户的上下文指令;

3)容量限制AudioGPT严重依赖音频基础模型来处理音频信息,这在很大程度上受到这些模型的准确性和有效性的影响。

四. 实战测试

4.1 运行

# create a new environment
conda create -n audiogpt python=3.8

#  prepare the basic environments
pip install -r requirements.txt

# download the foundation models you need
bash download.sh

# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}

# Start AudioGPT !
python audio-chatgpt.py


下载过程应该是需要挂vpn的

1.如何获得 openAI private key
【参考】https://zhuanlan.zhihu.com/p/620844963

2.报错

pip install --force-reinstall 库名


以我为例,出现了以下两个报错,都是导入失败的
(1)ImportError: cannot import name 'guess_lexer_for_filename' from 'pygments.lexers'
(2)ImportError: cannot import name 'wcswidth' from 'wcwidth'
通过上述方式解决
3.开始运行
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【论文笔记】AudioGPT: Understanding and Generating Speech,Music, Sound, and Talking Head 的相关文章

随机推荐

  • win11出现:终止代码:SYSTEM SERVICE EXCEPTION解决方案实列(不懂请私信up主)

    有关此问题的详细信息和可能的解决方法 请访问 https www windows com stopcode 如果致电支持人呗 请向他们提供以下信息 终止代码 SYSTEM SERVICE EXCEPTION 终止代码解释 SYSTEM SE
  • Sublime, Vscode 快捷键

    vsCode 快捷键 Tips 编码规范 很多大型开源项目缩进其实不是4个空格 而是两个空格 比如 vue react 源码 当然还是具体看公司的代码是怎么规范的 在 VScode 里设置 tab 为2个空格方法 File Preferen
  • Mathorcup数学建模竞赛第六届-【妈妈杯】B题:车位分布的优化设计与评价(附一等奖获奖论文、C++和matlab代码)

    赛题描述 随着现代社会经济的快速发展 房地产成为国家经济发展中重要的经济增长点之一 而小区内汽车停车位的分布对于小区居民的上下班出行影响很大 请建立数学模型 解决下列问题 问题1 分析评判小区汽车停车位分布是否合理的几个关键指标 建立评判车
  • 基于ESP32的数据采集端

    背景介绍 数据采集设备属于物联网领域的标准件 广泛应用于工业 医疗 通讯以及教育等场景 调研发现 数据采集设备主要由硬件系统和软件代码两部分组成 近年来 随着技术的发展 工程技术人员通过编写各种程序算法 不断的挖掘硬件的性能 不仅降低了硬件
  • 一文读懂selenium自动化测试(基于Python)

    前言 我们今天来聊聊selenium自动化测试 我们都知道selenium是一款web自动化测试的工具 它应该如何去运用呢 我们接着看下去 1 Selenium简介 1 1 Selenium Selenium是一款主要用于Web应用程序自动
  • hive面试题

    Hive面试总结 什么是 Hive Hive结构描述 Hive的优势 内部表 外部表 分区表 分桶表 hive中 排序的种类和适用场景 动态分区和静态分区的区别 使用场景 hive 语句执行顺序 Hive的几种存储方式 列式存储的好处 HQ
  • 《期权、期货及其他衍生产品》读书笔记(第三章:利用期货的对冲策略)

    3 1 基本原理 完美对冲 Perfect Hedge 指完全消除风险的策略 一劳永逸 保完即忘Hedge and Forget Strategy 一旦设定对冲策略后 无需在对其进行调整 空头对冲 Short Hedge 对冲者选择期货的空
  • 前端面试总结

    前端面试 一 计算机网络 1 HTTP和HTTPS HTTP的基本概念 http 是互联网上应用最为广泛的一种网络协议 是一个客户端和服务器端请求和应答的标准 TCP 用于从 WWW 服务器传输超文本到本地浏览器的超文本传输协议 HTTP工
  • java 盲水印实现比其他版本的速度更快 !!!

    该盲水印版本速度上更快 参照了c的底层实现改编的 java 语法 结合先人的经验得以完成 希望能帮助有困惑的朋友 实测代码有效 下面就是我的代码实现 首先是盲水印工具类 导入类 import org bytedeco javacpp Loa
  • C++编译器为类自动生成的函数

    我们可以构建一个空类 class Empty 尽管没有定义任何函数 但我们可以通过以下方式使用这个类 Empty e1 Empty e2 e1 e2 e1 因为当编译器发现你用上述方式使用这个类而却在类声明中没有定义一般构造函数 非复制构造
  • Python Web系列学习1

    1 全栈网络框架 除了封装网络和线程操作 还提供HTTP栈 数据库读写管理 HTML模板引擎等一系列功能的网络框架 Django Flask Tornado是全栈网络框架的典型标杆 Twisted更专注于网络底层的高性能封装而不提供HTML
  • 服务器2008r2启动修复,Windows Server 2008 R2原生启动试用

    IT168 特别策划 6000名IT精英齐聚一堂 与来自微软产品核心研发团队及各个领域数百位顶级专家面对面交流 Tech Ed 2009盛典召开在即 IT168带您一起体验丰富多彩的活动和内容安排 更加深入 专注的互动讨论 IT168 专稿
  • 文件恢复原理&&Linux文件恢复工具-foremost&extundelete

    文件恢复的原理 首先简单介绍一下 Linux 文件系统的最基本单元inode inode 译成中文就是索引节点 每个存储设备 例如硬盘 或存储设备的分区被格式化为文件系统后 应该有两部份 一部份是 inode 另一部份是 block blo
  • FPGA设计篇之流水线思想

    FPGA设计篇之流水线思想 一 写在前面 二 正文开始 2 1举个栗子 2 2 1情况一 组合逻辑 2 1 2情况二 流水线设计 2 1 4 小总结 2 2举第二个栗子 写在最后 一 写在前面 流水线 大家好 我是富土康三号流水线的张全蛋
  • 常见计算机文件类型,关于文件类型电脑文件常用的有哪些类型?对应的软件有什么?rmvb 爱问知识人...

    正确的安装步骤 首先进入BIOS设置光驱优先 1 首先按Del键进入BIOS 2 通过键盘上的方向键选中Advanced BIOS Features 3 回车进入BIOS设置界面 4 用方向键选中First Boot Device或 1st
  • STM32CubeMx配置HAL库流水灯

    STM32CubeMx配置HAL库流水灯 文章目录 STM32CubeMx配置HAL库流水灯 RCC Clock Configuration GPIO Project Manager GENERATE CODE 程序编写 注意事项 RCC
  • Offer差点无缘?HUAWEI 4面技术5面HR,踩线挺过!

    大厂面试真题向来都是各大求职者的最佳练兵场 而今天小编带来的便是 HUAWEI 面经 这是一次真实的面试经历 虽然不是我自己亲身经历但是听当事人叙述后便会深有同感 因为我朋友差点就与offer擦肩而过了 总共4面技术5面HR 真的好艰难 为
  • laravel cookie的使用方法

    1 Cookie make Cookie forever Cookie get 的使用方法 Route get cookieset function foreverCookie Cookie forever forever Success
  • 线程的五大状态

    线程从创建 运行到结束总是处于下面五个状态之一 新建状态 就绪状态 运行状态 阻塞状态及死亡状态 http www blogjava net images blogjava net santicom 360 E6 88 AA E5 9B B
  • 【论文笔记】AudioGPT: Understanding and Generating Speech,Music, Sound, and Talking Head

    一 简介 核心问题 目前llm无法解决复杂的音频信息或进行口语对话 数据和计算资源制约了高方向的发展 本文 1 使用chatgpt作为接口 2 没有训练口语模型 而是将LLM与语音对话的输入 输出接口 ASR TTS 连接起来 AudioG