【论文笔记】AudioGPT: Understanding and Generating Speech,Music, Sound, and Talking Head

2023-11-17

一.简介

核心问题：目前llm无法解决复杂的音频信息或进行口语对话。数据和计算资源制约了高方向的发展

本文：

1.使用chatgpt作为接口

2.没有训练口语模型，而是将LLM与语音对话的输入/输出接口（ASR、TTS）连接起来。AudioGPT可以分为四个阶段，包括模态转换、任务分析、模型分配和响应生成。

二.模块

2.1 模态转换

将输入的文本和语音统一为文本模态

2.2 任务分析

任务处理器H首先将查询分类为通过I/O模式分类的不同任务族。

对于给定所选择的任务族，将查询描述传递到提示管理器M中，以生成包括音频基础模型和相对对应参数变量

2.3 模型分配

将相关资源分配给模型，并执行上一步获得的模型以获得任务输出

2.4生成响应

响应生成与选择任务及其输出高度相关

三. 限制

1）提示工程：AudioGPT使用ChatGPT连接大量基础模型，因此需要提示工程来用自然语言描述音频基础模型，这可能耗时且需要专业知识；

2）长度限制：ChatGPT中的最大令牌长度可能会限制多回合对话，这也会影响用户的上下文指令；

3）容量限制AudioGPT严重依赖音频基础模型来处理音频信息，这在很大程度上受到这些模型的准确性和有效性的影响。

四. 实战测试

4.1 运行

# create a new environment
conda create -n audiogpt python=3.8

#  prepare the basic environments
pip install -r requirements.txt

# download the foundation models you need
bash download.sh

# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}

# Start AudioGPT !
python audio-chatgpt.py

下载过程应该是需要挂vpn的

1.如何获得 openAI private key
【参考】https://zhuanlan.zhihu.com/p/620844963

2.报错

pip install --force-reinstall 库名

以我为例，出现了以下两个报错，都是导入失败的
（1）ImportError: cannot import name 'guess_lexer_for_filename' from 'pygments.lexers'
（2）ImportError: cannot import name 'wcswidth' from 'wcwidth'
通过上述方式解决
3.开始运行
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

【论文笔记】AudioGPT: Understanding and Generating Speech,Music, Sound, and Talking Head 的相关文章

【需求响应】改进连续时间控制方法用于分散式需求响应的恒温负荷研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码及文章
用CHAT如何写大学生会计综合模拟实训报告

CHAT回复标题大学生会计综合模拟实训报告一前言随着信息化时代的发展现代会计工作不再只依赖手动运算和记录而是更加倚重电脑软件系统的配合运用因此对我们大学生来说把握会计理论知识的同时积极掌握相关的实践应用技能变得非常重要
【连续和自适应资源需求估计】通过不断应用在线优化、选择和估计，SARDE能够有效地适应在线跟踪，并使用得到的集成技术减少模型误差（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码数据文章
文档扫描与矫正-仿射变换

图像变换是计算机视觉和图像处理中的关键技术之一它允许我们对图像进行各种形式的变形调整和校正其中仿射变换是一种常见的变换方式在文档扫描过程中由于拍摄角度和畸变等原因文档图像可能存在一定程度的形变仿射变换可以用于校正文档图像使
2024年华数杯国际赛B题：光伏发电功率思路模型代码解析

2024年华数杯国际赛B题光伏发电功率 Photovoltaic Power 一问题描述中国的电力构成包括传统能源发电如煤油和天然气可再生能源发电如水电风能太阳能和核能以及其他形式的电力这些发电模式在满足中国对电力的巨
用CHAT写一份标题为职业教育教师教学能力提升培训总结

CHAT回复标题职业教育教师教学能力提升培训总结一活动概述本次由学校组织的职业教育教师教学能力提升培训于8月15日至8月20日顺利进行来自全校的60位职业教育教师参与了此次培训主讲人为享有盛名的教育专家马丁先生二培训内容与
什么是充放电振子理论？

CHAT回复充放电振子模型 Charging Reversal Oscillator Model 是一种解释ENSO现象的理论模型这个模型把ENSO现象比喻成一个热力学振荡系统在这个模型中 ENSO现象由三个组成部分充电 Char
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
多模态、长文本、智能体，智谱AI推出GLM-4模型全家桶，发布即上线！

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办现场智谱AI团队全面展示了其投身于大模型事业三年多来所
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
【毕业设计选题】复杂背景下的无人机(UVA)夜间目标检测系统 python 人工智能深度学习

前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生级别难度的对本科同学来说是充满挑战为帮助大家顺利通过和节省时间
台积电再被坑，2纳米光刻机优先给Intel和三星，美国太霸道了

外媒指出今年ASML的10台2纳米光刻机分配已经基本确定了 Intel拿到6台三星获得3台台积电只能得到一台考虑到美国对ASML的强大影响力外媒的这些消息应该有较高的可信性 Intel在先进工艺制程方面自从2014年量产14纳米之
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
人工智能 AI 如何让我们的生活更加便利

每个人都可以从新技术中获益一想到工作或生活更为便利简捷且拥有更多空余时间谁会不为之高兴呢借助人工智能每天能够多一些空余时间或丰富自己的业余生活为培养日常兴趣爱好增添一点便利从电子阅读器到智能家居再到植物识别应用和智能室内花
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
AI 赋能绿色制冷，香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

近年来城市化进程加速所带来的碳排放量骤增已经严重威胁到了全球环境多个国家均已给出了碳达峰碳中和的明确时间点一场覆盖全球全行业的绿色革命已经拉开序幕在一众行业中建筑是当之无愧的能耗大户其中又以暖通空调 Heating

随机推荐

win11出现：终止代码：SYSTEM SERVICE EXCEPTION解决方案实列（不懂请私信up主）

有关此问题的详细信息和可能的解决方法请访问 https www windows com stopcode 如果致电支持人呗请向他们提供以下信息终止代码 SYSTEM SERVICE EXCEPTION 终止代码解释 SYSTEM SE
Sublime, Vscode 快捷键

vsCode 快捷键 Tips 编码规范很多大型开源项目缩进其实不是4个空格而是两个空格比如 vue react 源码当然还是具体看公司的代码是怎么规范的在 VScode 里设置 tab 为2个空格方法 File Preferen
Mathorcup数学建模竞赛第六届-【妈妈杯】B题：车位分布的优化设计与评价（附一等奖获奖论文、C++和matlab代码）

赛题描述随着现代社会经济的快速发展房地产成为国家经济发展中重要的经济增长点之一而小区内汽车停车位的分布对于小区居民的上下班出行影响很大请建立数学模型解决下列问题问题1 分析评判小区汽车停车位分布是否合理的几个关键指标建立评判车
基于ESP32的数据采集端

背景介绍数据采集设备属于物联网领域的标准件广泛应用于工业医疗通讯以及教育等场景调研发现数据采集设备主要由硬件系统和软件代码两部分组成近年来随着技术的发展工程技术人员通过编写各种程序算法不断的挖掘硬件的性能不仅降低了硬件
一文读懂selenium自动化测试（基于Python）

前言我们今天来聊聊selenium自动化测试我们都知道selenium是一款web自动化测试的工具它应该如何去运用呢我们接着看下去 1 Selenium简介 1 1 Selenium Selenium是一款主要用于Web应用程序自动
hive面试题

Hive面试总结什么是 Hive Hive结构描述 Hive的优势内部表外部表分区表分桶表 hive中排序的种类和适用场景动态分区和静态分区的区别使用场景 hive 语句执行顺序 Hive的几种存储方式列式存储的好处 HQ
《期权、期货及其他衍生产品》读书笔记（第三章：利用期货的对冲策略）

3 1 基本原理完美对冲 Perfect Hedge 指完全消除风险的策略一劳永逸保完即忘Hedge and Forget Strategy 一旦设定对冲策略后无需在对其进行调整空头对冲 Short Hedge 对冲者选择期货的空
前端面试总结

前端面试一计算机网络 1 HTTP和HTTPS HTTP的基本概念 http 是互联网上应用最为广泛的一种网络协议是一个客户端和服务器端请求和应答的标准 TCP 用于从 WWW 服务器传输超文本到本地浏览器的超文本传输协议 HTTP工
java 盲水印实现比其他版本的速度更快！！！

该盲水印版本速度上更快参照了c的底层实现改编的 java 语法结合先人的经验得以完成希望能帮助有困惑的朋友实测代码有效下面就是我的代码实现首先是盲水印工具类导入类 import org bytedeco javacpp Loa
C++编译器为类自动生成的函数

我们可以构建一个空类 class Empty 尽管没有定义任何函数但我们可以通过以下方式使用这个类 Empty e1 Empty e2 e1 e2 e1 因为当编译器发现你用上述方式使用这个类而却在类声明中没有定义一般构造函数非复制构造
Python Web系列学习1

1 全栈网络框架除了封装网络和线程操作还提供HTTP栈数据库读写管理 HTML模板引擎等一系列功能的网络框架 Django Flask Tornado是全栈网络框架的典型标杆 Twisted更专注于网络底层的高性能封装而不提供HTML
服务器2008r2启动修复,Windows Server 2008 R2原生启动试用

IT168 特别策划 6000名IT精英齐聚一堂与来自微软产品核心研发团队及各个领域数百位顶级专家面对面交流 Tech Ed 2009盛典召开在即 IT168带您一起体验丰富多彩的活动和内容安排更加深入专注的互动讨论 IT168 专稿
文件恢复原理&&Linux文件恢复工具-foremost&extundelete

文件恢复的原理首先简单介绍一下 Linux 文件系统的最基本单元inode inode 译成中文就是索引节点每个存储设备例如硬盘或存储设备的分区被格式化为文件系统后应该有两部份一部份是 inode 另一部份是 block blo
FPGA设计篇之流水线思想

FPGA设计篇之流水线思想一写在前面二正文开始 2 1举个栗子 2 2 1情况一组合逻辑 2 1 2情况二流水线设计 2 1 4 小总结 2 2举第二个栗子写在最后一写在前面流水线大家好我是富土康三号流水线的张全蛋
常见计算机文件类型,关于文件类型电脑文件常用的有哪些类型？对应的软件有什么？rmvb 爱问知识人...

正确的安装步骤首先进入BIOS设置光驱优先 1 首先按Del键进入BIOS 2 通过键盘上的方向键选中Advanced BIOS Features 3 回车进入BIOS设置界面 4 用方向键选中First Boot Device或 1st
STM32CubeMx配置HAL库流水灯

STM32CubeMx配置HAL库流水灯文章目录 STM32CubeMx配置HAL库流水灯 RCC Clock Configuration GPIO Project Manager GENERATE CODE 程序编写注意事项 RCC
Offer差点无缘？HUAWEI 4面技术5面HR，踩线挺过！

大厂面试真题向来都是各大求职者的最佳练兵场而今天小编带来的便是 HUAWEI 面经这是一次真实的面试经历虽然不是我自己亲身经历但是听当事人叙述后便会深有同感因为我朋友差点就与offer擦肩而过了总共4面技术5面HR 真的好艰难为
laravel cookie的使用方法

1 Cookie make Cookie forever Cookie get 的使用方法 Route get cookieset function foreverCookie Cookie forever forever Success
线程的五大状态

线程从创建运行到结束总是处于下面五个状态之一新建状态就绪状态运行状态阻塞状态及死亡状态 http www blogjava net images blogjava net santicom 360 E6 88 AA E5 9B B
【论文笔记】AudioGPT: Understanding and Generating Speech,Music, Sound, and Talking Head

一简介核心问题目前llm无法解决复杂的音频信息或进行口语对话数据和计算资源制约了高方向的发展本文 1 使用chatgpt作为接口 2 没有训练口语模型而是将LLM与语音对话的输入输出接口 ASR TTS 连接起来 AudioG

【论文笔记】AudioGPT: Understanding and Generating Speech,Music, Sound, and Talking Head

【论文笔记】AudioGPT: Understanding and Generating Speech,Music, Sound, and Talking Head 的相关文章

随机推荐

热门标签