DeepCache

2023-12-17

这里介绍一种名为DeepCache的无需训练的方法，它利用了去噪过程中模型深层特征的相似性，通过缓存（Cache）来避免重新计算网络中的深层特征，仅计算网络的浅层，从而减少计算量。实验展示了DeepCache相较于需要重新训练的现有剪枝和蒸馏方法的优越性，以及它与当前采样技术例如DDIM，PLMS的兼容性。无损加速扩散模型！无训练、无成本的AI神器开源

简介

近几年，Diffusion Models在图像合成领域获得了前所未有的关注。在序列式的生成过程中，多步的计算和庞大的模型尺寸会带来相当大的成本。而传统的模型压缩技术，例如剪枝、蒸馏通常又涉及到重新训练，导致了额外的成本和可行性上的挑战。本文介绍了一种名为DeepCache的 无需训练 的方法，它利用了去噪过程中模型深层特征的相似性，通过缓存（Cache）来避免重新计算网络中的深层特征，仅计算网络的浅层，从而减少计算量。在没有任何额外训练的情况下，这种策略使得Stable Diffusion v1.5的速度提升了2.3倍，CLIP分数仅下降了0.05；而LDM-4-G的速度提升了4.1倍，且FID在ImageNet仅下降0.22。实验展示了DeepCache相较于需要重新训练的现有剪枝和蒸馏方法的优越性，以及它与当前采样技术例如DDIM，PLMS的兼容性。DeepCache目前支持Stable Diffusion v1.5/v2.1/XL等主流扩散模型。

DeepCache: Accelerating Diffusion Models for Free

Xinyin Ma, Gongfan Fang, Xinchao Wang Learning and Vision Lab, National University of Singapore

论文：https://arxiv.org/abs/2312.00858

代码：github.com/horseee/DeepCache

项目主页：https://horseee.github.io/Diffusion_DeepCache/

方法

图1：扩散模型多步计算中的深层特征冗余

特征冗余 ：扩散模型的合成是一个多步的序列过程，在每一步中我们都要完整执行一次模型的前馈计算。然而，研究者发现在相近的步骤中（例如第20步和第19步），模型的深层特征变化十分微小，这就引入了一个新的探索问题，即是否需要反复地计算这些特征。在这一基础上，本文进一步分析了三种主流模型：LDM-4-G，DDPM，Stable Diffusion中的特征相似性，如图1(b)所示，相邻时间步均呈现出了高度的特征相似性。这种冗余现象启发了一种新的加速方式，即本文提出的DeepCache。

算法核心 ：DeepCache的核心想法是避免重复计算冗余的深层特征，因此算法的整体框架非常简洁。如图2所示，我们在部分步骤执行完整的网络计算，并缓存深层特征；而在其他步骤仅计算浅层特征，并利用缓存直接得到结果。这一过程允许我们跳过网络中的大部分层，从而显著降低计算量。通过的实验可以发现，Diffusion Models中的绝大多数层都可以借助DeepCache进行跳过，同时不影响最终的生成质量。

图2：DeepCache方法示意图

Uniform与Non-Uniform加速策略 ：基于上述基本框架，我们可以很自然地拓展出Uniform和非Uniform的加速策略。Uniform加速策略采用了1:N的计算分配，即1步完整计算获得缓存，N步快速计算得到结果。例如在Stable Diffusion上，我们采用1:5的加速策略可以得到2.3倍实际速度提升，同时性能几乎无损。在另一方面，非Uniform策略则具有更大的设计空间。先前提到，网络中不同步骤之间存在特征冗余，然而这种冗余的分布是有所差异的。Non-Uniform策略则针对特征冗余的特点，给高冗余步骤分配更少的Cache更新次数，给低冗余区域分配更多的Cache更新，这会带来显著的性能提升。

实验

定量分析

本文在Stable Diffusion, LDM (ImageNet)，DDPM (CIFAR, LSUN)等主流模型上进行深入验证。

LDM - ImageNet ：例如在ImageNet上，我们的算法能够不依赖任何额外训练，实现几乎无损的压缩加速效果。例如基于1:2的加速策略，我们的方法实现了和剪枝方法略优的加速比（DeepCache1.88x对比剪枝1.51x），得到了更优的FID指标（DeepCache3.39对比剪枝9.27）。除此以外，DeepCache可以自由地权衡加速比和性能，例如提高缓存的间隔我们可以将加速比提升到10倍，此时算法的FID指标依然优于基于小规模训练的压缩方法（剪枝、蒸馏）。另外，引入非均匀的Non-Uniform策略，我们可以以同样的加速比，得到更优的图像质量。

Stable Diffusion ：在Stable Diffusion v1.5模型上，我们使用了CLIP Score对生成质量进行评估。并比较了压缩模型（DeepCache）与压缩步数（采样加速方法PLMS）的性能。减少采样步数是扩散模型加速中的一种主流方法，与本文提出的压缩模型策略是相互适配的。DeepCache展现出了和减少采样步数相似的加速性能，例如2.15倍加速的DeepCache甚至能取得优于步数减少一半的PLMS算法。

更多CIFAR, LSUN Church, LSUN Bedroom的结果可见论文实验部分。

分析实验

Cache策略分析 ：我们进一步分析了Stable Diffusion上不同Cache策略带来的加速效果，可以看到Non-Uniform策略往往能够提供最有的加速速率以及CLIP Score。但是相对来说1:N Uniform的加速方法是一种通用且实现简洁的技术，且仅有一个超参数N。在1:N的Uniform加速策略中，我们可以自由调整N，即缓存间隔来提升模型速度。本文可视化了N从2到8的设置下，生成图像的视觉效果。可以明显的看到，随着Cache间隔N逐渐增大，图片的内容会逐渐变化，但仍然能够维持整体视觉质量。

可视化

下图可视化了Stable Diffusion v1.5, LDM (ImageNet)， DDPM (LSUN Church & Bedroom)等模型的生成效果，上图是原始模型生成结果，下图是DeepCache加速后的模型生成结果，具体的加速比可见图片标题。 whaosoft aiot http://143ai.com

代码实现

DeepCache算法的核心思想非常简单，本文提供了Stable Diffusion v1.5/v2.1以及Stable Diffusion XL的代码实现，具体可见：

https://github.com/horseee/DeepCache

算法在使用体验上与原始的Diffusers pipline几乎完全一致。我们仅需要用DeepCache提供的Pipeline替换Diffusers库的Pipeline，即可实现扩散模型加速。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

DeepCache 的相关文章

AAAI 2024 一作讲者招募 | 持续报名中

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入我们诚挚地邀请您来AI TIME分享您发表在AAAI 2024的工作请您扫码填写以下问卷如内容合适我们将会与您沟通相关分享事宜 AAAI 2024预讲会计划时间 2024年1
【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
2024年华数杯国际赛B题：光伏发电功率思路模型代码解析

2024年华数杯国际赛B题光伏发电功率 Photovoltaic Power 一问题描述中国的电力构成包括传统能源发电如煤油和天然气可再生能源发电如水电风能太阳能和核能以及其他形式的电力这些发电模式在满足中国对电力的巨
深度好文：最全的大模型 RAG 技术概览

本文是对检索增强生成 Retrieval Augmented Generation RAG 技术和算法的全面研究对各种方法进行了系统性的梳理涉及了 RAG 流程中的数据拆分向量化查询重写查询路由等等在做 RAG 的小伙伴一定知道
【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
用通俗易懂的方式讲解：图解 Transformer 架构

文章目录用通俗易懂方式讲解系列 1 导语 2 正文开始现在我们开始编码从宏观视角看自注意力机制从微观视角看自注意力机制通过矩阵运算实现自注意力机制
【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
链上繁荣,合作不断,外媒热议波场 TRON 2023 年度成绩

近日权威外媒Theblock 美联社和Decrypt等就波场 TRON 2023大事件进行了年度盘点报道指出波场TRON网络在2023年取得了一系列的发展和合作提升了其在Web3领域的地位其中波场TRON网络账户数量增加了 54
无人机视角、多模态、模型剪枝、国产AI芯片部署

无人机视角多模态模型剪枝国产AI芯片部署是当前无人机技术领域的重要研究方向其原理和应用价值在以下几个方面进行详细讲述一无人机视角无人机视角是指在无人机上搭载摄像头等设备通过航拍图像获取环境信息并进行图像处理和分析这种技术
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
用通俗易懂的方式讲解：使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

检索增强生成 Retrieval Augmented Generation RAG 是一种结合了检索 Retrieval 和生成 Generation 的技术它有效地解决了大语言模型 LLM 的一些问题比如幻觉知识限制等随着 RAG
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
人工智能 AI 如何让我们的生活更加便利

每个人都可以从新技术中获益一想到工作或生活更为便利简捷且拥有更多空余时间谁会不为之高兴呢借助人工智能每天能够多一些空余时间或丰富自己的业余生活为培养日常兴趣爱好增添一点便利从电子阅读器到智能家居再到植物识别应用和智能室内花
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金
实力认证！鼎捷软件荣膺“领军企业”和“创新产品”两大奖项

近日由中国科学院软件研究所中科软科技股份有限公司联合主办的 2023中国软件技术大会于北京成功举办本届大会以大模型驱动下的软件变革为主题数十位来自知名互联网公司和软件巨头企业的技术大咖不同领域行业专家畅销书作者等分享嘉宾

随机推荐

DSP捕获输入简单笔记

程序 cap c Created on 2023年12月16日 Author My PC include cap h void cap init EALLOW SysCtrlRegs PCLKCR3 bit GPIOINENCLK 1 gp
蓝禾2024届秋招/校招内推信息/内推码

公司名称蓝禾内推码 SQDPVPM 内推来源内推鸭小程序官方招聘网站 https lanhevip jobs feishu cn index m position external referral code SQDPVPM
007 Windows组策略

组策略的应用 1 基本概念组策略是一组策略的集合组策略英语 Group Policy 是微软 Windows NT 家族操作系统的一个特性它可以控制用户帐户和计算机帐户的工作环境组策略提供了操作系统应用程序和活动目录
剑指 Offer（第2版）面试题 35：复杂链表的复制

剑指 Offer 第2版面试题 35 复杂链表的复制剑指 Offer 第2版面试题 35 复杂链表的复制解法1 模拟剑指 Offer 第2版面试题 35 复杂链表的复制题目来源 48 复杂链表的复刻解法1 模拟算法复制原
mmpose 使用笔记

目录自己整理的可以跑通的代码图片demo 检测加关键点自己整理的可以跑通的代码最强姿态模型 mmpose 使用实例 CSDN博客图片demo python demo image demo py tests data coco 00
2023“楚怡杯”湖南省赛“信息安全管理与评估“--数字取证调查（高职组）

2023 楚怡杯湖南省信息安全管理与评估高职组任务书 2023 楚怡杯湖南省信息安全管理与评估高职组任务书第一阶段竞赛项目试题第二阶段竞赛项目试题第二部分数字取证调查需
python快速实现简单的图片透明化

整张图片透明化的完整代码如下 import os import glob from PIL import Image def convert to transparent image path output folder image Ima
Llama 架构分析

从代码角度进行Llama 架构分析 Llama 架构分析前言 Llama 架构分析分词网络主干 DecoderLayer
牛客小白月赛83 解题报告

题目链接 https ac nowcoder com acm contest 72041 question A题解题思路签到代码 include
OSG中几何体的绘制（二）

5 几何体操作在本章的前言中就讲到场景都是由基本的绘图基元构成的基本的绘图基元构成简单的几何体简单的几何体构成复杂的几何体复杂的几何体最终构造成复杂的场景当多个几何体组合时可能存在多种降低场景渲染效率的原因在很多3D引擎中
中文星期几&十二时辰

输入年月日输出中文星期败输入时间字符串输出十二时辰笔记模板由python脚本于2023年12月16日 23 39 04创建本篇笔记适合熟悉python字符串类型str 并可以熟练应用的coder翻阅学习的细节是欢悦的历程 Py
时序预测 | Python实现GRU电力需求预测

时序预测 Python实现GRU电力需求预测目录时序预测 Python实现GRU电力需求预测预测效果基本描述程序设计参考资料
软件工程期末复习+数据仓库ETL

一软件工程请用基本路径测试方法为下列程序设计测试用例并写明中间过程第1步画出流程图 1 菱形用于条件判断用在有分支的地方 2 矩形表示一个基本操作 3 圆形是连接点第2步计算程序环路复杂性流图G的环路复杂度V G 定义为
十七、如何将MapReduce程序提交到YARN运行

1 启动某个节点的某一个用户 hadoop node1 jps 13025 Jps hadoop node1 yarn daemon start resourcemanager hadoop node1 jps 13170 Resource
ES6 面试题 | 14.精选 ES6 面试题

前端开发工程师主业技术博主副业已过CET6 阿珊和她的猫 CSDN个人主页牛客高级专题作者在牛客打造高质量专栏前端面试必备蓝桥云课签约作者已在蓝桥云课上架的前后端实战课程 Vue js 和 Egg js 开发企业级健康管理
你好，C++（3）2.1 一个C++程序的自白

第2部分与C 第一次亲密接触在浏览了C 三分天下的世界版图之后便对C 有了基本的了解算是一只脚跨入了C 世界的大门那么怎样将我们的另外一只脚也跨入C 世界的大门呢是该即刻开始编写C 程序还是正在我们犹豫的时候便看到前面
剑指 Offer（第2版）面试题 34：二叉树中和为某一值的路径

剑指 Offer 第2版面试题 34 二叉树中和为某一值的路径剑指 Offer 第2版面试题 34 二叉树中和为某一值的路径解法1 深度优先搜索剑指 Offer 第2版面试题 34 二叉树中和为某一值的路径题目来源 47 二叉
ES6 面试题 | 13.精选 ES6 面试题

前端开发工程师主业技术博主副业已过CET6 阿珊和她的猫 CSDN个人主页牛客高级专题作者在牛客打造高质量专栏前端面试必备蓝桥云课签约作者已在蓝桥云课上架的前后端实战课程 Vue js 和 Egg js 开发企业级健康管理
时序预测 | Python实现GRU-XGBoost组合模型电力需求预测

时序预测 Python实现GRU XGBoost组合模型电力需求预测目录时序预测 Python实现GRU XGBoost组合模型电力需求预测预测效果基本描述程序设计参考资料
DeepCache

这里介绍一种名为DeepCache的无需训练的方法它利用了去噪过程中模型深层特征的相似性通过缓存 Cache 来避免重新计算网络中的深层特征仅计算网络的浅层从而减少计算量实验展示了DeepCache相较于需要重新训练的现有剪枝和蒸

DeepCache

DeepCache 的相关文章

随机推荐

热门标签