理解DALL·E 2, Stable Diffusion和 Midjourney工作原理

2023-11-08

原文:理解DALL·E 2, Stable Diffusion和 Midjourney的工作原理 - 知乎

【者按:随着AIGC的兴起,各位小伙伴们对文生图工具DALL-E 2、Stable Diffusion和Midjourney一定并不陌生。本期IDP Inspiration,小白将和大家一同走进这三者背后的技术原理,一探究竟。

以下是译文,Enjoy!】

作者 | Arham Islam

编译 | 岳扬

在过去的几年里,人工智能(AI)取得了极大的进展,而AI的新产品中有AI图像生成器。这是一种能够将输入的语句转换为图像的工具。文本转图像的AI工具有许多,但最突出的就属DALL-E 2、Stable Diffusion和Midjourney了。

01 DALL·E 2及其背后的技术

DALL-E 2由OpenAI开发,它通过一段文本描述生成图像。其使用超过100亿个参数训练的GPT-3转化器模型,能够解释自然语言输入并生成相应的图像。

一幅描述篮球运动员灌篮的油画,具有星云爆炸的效果 - 图片由DALLE 2创作

DALL-E 2主要由两部分组成——将用户输入转换为图像的表示(称为Prior),然后是将这种表示转换为实际的照片(称为Decoder)。

Source: https://www.youtube.com/watch?v=F1X4fHzF4mQ

其中使用到的文本和图像嵌入来自另一个叫做CLIP(对比语言-图像预训练)的网络,这也是由OpenAI研发的。CLIP是一种神经网络,为输入的图像返回最佳的标题。它所做的事情与DALL-E 2所做的相反——它是将图像转换为文本,而DALL-E 2是将文本转换为图像。引入CLIP的目的是为了学习物体的视觉和文字表示之间的联系。

CLIP - 为图像返回最佳的文本

DALL-E 2的工作是训练两个模型。第一个是Prior,接受文本标签并创建CLIP图像嵌入。第二个是Decoder,其接受CLIP图像嵌入并生成图像。模型训练完成之后,推理的流程如下:

  • 输入的文本被转化为使用神经网络的CLIP文本嵌入。
  • 使用主成分分析(Principal Component Analysis)降低文本嵌入的维度。
  • 使用文本嵌入创建图像嵌入。
  • 进入Decoder步骤后,扩散模型被用来将图像嵌入转化为图像。
  • 图像被从64×64放大到256×256,最后使用卷积神经网络放大到1024×1024。

02. Stable Diffusion及其技术

Stable Diffusion是一个文转图的模型,其使用了CLIP ViT-L/14文本编码器,能够通过文本提示调整模型。它在运行时将成像过程分离成“扩散 (diffusion)”的过程——从有噪声的情况开始,逐渐改善图像,直到完全没有噪声,逐步接近所提供的文本描述。

一个可以看到埃菲尔铁塔的皮卡丘高级餐厅 - 图片由Stable Diffusion生成

Stable Diffusion是基于Latent Diffusion Model(LDM)的,LDM是一款顶尖的文转图合成技术。在了解LDM的工作原理之前,让我们先看看什么是扩散模型以及为什么我们需要LDM。

扩散模型(Diffusion Models, DM)是基于Transformer的生成模型,它采样一段数据(例如图像)并随着时间的推移逐渐增加噪声,直到数据无法被识别。该模型尝试将图像回退到原始形式,在此过程中学习如何生成图片或其他数据。

DM存在的问题是强大的DM往往要消耗大量GPU资源,而且由于序列化评估(Sequential Evaluations),推理的成本相当高。为了使DM在有限的计算资源上进行训练而不影响其质量以及灵活性,Stable Diffusion将DM应用于强大的预训练自动编码器(Pre-trained Autoencoders)。

在这样的前提下训练扩散模型,使其有可能在降低复杂性和保留数据细节之间达到一个最佳平衡点,显著提高视觉真实程度。在模型结构中引入交叉注意力层(cross attention layer),使扩散模型成为一个强大而灵活的生成器,实现基于卷积的高分辨率图像生成。

03 Midjourney及其是如何工作的

Midjourney也是一款由人工智能驱动的工具,其能够根据用户的提示生成图像。MidJourney善于适应实际的艺术风格,创造出用户想要的任何效果组合的图像。它擅长环境效果,特别是幻想和科幻场景,看起来就像游戏的艺术效果。

夜晚的云端城堡,电影般的画面 - 图片由Midjourney生成

Midjourney也是一个人工智能图像生成工具,它通过输入文本和参数,并使用在大量图像数据上训练出的机器学习(ML)算法来生成独一无二的图像。

Midjourney目前只能通过其官方Discord上的Discord机器人使用。用户使用“/imagine”命令生成图像,并像其他AI图像生成工具一样输入命令提示。然后机器人会返回一张图片。

04. DALL·E 2, Stable Diffusion 和 Midjourney之间的比较

DALL-E 2使用数以百万计的图片数据进行训练,其输出结果更加成熟,非常适合企业使用。当有两个以上的人物出现时,DALL-E 2产生的图像要比Midjourney或Stable Diffusion好得多。

而Midjourney则是一个以其艺术风格闻名的工具。Midjourney使用其Discord机器人来发送以及接收对AI服务器的请求,几乎所有的事情都发生在Discord上。由此产生的图像很少看起来像照片,它似乎更像一幅画。

Stable Diffusion 是一个开源的模型,人人都可以使用。它对当代艺术图像有比较好的理解,可以产生充满细节的艺术作品。然而它需要对复杂的prompt进行解释。Stable Diffusion比较适合生成复杂的、有创意的插图。但在创作一般的图像时就显得存在些许不足。

下面的prompt有助于了解每种模型的相似性和差异。

END

点点『在看』,科普火爆的文生图工具背后的技。

参考资料

发布于 2022-12-05 09:23・IP 属地北京

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

理解DALL·E 2, Stable Diffusion和 Midjourney工作原理 的相关文章

随机推荐

  • STM32+MS5611测气压温度例程详解,测试无误

    硬件平台 STM32F10X MS5611 JLink 软件平台 Keil 4 一 基础知识 首先 MS5611是什么 MS5611气压传感器是集合SPI和I C 高达20 MHz 总线接口的高分辨率气压传感器 分辨率可达到10cm 内部有
  • 应用层——协议

    前言 本章将介绍关于应用层的协议 如下图所示 一 应用协议的概要 利用网络的应用程序有很多 包括Web浏览器 电子邮件 远程登陆 文件传输 网络管理等 能够让这些应用进行通信处理的正是应用协议 网络应用由不同的用户和软件供应商开发而成 为了
  • Kafka源码深度解析-序列15 -Log文件结构与flush刷盘机制

    Log文件结构 在前面我们反复讲topic partition的概念 本文来分析这些不同topic 不同partition的message 在文件中 是以何种结构存储的 有兴趣朋友可以关注公众号 架构之道与术 获取最新文章 或扫描如下二维码
  • QT屏幕自适应自动布局,拖动窗口自动变大变小(一)

    QT屏幕自适应自动布局 拖动变大变小 困扰了很久 布局好ui后 随着屏幕分辨率的变化 换成笔记本或4k显示屏时 或最大化 拖动窗口 ui就乱了 挤在一起 或不能跟随窗口拉大而变化 布局是一个很重要的步骤 下面这张图 拖动窗口到最大化 结果是
  • 2020-07-23

    达梦数据库DSC搭建 原创 2020 03 17 zcn126 码龄2年 关注 一 环境准备 硬件 两台相同配置机器 2G 内存 20G 本地磁盘 2 块网卡 操作系统 Red Hat Enterprise Linux Server rel
  • ui测试怎么做?依据文档有哪些_软件开发流程涉及到哪些文档?其中有你需要了解的外包开发中的猫腻...

    此篇文章的目的 1 让软件开发业主了解软件开发过程中涉及的到具体文档以及它的作用 2 以文档的视角来感受整个开发过程 然后帮助业主选出优秀的外包开发方 软件开发整体流程介绍 需求分析 产品原型设计 UI设计 编码开发 测试 上线交付 1 需
  • 计算机网络---网络编程套接字(一)

    计算机网络 网络编程套接字之UDP数据报套接字编程 作者介绍 作者 偷偷敲代码的青花瓷 作者的Gitee 代码仓库 系列文章推荐 计算机网络 网络原理之初识 我和大家一样都是热爱编程 很高兴能在此和大家分享知识 希望在分享知识的同时 能和大
  • IntelliJ IDEA 插件下载安装教程 在线安装和本地安装教程

    随着idea用户越来越多 许多插件可以方便我们日常的开发 idea本身就可以下载安装这些插件 话不多说 上教程 在线安装 点击左侧 file gt settings 点击Plugins gt 输入想下载的插件名称 支持模糊查询 gt 选中想
  • GPT-4是一个好的数据分析师吗?

    文章目录 摘要 1 简介 2 相关工作 2 1 相关任务和数据集 2 2 GPT 3 ChatGPT GPT 4能力 3 任务说明 3 1 背景 数据分析师工作范围 3 2 我们的任务设置 4 我们的框架 4 1 步骤1 代码生成 4 2
  • Python爬虫系列(一)——手把手教你写Python爬虫

    1 什么是爬虫 根据百度百科的定义 网络爬虫 又称为网页蜘蛛 是一种按照一定的规则 自动地抓取万维网信息的程序或者脚本 人们如今的生活 大都离不开网络 发一条微信 电子支付买一杯奶茶 刷一条微博 等等 都依赖于网络的便携性 但是 互联网茁壮
  • Vue 代码如何进行调试

    Vue 代码调试 console debugger 浏览器调试 推荐文章 初入职场 还是个前端小白 代码写不出来 师傅不在 小梦 vs 后端大兄弟 我运行了一个东西 一直出不来 后端大兄弟 我可以试一试断点 看哪里出错 后端大兄弟 我好像不
  • 数据结构---希尔排序

    希尔排序 逐步折半增量 JAVA实现 Hibbard增量 Sedgewick增量 总结 对原始数组预处理 然后使用插入排序 满足 数组元素较少和 数组大部分元素有序俩个条件 逐步折半增量 逐步分组进行粗调 再进行直接插入排序的思想 就是希尔
  • sql-labs 闯关 11~20

    sql labs 闯关 11 20 友善爱国公正敬业爱国爱国诚信自由友善爱国公正诚信民主和谐敬业平等 复习笔记1 内容 POST请求介绍 sql labs第11关 POST请求 基于错误 单引号 字符型 sql labs第12关 POST请
  • C++ 工厂模式

    简单工厂 简单工厂 定义一个类负责创建其他对象类的实例 而被创建的对象类一般都有共同的基类 一般来说简单工厂如果想创建一个对象类 只需要根据名字进行实例化 工厂就会创建相应的对象类 特点 简单的对不同类对象的创建进行了一层很薄的封装 inc
  • vi 常用命令行

    vi 常用命令行 1 vi 模式 a 一般模式 vi 处理文件时 一进入该文件 就是一般模式了 b 编辑模式 在一般模式下可以进行删除 复制 粘贴等操作 却无法进行编辑操作 等按下 i I o O a A r R 等 字母之后才能进入编辑模
  • 关于我用iVX沉浸式体验了一把0代码项目创建(2)

    关于iVX 前面已经写过两篇文章了 感兴趣的同学可以去看我前面两篇文章 传送门 云原生IDE iVX 1 iVX的系统架构 1 1 举一个例子 1 2 iVX前端技术框架 1 3 后台技术框架 1 4 后台应用逻辑分层 2 iVX体验 2
  • Windows和linux上安装maven3

    一 Windows上安装maven3 系统环境 Windows 7 64位旗舰版 jdk1 6 0 17 1 下载maven3 http maven apache org download html 下载 apache maven 3 1
  • 论文阅读_扩散模型_DM

    英文名称 Deep Unsupervised Learning using Nonequilibrium Thermodynamics 中文名称 使用非平衡热力学原理的深度无监督学习 论文地址 http arxiv org abs 1503
  • NTC PTC 压敏电阻 在电源电路中的作用

    NTC PTC 压敏电阻 在电源电路中的作用 来自dianyuan com 问题1 NTC电阻串联在交流电路中主要是起什么作用 它是怎样工作 请大侠指点 谢谢 问题2 压敏电阻并联在交流侧电路中主要是起什么作用 它是怎样工作 如果没有以上两
  • 理解DALL·E 2, Stable Diffusion和 Midjourney工作原理

    原文 理解DALL E 2 Stable Diffusion和 Midjourney的工作原理 知乎 者按 随着AIGC的兴起 各位小伙伴们对文生图工具DALL E 2 Stable Diffusion和Midjourney一定并不陌生 本