输入文本就可建模渲染了？！OpenAI祭出120亿参数魔法模型！

2023-11-08

转自：https://new.qq.com/omn/20210111/20210111A0CBRD00.html

2021刚刚开启，OpenAI又来放大招了！

能写小说、哲学语录的GPT-3已经不足为奇？那就来一个多模态『图像版GPT-3』。

今天，OpenAI重磅推出了最新语言模型—DALL·E，它是GPT-3的120亿参数版本，可以魔法一般按照自然语言文字描述直接生成对应图片！

比如，在DALL·E模型中输入“穿芭蕾舞短裙、正在遛狗的萝卜宝宝”，它就可以生成这样一张图片：

输入“鳄梨形状的扶手椅”，就是这样：

甚至输入“含OpenAI字样的店铺”，它也能成生成多种设计图

DALL·E这项神技能冲上了各大社交平台的热搜。

Keras创始人Fran ois Chollet特意发文称：

这看起来非常酷，尤其是“图像生成”的部分。从原理上来看，它应该就是GPT-3在文本合成图像方向上的扩展版本。

AI大神吴恩达也第一时间转推点赞，还顺带挑选了一张满意的蓝色衬衫 + 黑色长裤的AI 生成图。

OpenAI 联合创始人、首席科学家 Ilya Sutskever 在推特上发文表道：人工智能的长期目标是构建多模态神经网络，即AI能够学习不同模态之间的概念（文本和视觉领域为主），从而更好地理解世界。而 DALL·E 和 CLIP 使我们更接近“多模态 AI 系统”这一目标。

值得一提的是，DALL·E的命名也很特别。这个善于绘画创作的模型名称来源于人类艺术家萨尔瓦多·达利（Salvador Dalí）和皮克斯（Pixar）机器人WALL·E名称的结合。

接下来，我们来详细介绍一下它还有哪些硬核能力。

DALL·E的能力

DALL·E能够为多语言成分结构的各种句子创造似是而非的图像。研究人员通过一些交互视觉效果举例说明了这一点。在下面的案例中，每个视觉效果的文本提示都是通过CLIP重新排序后，从512个文本提示中的前32个获得的，不采取任何手动选取（cherry-picking）。

控制属性

研究人员测试了DALL·E修改目标物体的能力，包括修改相应的属性以及出现的次数。

文本提示：五边形的绿色钟。

绘制多个目标

同时控制多个目标物体、以及它们的属性、空间关系是一个全新的挑战。

例如，“一只戴着红帽子、黄手套、蓝衬衫和绿裤子的刺猬”。要正确地解释这句话，DALL·E 不仅要正确地将每件衣服与动物组合在一起，还要将（帽子、红色）、（手套、黄色）、（衬衫、蓝色）和（裤子，绿色）形成各种联想，而且不能混淆它们。

文本提示：一堆三维立方体：红色的立方体在绿色立方体的顶部；绿色立方体在中间；蓝色立方体在底部。

虽然DALL·E确实为少量目标的属性和位置提供了某种程度的可控性，但成功率取决于标题文本的语言措辞。

随着目标的增多，DALL·E容易混淆目标与颜色之间的关联，成功率会急剧降低。研究人员注意到，在这些场景中，DALL·E对于标题文本的重新表述是脆弱的、可替代的，语义上等价的标题文本通常不会产生正确的解释。

可视化透视与三维

研究人员发现DALL·E还能够控制场景的视点和渲染场景的3D样式。

文本提示：坐在田野上的体素化模型水豚。

为了进一步验证DALL·E的这个能力，研究人员测试了DALL·E在同等视角下重复绘制知名人物头部的能力，并发现DALL·E可以成功恢复旋转头部的平滑动画。

文本提示：荷马半身像。

DALL·E能够将某些类型的光学畸变（Optical Distortions）应用到具体场景中，正如我们在“鱼眼透镜视图（Fisheye Lens View）”和“球形全景图（Spherical Panorama.）”等场景中看到的那样。它促使研究人员探索其产生光学反射的能力。

文本提示：一个白色的立方体看着自己在镜子里的倒影；一个白色的立方体看着镜子里的自己。

可视化内部和外部结构

“特写镜头（Extreme Close-up View）”和“x射线（X-Ray）”风格的案例使研究人员进一步探索了DALL·E运用横截面视角绘制内部结构和用宏观图像绘制外部结构的能力。

文本提示：核桃的横截面图。

推断上下文细节

将文本翻译成图像的任务是不明确的：一个标题文本通常可以对应无限多种图像，换句话说，图像不是唯一确定的。例如，假如标题文本是“日出时，坐在田野上的水豚的绘画像。根据水豚的方位，可能需要画一个阴影，但这个细节没有被明确提及。

研究人员探讨了DALL·E在以下三种情况下解决无规范标准问题的能力：改变风格、设置和时间；在各种不同的情况下绘制同一目标图像；在生成目标图像上书写指定文本。

文本提示：带有蓝色草莓的彩色玻璃窗。

利用不同程度的可靠性，DALL·E为通过自然语言实现3D渲染引擎功能提供了一种途径。它可以独立地控制少量目标的属性，并在有限的范围内控制目标的数量以及它们之间的排列方式。它还可以控制渲染场景的位置和角度，并且根据角度和照明条件生成精确且规范的已知目标。

与3D渲染引擎不同，3D渲染引擎的输入必须明确且完整，当标题文本暗示图像必须包含未明确的特定细节时，DALL·E通常能够“填补空白”。

应用案例

研究人员探讨了上述功能在时尚设计和室内设计中的应用。

文本提示：一位穿着橘色和黑色相间衬衫的男性人体模特。

文本提示：客厅中有两个白色的扶手椅和一幅斗兽场的画，这幅画挂在现代样式壁炉的上方。AI生成的图像：

组合不相关的概念

语言的构成本质使人们能够将概念描述集成在一起，用以描述真实和虚构的事物。OpenAI发现，DALL·E还具有将完全不同的idea结合起来以合成物体的能力，其中有些物体不可能在现实世界中存在。

OpenA在两种情况下探索这种能力：将各种概念的特质传递给动物，以及从不相关的概念中汲取灵感来设计产品。

文本提示：竖琴状的蜗牛。

在上一部分中探讨了DALL·E在生成真实物体的图像时结合无关概念的能力。接下来，OpenAI通过在艺术的背景下的三种插图探索这种能力：动物和物体的拟人化版本、动物嵌合体、表情符号。

文本提示：长颈鹿乌龟合体的专业高质量插图，模仿乌龟的长颈鹿，由乌龟变成的长颈鹿。

零样本视觉推理

可以仅根据说明和提示来指示GPT-3执行多种任务，而无需任何额外训练。例如，当提示短语“将‘在公园里walking狗的人’被翻译成法语：”时，GPT-3会回答“un homme quipromèneson chien dans le parc。此功能称为零样本推理。

OpenAI发现DALL·E将此功能扩展到了视觉领域，并且在以正确的方式提示时，能够执行多种图像到图像的翻译任务。

文本+图像提示：参照上面的猫在下面生成草图。

OpenAI惊讶地发现DALL·E居然有这种神奇的能力，因为他们没有对神经网络或训练程序进行任何修改。

受这些结果的启发，OpenAI通过在Raven的渐进矩阵上进行测试来衡量DALL·E对于解决类推推理问题的能力，这是一种视觉智商测试，在20世纪得到了广泛应用。

文本+图像提示：一个几何形状序列。

地理知识

OpenAI 发现DALL·E了解地理事实、地标和街区。它对这些概念的了解在某些方面出奇地精确，而在另一些方面却有缺陷。

文本提示：中国食物的图片。

时间知识

除了探索DALL·E关于随空间变化的概念的知识外，OpenAI还探索了其随时间变化的概念的知识。

文本+图像提示：20年代发明的电话。

总结：方法和先前工作

DALL·E是一个仅有解码器的Transformer架构，它可以接收1280个token的文本和图像作为单个流（文本为256个token，图像为1024个token），并对它们全部进行自动回归建模。

它的64个自注意力层中的每一个都具有注意力mask，使每个图像token都可以匹配所有文本token。DALL·E对文本token使用标准的因果mask，以行、列或卷积注意模式对图像token使用稀疏注意，具体取决于层数。

OpenAI计划在下一篇论文中提供有关DALL·E架构和训练过程的详细信息。

与VQVAE-2中使用的rejection sampling类似，OpenAI使用CLIP对每个文本生成的512个采样中的前32个进行排名。此过程也可以看作是一种语言指导的搜索，会对样本质量产生巨大影响。

GPT-3已经向我们展示，可以用语言来指示大型神经网络执行各种文本生成任务。Image GPT则表明，同样类型的神经网络也可以用来生成高保真的图像。OpenAI进一步扩展了这些发现，以表明通过语言操纵视觉概念是触手可及的。

与GPT-3一样，DALL·E是一种Transformer语言模型。OpenAI认为，涉及生成模型的工作可能会产生重大而广泛的社会影响。因此未来，OpenAI会计划分析像DALL·E这样的模型如何与社会问题联系起来，例如对某些工作流程和专业的经济影响，模型输出中可能存在的偏见以及该技术所隐含的长期道德挑战。

最后，大家对DALL·E 这个的神经网络模型有什么应用上的期待呢？二维设计师？

又会觉得它会引导什么AI革命吗？又或者觉得它会存在很多不可避免的限制？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Deep Learning

输入文本就可建模渲染了？！OpenAI祭出120亿参数魔法模型！的相关文章

如何高速安装jetson-inference，一步到位，避免踩坑！

踩了很长时间的坑终于弄明白怎么高速下载jetson inference 来源安装jetson inference 自动下载模型满速下载起飞解决下载模型被墙问题奈流云何的博客 CSDN博客需要将Github的仓库复制到Gitee上
3W字长文总结PyTorch中常用的函数

quad quad PyTorch基本函数更新 quad q
图解NCHW与NHWC数据格式

图解NCHW与NHWC数据格式田海立 CSDN CSDN博客 nchw 流行的深度学习框架中有不同的数据格式典型的有NCHW和NHWC格式本文从逻辑表达和物理存储角度用图的方式来理解这两种数据格式最后以RGB图像为例来加深NHWC和
深度学习网络篇——VGGNet（Part1 网络结构&训练环节）

我们上篇文章了解了一下NIN 接下来我们来了解一下VGGNet 可以说是另一波的跪舔和膜拜 VGGNet主要是分为两篇文章第一篇文章来分享一下VGGNet的网络结构还有训练环节第二篇文章是分享VGGNet做的分类实验和总结此为第一篇
笔记︱几款多模态向量检索引擎：Faiss 、milvus、Proxima、vearch、Jina等

转自 https zhuanlan zhihu com p 364923722 引用文章 7 的开篇来表示什么是向量化搜索人工智能算法可以对物理世界的人物场景所产生各种非结构化数据如语音图片视频语言文字行为等进行抽象
深度学习之图像分类（一）--分类模型的混淆矩阵

深度学习之图像分类一分类模型的混淆矩阵深度学习之图像分类一分类模型的混淆矩阵 1 混淆矩阵 1 1 二分类混淆矩阵 1 2 混淆矩阵计算实例 2 混淆矩阵代码 3 混淆矩阵用途深度学习之图像分类一分类模型的混淆矩阵今天开始
深度神经网络中的Inception模块介绍

深度神经网络 Deep Neural Networks DNN 或深度卷积网络中的Inception模块是由Google的Christian Szegedy等人提出包括Inception v1 Inception v2 Inception
Tensorflow错误InvalidArgumentError see above for traceback): No OpKernel was registered to support Op

调用tensorflow gpu运行错误错误信息如下 2023 06 21 15 36 14 007389 I tensorflow core platform cpu feature guard cc 141 Your CPU supp
Deep Learning Tutorials(一):开头语

万事开头难当你开始看这些时候有可能你已经开始了研究生生活不在像本科时候过着那种得过且过考试不挂科的日子你整天盲目漫无目的的过日子实际上是在浪费自己的生命所以坚持每天进步吧回到正事你可能开始从事深度学习研究或者有关机器学习方
CrossEntropyloss function

这里写目录标题两部分 Part One 绕绕可以不看 Part Two 清晰易懂一定要看两部分 Part One 绕绕可以不看 Cross entropy loss function又称交叉熵损失是基于one hot编码的举个
pytorch 入门 DenseNet

知识点0 dense block的结构知识点1 定义dense block 知识点2 定义DenseNet的主体知识点3 add module 知识点 densenet是由多个这种结构串联而成的 import torch import
window 7 平台上 MXNET 源码编译

目的本文主要描述怎么在windows上编译mxnet源码得到可用的libmxnet dll和libmxnet lib文件版本 mxnet x64 release CPU版运行环境 windows 7 64bit visual stu
Pointpillars for object detection

博客参考 pointpillars代码阅读 prep pointcloud篇 Little sky jty的博客 CSDN博客Brief这一篇内容主要是对函数prep pointcloud进行debug和记录这里也是dataloader的
PyTorch训练简单的全连接神经网络：手写数字识别

文章目录 pytorch 神经网络训练demo 输出结果来源 pytorch 神经网络训练demo 数据集 MNIST 该数据集的内容是手写数字识别其分为两部分分别含有60000张训练图片和10000张测试图片神经网络全连接网络
决策树(Decision Tree)简介

决策树 Decision Tree 及其变种是另一类将输入空间分成不同的区域每个区域有独立参数的算法决策树分类算法是一种基于实例的归纳学习方法它能从给定的无序的训练样本中提炼出树型的分类模型树中的每个非叶子节点记录了使用哪个特征来
GNN等优缺点总结及解决方案

https www zhihu com question 338051122 https www zhihu com question 346942899 https zhuanlan zhihu com p 291230435 GCN的缺
目标检测数据集分析

原文链接 https ghlcode cn pages 250d97 目标检测数据集分析新增支持数据集可视化 Ghlerrix DataAnalyze 平时我们经常需要对我们的数据集进行各种分析以便我们找到更好的提高方式所以我将我平时
小样本学习(one/few-shot learning)

原文 https blog csdn net mao feng article details 78939864 原博地址 https blog csdn net xhw205 article details 79491649 小样本学习
吴恩达老师深度学习视频课笔记：逻辑回归公式推导及C++实现

逻辑回归 Logistic Regression 是一个二分分类算法逻辑回归的目标是最小化其预测与训练数据之间的误差为了训练逻辑回归模型中的参数w和b 需要定义一个成本函数 cost function 成本函数 cost functio
【直观详解】什么是正则化

转自 https charlesliuyx github io 2017 10 03 E3 80 90 E7 9B B4 E8 A7 82 E8 AF A6 E8 A7 A3 E3 80 91 E4 BB 80 E4 B9 88 E6 98

随机推荐

【LeetCode-面试经典150题-day25】

目录 530 二叉搜索树的最小绝对差 230 二叉搜索树中第K小的元素 98 验证二叉搜索树 530 二叉搜索树的最小绝对差题意给你一个二叉搜索树的根节点 root 返回树中任意两不同节点值之间的最小差值差值是一个正数其数值等于两
Conceptual Challenges for Interpretable Machine Learning

Conceptual Challenges for Interpretable Machine Learning David S Watson1 Department of Statistical Science University Co
C语言编程笔记丨数据结构-顺序线性表的实现（初始化、销毁、长度、查找、前驱、后继、插入、删除、显示操作）

define MAXSIZE 100 结构体定义 typedef struct int elem 基地址 int length 结构体当前长度 int listsize 结构体最大长度 Sqlist 结构体类型名各项操作 void Sho
Spring Boot通过EasyExcel异步多线程实现大数据量Excel导入,百万数据30秒

原创小光xgblack IT小胡同 2023 02 19 12 24 发表于江苏整体思路整体思路很简单就是在文件读取和数据多线程处理这两步发力 Excel数据分片读取线程池异步处理数据 Mybatis Plus批量存储实现过程
【目标检测—玩手机检测数据集】

目标检测玩手机检测数据集数据集示例标签可视化其他相关资源 1 YOLO玩手机检测数据集二近一万多张使用lableimg标注软件标注好的真实场景的高质量图片数据图片格式为jpg 标签有两种分别为VOC格式和yolo格式分别保
第二章：25+ Python 数据操作教程（第一节Python 中的数据结构）

这篇文章解释了 Python 中使用的数据结构了解编程语言中的数据结构至关重要在 Python 中有许多可用的数据结构它们如下 1 字符串 2 列出 3 元组 4 词典 5 套目录 1 字符串 2 列表 3 元组 4 字典 5 套
Java-Redis缓存穿透，击穿，雪崩和布隆算法

Java Redis缓存穿透击穿雪崩和布隆算法 1 缓存穿透概念 2 如何解决缓存穿透 3 什么是缓存击穿 4 什么是缓存雪崩 5 导致缓存雪崩的原因 6 缓存穿透缓存击穿缓存雪崩的区别 1 缓存穿透概念当一个用户想要查询数据时
LRU算法java实现

1 lru简介 LRU是Least Recently Used的缩写即最近最少使用常用于页面置换算法是为虚拟页式存储管理服务的即当一个数据最近一段时间没有被访问未来被访问的概率也很小当空间被占满后最先淘汰最近最少使用的数据 2
Android动态来改变App桌面图标

时不时的我们就会发现一些我们常见的应用比如某宝某东在一些特殊的日子中比如双十一元旦为了迎合这样一个日子的气氛在桌面的应用图标就会发生改变其实对于这样的一个桌面图标更换 Android中为我们提供了AndroidManife
spring data jpa 关联查询返回自定义对象

Override public List
Linux性能检测常用的10个基本命令

1 uptime 该命令可以大致的看出计算机的整体负载情况 load average后的数字分别表示计算机在1min 5min 15min内的平均负载 2 dmesg tail 打印内核环形缓存区中的内容可以用来查看一些错误上面的例子中
vue3组件库搭建并且发布到npm保姆教程连载一

前言小时候的梦想是拥有一个自己的组件库开玩笑哈接触前端后很多时候在npm install的时候我在想我们安装的这些依赖发布者是如何将依赖发布到npm 并且可以让别人使用的未知是让人害怕的经过一系列学习和探索后我也拥有了自己的
【python数据挖掘课程】二十六.基于SnowNLP的豆瓣评论情感分析

这是 Python数据挖掘课程系列文章前面很多文章都讲解了分类聚类算法而这篇文章主要讲解如何调用SnowNLP库实现情感分析处理的对象是豆瓣肖申克救赎的评论文本文章比较基础希望对你有所帮助提供些思路也是自己教学的内容
全国青少年电子信息智能创新大赛(决赛)python·模拟三卷，含答案解析

全国青少年电子信息智能创新大赛决赛 python 模拟三卷一程序题第一题描述现有 n 个人依次围成一圈玩游戏从第 1 个人开始报数数到第 m 个人出局然后从出局的下一个人开始报数数到第 m 个人又出局如此反复到只剩下
Google分布式三篇论文---BigTable

Google s BigTable 原理翻译题记 google 的成功除了一个个出色的创意外还因为有 Jeff Dean 这样的软件架构天才官方的 Google Reader blog 中有对BigTable 的解释这是Googl
TensorRT(2):TensorRT的使用流程

TensorRT系列传送门不定期更新深度框架 TensorRT 文章目录一在线加载caffe模型序列化保存到本地二反序列化直接加载保存后的trt模型以caffe分类模型为例简单介绍TRT的使用流程这里不涉及量化就以fp
测试的艺术：代码检查、走查与评审

软件开发人员通常不会考虑的一种测试形式人工测试大多数人都以为因为程序是为了供机器执行而编写的那么也该由机器来对程序进行测试这种想法是有问题的人工测试方法在暴露错误方面是很有成效的实际上大多数的软件项目都应使用到一下的人工测试
详解Shell 脚本中 “$” 符号的多种用法

通常情况下在工作中用的最多的有如下几项 1 表示执行脚本传入参数的个数 2 表示执行脚本传入参数的列表不包括 0 3 表示进程的id Shell本身的PID ProcessID 即脚本运行的当前进程ID号 4 Shell最后运行的后台
解决uni-toast被弹窗组件遮挡

在App vue uni toast设置层级比popup高就行 uni toast z index 999999
输入文本就可建模渲染了？！OpenAI祭出120亿参数魔法模型！

转自 https new qq com omn 20210111 20210111A0CBRD00 html 2021刚刚开启 OpenAI又来放大招了能写小说哲学语录的GPT 3已经不足为奇那就来一个多模态图像版GPT 3 今天

输入文本就可建模渲染了？！OpenAI祭出120亿参数魔法模型！

输入文本就可建模渲染了？！OpenAI祭出120亿参数魔法模型！ 的相关文章

随机推荐

热门标签

输入文本就可建模渲染了？！OpenAI祭出120亿参数魔法模型！的相关文章