作者 | 派派星 编辑 | CVHub
点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
点击进入→自动驾驶之心【全栈算法】技术交流群
前景回顾
Welcome to back! 在《万字长文带你解读AIGC入门篇》 一文中,我们详细为大家介绍了AIGC
的相关概念、背景及其如此火爆的原因,接下来我们将进一步深入探讨AIGC背后的技术栈。
作为本系列的技术篇,将从多个角度来介绍AIGC
的技术栈,其中包括了Transformer
、SSL
、VAE
、GAN
、Diffusion
等大家均耳熟能详的词汇,这些技术都是AIGC
领域中必不可少且非常重要的一部分,对于理解AIGC
的原理和实现方式都非常关键。下面开始吧?
3. AIGC 背后的基础技术
本文将 AIGC 视为一组使用人工智能方法生成内容的任务或应用程序。其中,生成技术是指使用机器学习模型生成新的内容,例如 GAN 和扩散模型。创作技术是指利用生成技术生成的内容进行进一步的创作和编辑,例如对生成的文本进行编辑和改进。
3.1 生成技术
在AlexNet
的惊人成功之后,深度学习引起了极大的关注,它有点成为了人工智能的代名词。与传统的基于规则的算法不同,深度学习是一种数据驱动的方法,通过随机梯度下降优化模型参数。深度学习在获取卓越的特征表示方面的成功,取决于更好的网络架构和更多的数据,这极大地加速了AIGC
的发展。
3.1.1 网络架构
众所周知,深度学习的两个主流领域是自然语言处理(NLP)和计算机视觉(CV),它们的研究显著改进了骨干架构,并在其他领域启发了改进后骨干架构的各种应用,例如语音领域。在 NLP 领域,Transformer 架构已经取代了循环神经网络(RNN)成为事实上的标准骨干。而在 CV 领域,视觉 Transformer(ViT) 除了传统的卷积神经网络(CNN)外,也展示了其强大的性能。在这里,我们将简要介绍这些主流骨干架构的工作原理及其代表性的变种。
RNN
主要用于处理时间序列数据,例如语言或音频。标准的RNN有三层:输入层、隐藏层和输出层。RNN
的信息流有两个方向,第一个方向是从输入到隐藏层再到输出的方向。而RNN
中循环的本质在于其沿着时间方向的第二个信息流。除了当前的输入,当前时刻
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)