Vidu 模型:U-ViT,多模态、效果好、成本低
理论端:自 ViT 诞生后,CV 与 NLP 再无阻隔
ViT(VisionTransformers)为谷歌团队 2020 年提出,是视觉领域中首个完全基于 Transformer 的模型,其模型效果与 CNN 相当、打通了视觉领域(CV)与自然语言处理 (NLP)两大领域。
ViT 是一种基于 Transformer 架构的深度学习模型,由 GoogleBrain 团队于 2020 年发表在 Arxiv 的论文“AnImageisWorth16x16Words:TransformersforImageRecognitionatScale” 中提出,主要用于视觉任务。在 ViT 被提出前,注意力机制或与 CNN 结合使用,或用来取 代 CNN 的某些组件,CNN 结构并未被彻底颠覆。因此,ViT 的创新在于其完全抛弃了 CNN, 直接将标准的 Transformer 模型应用于图像分类等视觉任务,将 CV 与 NLP 连接起来。
经过大量数据预训练的 ViT 取得了与 CNN 媲美甚至更好的性能,而所需计算资源大大下降; 若未预训练,Transformer 会缺乏需要大量学习才能得到的先验知识——归纳偏置,如相邻 区域特征相似和平移等变性等,导致结果不如 CNN 理想。ViT 的提出,表明经过大量数据 预训练后的 Transformer 模型能够直接应用于视觉处理任务,使得 CV 与 NLP 领域的壁垒 被打通,以 Transformer 为底层架构的模型在多模态领域中的障碍越发减少。
应用端:U-ViT 架构受 U-Net 启发,为图像生成而来 
结构:向 U-NeT 拜师学艺,换下 CNN、换上 Transformer,为图像生成而来
在 U-ViT 前,Diffusion 模型中的主流主干(backbone)一直为基于 CNN 的 U-Net。U-net 是 2015 年的论文《U-Net:ConvolutionalNetworksforBiomedicalImageSegmentation》中首 次提出的,其在生物医学图像分割领域取得了显著的效果,并因此被广泛应用于各种图像 分割任务中。由于网络图形似英文字母“U”,故称为 U-Net。具体来看,基于 CNN 的 U-Net 具有一组下采样(downsampling)块和一组上采样(upsampling)块,且以长跳跃连接 (longskipconnection)贯穿整个网络。其中,长跳跃连接有助于解决 CNN 在处理图像分 割等任务时可能出现的信息丢失问题,也是随后 U-Net 重点借鉴的部分。
U-ViT 是生数团队设计的一种简单通用的、基于 ViT 的架构,用于使用 Diffusion生成图像。 打响扩散模型中 CNN 被 Transformer 取代的重要一枪。生数科技团队自主研发并于 2022 年 9 月提出了 U-ViT,其早于 Sora 采用的 DiT(DiffusionTransformer),是全球首个将 Diffusion 与 Transformer 融合的知名架构。U-ViT 通过将广泛应用的 U-Net 模型中的 CNN 部分替换为 Transformer 架构,得以同时结合了两者的优势,为图像和视频生成提供了一种 新的方法论。
模型首先对输入图像进行分割处理(分割为 patch),与时间和条件一道表示为 token 后通 过 Embedding 层,随后经过 TransformerBlock 后输出为 token,并通过一个线性层转 为图块,最后通过一个可选的 3X3 卷积层输出为最终结果:
1)遵循 Transformers 的设计理念,U-ViT 将包括时间、条件和噪声图像在内的所有输入 都视作为 token。U-ViT 延续了 ViT 的方法,将带噪图片划分为多个区块之后,与时间 t、 条件 c 和图像块一起转为 token 输入到 TransformerBlock。
2)借鉴 U-Net,U-ViT 在 Transformer 的浅层和深层之间采用长跳转连接,总数量为 (#Blocks-1)/2。长跳跃连接允许模型在处理数据时跳过某些层,从而帮助模型在深层网络 中更有效地传递信息、避免了在训练深层网络时可能出现的梯度消失或爆炸问题。通过长 跳转连接,模型可以保持对输入数据的高层次理解,同时也能够利用浅层网络的细节信息。 此外,U-ViT 也证明了在基于扩散的图像建模中,CNN 中的下采样和上采样并非必须。
3)最后添加 3×3 卷积块用以增加图片输出质量。U-ViT 在输出之前添加了一个可选、而 非必须的 3×3 卷积块以获得更好的视觉质量。
报告原文节选如下:
本文仅供参考,不代表我们的任何投资建议。【幻影视界】整理分享的资料仅推荐阅读,用户获取的资料仅供个人学习,如需使用请参阅报告原文。
