什么是 Stable Diffusion?
Stable Diffusion 是一种生成式 AI 模型,可根据文字和影像提示产生独特、逼真的影像。它最初于 2022 年推出。除了影像之外,您还可以使用该模型来建立影片和动画。该模型基于扩散技术并使用潜在空间。这显著降低了处理要求,让您可以在配备 GPU 的桌上型电脑或笔记型电脑上执行该模型。透过迁移学习,只需五张影像即可 Stable Diffusion 进行微调,以满足特定需求。

任何人都可以在遵循宽松授权要求的情况下使用 Stable Diffusion。这是 Stable Diffusion 与过往同类产品的不同之处。
Pixso

为什么事件管理如此重要?
事件管理指导 IT 团队针对任何事件做出最合适的回应。事件管理会建立一个系统,因此 IT 团队可以取得所有相关详细资讯以供进一步学习。可以将事件管理视为手册,用于快速恢复正常营运,同时最大限度地减少对内部和外部客户的干扰。

如果没有适当的系统,事件复原不可避免地会导致重复的错误和资源的滥用,并对组织产生更严重的负面影响。接下来,我们将讨论如何从事件管理中受益。

减少事件发生率
透过在发生事件时仔细阅读手册,团队可以尽快解决事件。同时,随着时间的推移,事件管理还可以减少事件发生率。当您在 IM 流程的早期辨识风险时,将来发生事故的几率就会降低。撷取完整的事件鉴识有助于进行主动补救,并有助于防止以后发生类似事件。

改善效能
在 IT 事件管理中使用有效而敏感的监控时,您可以辨识并调查品质的较小幅度降低。您也可以探索改善效能的新方法。随着时间的推移,IT 团队可以判断服务事件辨识模式的品质,从而实现预测性补救和持续服务。

高效的协作
不同的团队通常必须协同工作进行事件复原。可以透过概述事件回应框架内各方的沟通指南来显著改善协作。您还可以更有效地管理利害关系人的情绪。

为什么 Stable Diffusion 如此重要?
Stable Diffusion 非常重要,因为它易于存取且可轻松使用。 Stable Diffusion 可以在消费级图形卡上运行。这是第一次任何人都可以下载模型并产生自己的影像。您还可以控制关键的超参数,例如去杂讯步骤的数量和施加的杂讯程度。

Stable Diffusion 便于使用者使用,您无需其他资讯即可建立影像。 Stable Diffusion 有一个活跃的社群,因此存在大量的相关文件和操作教程。该软体版本受 Creative ML OpenRail-M 授权的约束,该授权允许您使用、变更和重新分发修改后的软体。如果您发布了衍生软体,则必须在同一授权下发布该软体,并附上原始 Stable Diffusion 授权的副本。

Stable Diffusion 如何运作?
作为扩散模型,Stable Diffusion 不同于许多其他影像产生模型。原则上,扩散模型使用高斯杂讯对影像进行编码。然后,模型使用杂讯预测器和反向扩散程序来重现影像。

除了具有不同的扩散模型技术之外,Stable Diffusion 的独特之处在于它不使用影像的图元空间。相反,它使用降低解析度的潜在空间。

其原因是,解析度为 512x512 的彩色影像具有 786,432 个可能的值。相比之下,Stable Diffusion 使用的压缩影像要小 48 倍,其值为 16,384。这就大幅度降低了处理要求。因此,您可以在带有 8GB RAM 的 NVIDIA GPU 的桌上型电脑上使用 Stable Diffusion。较小的潜在空间之所以可发挥作用,是因为自然影像不是随机的。 Stable Diffusion 使用解码器中的变分自动编码器 (VAE) 档来绘制眼睛等精细细节。

使用 LAION 透过 Common Crawl 收集的三个资料集训练 Stable Diffusion V1。这包括美学评分为 6 或更高的 LAION-Aesthetics v2.6 影像资料集。

Stable Diffusion 使用何种架构?
Stable Diffusion 的主要架构元件包括变分自动编码器、正向和反向扩散、杂讯预测器和文字调整。

变分自动编码器
变分自动编码器由单独的编码器和解码器组成。编码器在更易于操作的潜在空间中将 512x512 图元的影像压缩成更小的 64x64 模型。解码器将模型从潜在空间复原为全尺寸 512x512 图元的影像。

正向扩散
正向扩散逐渐向影像新增高斯杂讯,直到剩下的全部是随机杂讯。无法从最终充满杂讯的影像中识别出原始影像。在训练期间,所有影像都会经过此程序。除非执行影像间的转换,否则不会进一步使用正向扩散。

反向扩散
此程序本质上是一个参数化的过程,其会迭代撤消正向扩散。例如,可以仅使用两张影像来训练模型,例如猫和狗的图片。如果采用此程序,反向程序就会偏向猫或狗,而非两者之间的任何动物。实际上,模型训练涉及数十亿张影像,并使用提示来建立独特的影像。

杂讯预测器 (U-Net)
杂讯预测器是对影像去杂讯的关键所在。 Stable Diffusion 使用 U-Net 模型来执行去杂讯。 U-Net 模型是最初为生物医学中的影像分割而开发的卷积神经网路。特别是,Stable Diffusion 使用为电脑视觉开发的残差神经网路 (ResNet) 模型。

杂讯预测器会估计潜在空间中的杂讯量,并从影像中减去此杂讯量。它会重复此程序指定的次数,并根据使用者指定的步骤降低杂讯。杂讯预测器对于协助决定最终影像的调整提示很敏感。

文字调整
最常见的调整形式是文字提示。 CLIP 分词器分析文字提示中的每个字词,并将这些资料嵌入 768 个值的向量中。最多可以在提示中使用 75 个字符。 Stable Diffusion 使用文字转换器将这些提示从文字编码器传送到 U-Net 杂讯预测器。透过将种子设定为乱数产生器,可以在潜在空间中产生不同的影像。

Stable Diffusion 可执行哪些动作?
稳 Stable Diffusion 代表文字转影像模型产生方面的显著改进。与许多其他文字转影像模型相比,Stable Diffusion 可以广泛使用,并且需要更低的处理能力。它的功能包括文字转影像、影像转影像、图形插图、影像编辑和影片创作。

文字转影像产生
这是人们使用 Stable Diffusion 的最常见方式。 Stable Diffusion 会使用文字提示产生影像。可以透过调整随机产生器的种子数或变更不同效果的去杂讯排程来建立不同的影像。

影像转影像产生
使用输入影像和文字提示,您可以根据输入影像建立新影像。典型的案例是使用草图和合适的提示。

建立图形、插图和标志
使用一系列提示,可以建立各种风格的插图、图形和标志。当然,尽管可以使用草图来指导标志的创作,但不可能预先确定输出。

影像编辑与修版
可以使用 Stable Diffusion 来编辑和修版照片。使用 AI Editor 载入影像并使用橡皮擦画笔遮住要编辑的区域。然后,透过产生提示来定义想要实现的目标,编辑或重新绘制图片。例如,可以修复旧照片、移除图片中的物件、变更主体特征以及向图片新增新元素。

影片创作
使用 GitHub 中的 Deforum 等功能,可以借助 Stable Diffusion 创作短影片片段和动画。另一种应用是为电影新增不同的风格。 还可以透过营造运动印象 (例如流水) 来为照片制作动画。