首页 - 技术栈

写网站开发代码宜良网站建设

作者: 五速梦信息网
时间: 2026年04月20日 07:07

当前位置：首页 > news >正文

写网站开发代码,宜良网站建设,谷歌关键词搜索量数据查询,电子商务网站开发项目设计报告1、引言跨模态大模型是指能够在不同感官模态(如视觉、语言、音频等)之间进行信息转换的大规模语言模型。当前图文跨模态大模型主要有#xff1a; 文生图大模型#xff1a;如 Stable Diffusion系列、DALL-E系列、Imagen等图文匹配大模型#xff1a;如CLIP、Chinese CLIP、…1、引言跨模态大模型是指能够在不同感官模态(如视觉、语言、音频等)之间进行信息转换的大规模语言模型。当前图文跨模态大模型主要有文生图大模型如 Stable Diffusion系列、DALL-E系列、Imagen等图文匹配大模型如CLIP、Chinese CLIP、BridgeTower等
今天主要讨论Stable Diffusion首先让我们看一下Stable Diffusion能做什么呢最简单的形式给它一个文本提示(Text Prompt) 它将返回与文本匹配的图像。除此之外Stable Diffusion还可以用于图像超分、图像修复、样本生成等领域。 Stable Diffusion的发展历程主要经过如下三个阶段 DDPM无条件图片生成不支持文本提示 LDM有条件图片生成支持文本等其他形式提示 Stable Diffusion基于LDM发展而成的强大的文生图大模型
接下来本文将按照Stable Diffusion的发展历程展开讲解 2、DDPM 2.1 概要 Denoising Diffusion Probabilistic Models去噪概率扩散模型DDPM在图像生成领域具有里程碑的意义当前一些主流的文本转图像模型如DALL·E 2、stable-diffusion 和 Imagen 均采用了扩散模型Diffusion Model作为图像生成模型这也引发了对扩散模型的研究热潮。相比传统的GAN来说扩散模型训练更稳定而且能够生成更多样的样本。 2.2 基本原理任务从随机“向量”到真实图像的生成。和GAN不同的是DDPM的输入和输出形状是一样的。动机DDPM的核心动机如果我们一点一点地往图像中加噪声直到把它变成高斯噪声然后我们把所有加噪的过程逆过来就可以把高斯分布映射成真实图像的分布。做法基于以上动机作者就设置了如图的加噪声过程diffusion和去噪过程denoising作者假设加噪过程是个马尔可夫过程即当前状态只跟上一个状态相关。扩散模型包括两个过程前向过程扩散加噪对原图x0逐渐增加高斯噪音直至数据变成随机噪音的过程。反向过程去噪是一个去噪的过程如果知道反向过程的每一步噪声的真实分布那么从一个随机噪音N(0, 1)开始逐渐去噪就能生成一个真实的样本。
简单来讲图像生成的过程就是一个去噪的过程因此扩散模型的关键在于学习图像在前向过程中加入的噪声。前向过程中从原图x0到x1x1到x2最后到的过程可以用如下公式表示式中xt-1表示第t-1步的噪声图xt表示第t步的噪声图。理论上已知x0和 t可以通过一步步推导获得xt但是实际上这种方式比较耗费计算资源。因此作者通过一种方式重参数化技巧能实现x0到xt的直接计算这样就能节省大量资源如下如所示如果能从x0直接到x4就不需要从x1到x2到x3再到x4。 2.3 重参数化扩散过程的一个重要特性是可以直接基于原始数据x0来对任意t步的xt进行采样。在扩散阶段根据重参数化可以推导出x0到xt的直接公式扩散过程的这个特性很重要。首先我们可以看到xt其实可以看成是原始数据x0和随机噪音ϵ的线性组合其中和为组合系数它们的平方和等于1我们也可以称两者分别为signal_rate和noise_rate。更近一步地我们可以基于而不是来定义noise schedule比如我们直接将设定为一个接近0的值那么就可以保证最终得到的近似为一个随机噪音。其次后面的建模和分析过程将使用这个特性。 2.4 网络结构扩散模型的核心就在于训练噪音预测模型由于噪音和原始数据是同维度的所以我们可以选择采用AutoEncoder架构来作为噪音预测模型。DDPM所采用的模型是一个基于residual block和attention block的U-Net模型。如下所示经U-Net改进过后的整体网络结构如下 U-Net属于encoder-decoder架构其中encoder分成不同的stages每个stage都包含下采样模块来降低特征的空间大小H和W然后decoder和encoder相反是将encoder压缩的特征逐渐恢复。 U-Net在decoder模块中还引入了skip connection即concat了encoder中间得到的同维度特征这有利于网络优化。 DDPM所采用的U-Net每个stage包含2个residual block而且部分stage还加入了self-attention模块增加网络的全局建模能力。扩散模型其实需要的是T个噪音预测模型实际处理时我们可以增加一个time embedding类似transformer中的position embedding来将timestep编码到网络中从而只需要训练一个共享的U-Net模型。具体地DDPM在各个residual block都引入了time embedding。
2.5 模型训练虽然扩散模型背后的推导比较复杂但是我们最终得到的优化目标非常简单就是让网络预测的噪音和真实的噪音一致。DDPM的训练过程也非常简单如下图所示训练过程具体步骤为随机选择一个训练样本从1~T随机抽样一个t 随机产生高斯噪音并计算当前所产生的带噪音数据xt 输入网络预测噪音计算产生的噪音和预测的噪音的L2损失计算梯度并更新网络一旦训练完成其采样过程也非常简单我们从一个随机高斯噪音开始并用训练好的的网络预测每一步的从T到1噪音并根据该噪声去噪就能逐步获得精细的生成图像。 2.6 实现效果衡量模型生成图像质量的指标 Inception ScoreIS图像质量的期望值Exp和图像质量分布的分歧度KL越大越好。 Fréchet Inception DistanceFID生成图像和真实图像在特征空间中的分布距离衡量它们之间的差异越小越好。
1、在CIFAR10数据集上DDPM获得了9.46的Inception分数和3.17的最先进的FID分数。 2、在分辨率为256x256 LSUN数据集上DDPM能生成与ProgressiveGAN同样高质量的图像。 2.7 不足点虽然DDPM能够生成高质量的图片但是还存在一些不足计算量大由于DDPM整个扩散过程是在像素空间上进行的所以计算量很高不支持条件控制DDPM是一个单纯的图像生成模型不支持文本等提示信息从而限制了其的发展。
3、LDM 3.1 概要 Latent Diffusion Models潜在扩散模型LDM通过在一个潜在表示空间中迭代“去噪”数据来生成图像然后将表示结果解码为完整的图像让文图生成能够在消费级GPU上在10秒级别时间生成图片大大降低了落地门槛也带来了文图生成领域的大火。除此之外LDM在无条件图片生成、图片修复、图片超分任务上也进行了实验都取得了不错的效果。 3.2 主要创新点 LDM提出了cross-attention的方法来实现多模态训练使得条件图片生成任务也可以实现。论文中提到的条件图片生成任务包括类别条件图片生成class-condition, 文图生成text-to-image, 布局条件图片生成layout-to-image。这也为日后Stable Diffusion的开发奠定了基础。 DDPM在像素空间上训练模型需要反复迭代计算因此训练和推理代价都很高。DLM提出一种在潜在表示空间上进行扩散过程的方法能够显著减少计算复杂度同时也能达到十分不错的图片生成效果。相比于其它空间压缩方法论文提出的方法可以生成更细致的图像并且在高分辨率图片生成任务如风景图生成百万像素图像上表现得也很好。
3.3 网络结构 Latent Diffusion Models整体框架如图首先需要训练好一个自编码模型AutoEncoder包括一个编码器 E 和一个解码器D。这样一来我们就可以利用编码器对图片进行压缩然后在潜在表示空间上做diffusion操作最后我们再用解码器恢复到原始像素空间即可论文将这个方法称之为感知压缩Perceptual Compression。 3.4 图片感知压缩定义利用编码器对图片进行压缩然后在潜在表示空间上做diffusion操作最后再用解码器恢复到原始像素空间。原理通过VAE这类自编码模型对原图片进行处理忽略掉图片中的高频信息只保留重要、基础的一些特征这种方法能够大幅降低训练和采样阶段的计算复杂度。感知压缩主要利用一个预训练的自编码模型该模型能够学习到一个在感知上等同于图像空间的潜在表示空间。在感知压缩的过程中设置下采样因子的大小为 fH/hW/w通过对原图进行f倍的下采样让扩散模型在潜在空间中进行从而减小计算量。论文对比了 f 在分别 {1, 2, 4, 8, 16, 32}下的效果发现 f 在 {4−16}之间可以比较好的平衡压缩效率与视觉感知效果。作者重点推荐了LDM-4 和 LDM-8。 3.5 潜在扩散模型扩散模型可以解释为一个时序去噪自编码器ϵ_θ (x_t,t)其目标是根据输入x_t和t取预测噪声。相应的目标函数可以写成如下形式其中 t 从 {1,…,T} 中均匀采样获得。而在潜在扩散模型中引入了预训练的感知压缩模型它包括一个编码器ε和一个解码器D。这样在训练时就可以利用编码器得到z_t从而让模型在潜在表示空间中学习相应的目标函数可以写成如下形式在潜在表示空间上做diffusion操作其主要过程和标准的扩散模型没有太大的区别所用到的扩散模型的具体实现为 time-conditional UNet。但是有一个重要的地方是论文为diffusion操作引入了Conditioning Mechanisms通过cross-attention的方式来实现多模态训练使得条件图片生成任务也可以实现。 3.6 交叉注意力本文在扩散过程中引入了条件机制Conditioning Mechanisms通过cross-attention的方式来实现多模态训练使得条件图片生成任务得以实现。具体做法是通过训练一个条件时序去噪自编码器ϵ_θ (z_t,t,y)来通过 y来控制图片合成的过程。为了能够从多个不同的模态预处理 y 论文引入了一个领域专用编码器τ_θ它用来将 y 映射为一个中间表示τ_θ (y) 这样我们就可以很方便的引入各种形态的条件文本、类别等等。最终模型就可以通过一个cross-attention层映射将控制信息融入到UNet的中间层cross-attention层的实现如下 3.7 实现效果无条件图像生成论文从FID和Precision-and-Recall两方面对比LDM的样本生成能力实验数据集为CelebA-HQ、FFHQ和LSUN-Churches/Bedrooms其效果超过了GANs和LSGM并且超过同为扩散模型的DDPM。有条件图像生成采用FID和IS作为衡量图像质量指标LDM-KL-8-G*在FID和IS两项指标上均获得不错的结果且在FID相同的情况下网络参数量显著下降。 4、Stable Diffusion 4.1 概要 Stable diffusion是一种潜在的文本到图像的扩散模型。基于之前的大量工作如DDPM、LDM的提出并且在Stability AI的算力支持和LAION的海量数据支持下Stable diffusion才得以成功。 Stable diffusion在来自LAION- 5B数据库子集的512x512图像上训练潜在扩散模型。与谷歌的Imagen类似这个模型使用一个冻结的CLIP vitl /14文本编码器来根据文本提示调整模型。 Stable diffusion拥有860M的UNet和123M的文本编码器该模型相对轻量级可以运行在具有至少10GB VRAM的GPU上。 4.2 主要改进点 Stable diffusion是在LDM的基础上建立的同时在LDM的基础上进行了一些改进数据集在更大的数据集LAION- 5B上进行训练条件机制使用更强大的CLIP模型代替原始的交叉注意力调节机制
除此之外随着各种图形界面的出现、微调方法的发布、控制模型的公开SD进入全新架构SDXL时代功能更加强大。 4.3 模型训练 SD的训练是采用了32台8卡的A100机器32 x 8 x A100_40GB GPUs单卡的训练batch size为2并采用gradient accumulation其中gradient accumulation steps2那么训练的总batch size就是32x8x2x22048。训练优化器采用AdamW训练采用warmup在初始10,000步后学习速率升到0.0001后面保持不变。至于训练时间约150,000小时A100卡时如果按照256卡A100来算的话那么大约需要训练25天左右。 SD提供了不同版本的模型权重可供选择 SD v1.1在laion2B-en数据集上以256x256大小训练237,000步上面我们已经说了laion2B-en数据集中256以上的样本量共1324M然后在laion5B的高分辨率数据集以512x512尺寸训练194,000步这里的高分辨率数据集是图像尺寸在1024x1024以上共170M样本。 SD v1.2以SD v1.1为初始权重在improved_aesthetics_5plus数据集上以512x512尺寸训练515,000步数这个improved_aesthetics_5plus数据集上laion2B-en数据集中美学评分在5分以上的子集共约600M样本注意这里过滤了含有水印的图片pwatermark0.5)以及图片尺寸在512x512以下的样本。 SD v1.3以SD v1.2为初始权重在improved_aesthetics_5plus数据集上继续以512x512尺寸训练195,000步数不过这里采用了CFG以10%的概率随机drop掉text。 SD v1.4以SD v1.2为初始权重在improved_aesthetics_5plus数据集上采用CFG以512x512尺寸训练225,000步数。 SD v1.5以SD v1.2为初始权重在improved_aesthetics_5plus数据集上采用CFG以512x512尺寸训练595,000步数。
其实可以看到SD v1.3、SD v1.4和SD v1.5其实是以SD v1.2为起点在improved_aesthetics_5plus数据集上采用CFG训练过程中的不同checkpoints目前最常用的版本是SD v1.4和SD v1.5。 4.4 条件控制 SD采用CLIP text encoder来对输入text提取text embeddings具体的是采用目前OpenAI所开源的最大CLIP模型clip-vit-large-patch14这个CLIP的text encoder是一个transformer模型只有encoder模块层数为12特征维度为768模型参数大小是123M。对于输入text送入CLIP text encoder后得到最后的hidden states即最后一个transformer block得到的特征其特征维度大小为77x76877是token的数量这个细粒度的text embeddings将以cross attention的方式送入UNet中。值得注意的是这里的tokenizer最大长度为77CLIP训练时所采用的设置当输入text的tokens数量超过77后将进行截断如果不足则进行paddings这样将保证无论输入任何长度的文本甚至是空文本都得到77x768大小的特征。在训练SD的过程中CLIP text encoder模型是冻结的。在早期的工作中比如OpenAI的GLIDE和latent diffusion中的LDM均采用一个随机初始化的tranformer模型来提取text的特征但是最新的工作都是采用预训练好的text model。比如谷歌的Imagen采用纯文本模型T5 encoder来提出文本特征而SD则采用CLIP text encoder预训练好的模型往往已经在大规模数据集上进行了训练它们要比直接采用一个从零训练好的模型要好。下面是SD中使用的条件控制模型CLIP的结构示意图 4.5 与其他模型对比 DALL-E2 出自OpenAI其基本原理和SD一样都是源于最初的扩散概率模型DDPM与之不同发是SD继承了LDM的思想在潜在空间中进行扩散学习而DALL-E2是在像素空间中进行扩散学习所以其计算复杂度较高。 Imagen由谷歌发布采用预训练好的文本编码器T5通过扩散模型实现文本到低分辨率图像的生成最后将低分辨率图像进行两次超分得到高分辨率图像。 5、Conference 【扩散模型之LDM】Latent Diffusion Models 论文解读_ldm的损失函数-CSDN博客【扩撒模型之DDPM】Denoising Diffusion Probabilistic Models论文解读最强文生图跨模态大模型Stable Diffusion_文生图数据集形式-CSDN博客 Denoising Diffusion Probabilistic Models High-Resolution Image Synthesis with Latent Diffusion Models https://huggingface.co/CompVis/stable-diffusion GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models GitHub - hojonathanho/diffusion: Denoising Diffusion Probabilistic Models DDPM - 搜索结果 - 知乎 Latent Diffusion Model - 搜索结果 - 知乎