首页 - 技术栈

门户网站模板珠海中小企业网站建设

作者: 五速梦信息网
时间: 2026年06月19日 10:28

当前位置：首页 > news >正文

门户网站模板,珠海中小企业网站建设,百度网站怎么做的赚钱吗,wordpress友情链接调用OpenAI SORA团队负责人通往智能的方式报告笔记这个报告其实是2024年智源大会的主旨报告#xff0c;OpenAI SORA和DALL-E团队负责人Aditya Ramesh给出的一段有关多模态大模型的报告。我去听了现场#xff0c;感觉倍受启发#xff0c;但是感觉很多并不能当场理解#xff…OpenAI SORA团队负责人通往智能的方式报告笔记这个报告其实是2024年智源大会的主旨报告OpenAI SORA和DALL-E团队负责人Aditya Ramesh给出的一段有关多模态大模型的报告。我去听了现场感觉倍受启发但是感觉很多并不能当场理解于是下来又看了几遍实在是非常的inspiring于是打算写下一段笔记来记录这个报告。但是与其说主题是多模态大模型我更认为这个负责人在讨论的是通向智能的方式所以自作主张换了个名字。一. DaLL-E 1是通向智能的方式吗 DALL-E是一个基于自回归的图像生成模型给定一段文本生成一个图像。可以看到生成的图像还是比较符合文本的描述的。这里强调了它看到了Scaling with DALL-E也就是DALL-E的缩放定律就像大语言模型的缩放定律一样。即如果在一个小规模的模型上进行训练的话可以看到光和反射、颜色和现状被很好的绘制出来了。在一个相对大一点的规模上呢就可以学习到艺术风格更换一些属性等。再大一点呢就可以看到能够渲染出文字了组合的一个泛化甚至是image的上下文学习了甚至可以实现image上的一些iq测试。如下图即便如此Aditya在想一个关键的问题这是学习智能的好的方式吗作者提到DALL-E 1的方法是学习一个模型来压缩世界上所有的像素是一个非常困难的事情需要建模很多信息是VQGAN的那个部分吗。Aditya还列出了一些其他的文章这些文章都暗示了DALL-E不是实现智能的方式。比如说虽然iGPT能够在scale的时候取得比较好的结果但是呢效率并不如CLIP。Aditya提到CLIP在从图像中提取智能的效率是CLIP的好几个数量级之倍。所以作者给了一个很重要的结论DALL-E是一个有趣的项目但是不是通向AGI的关键路径二、图像表示学习的演化 Aditya先简单介绍了一下CLIP这里就略过了。在介绍完CLIP后作者提到了CLIP是一个巨大的范式转变因为不需要手工标注的样本了。手工标准样本又花时间又痛苦然而CLIP可以利用互联网上的自由文本去学习一个在各个领域都很好的分类器。接着Aditya讨论了图像表征学习的发展。最开始的时候deep learning在image net上进行有监督的学习预测图像的分类。接着呢CLIP出现之后可以通过互联网的文本-图像进行学习了不需要提取手工特征了。最后还提到了一个文章大致是通过训练一个图像编码器用这个编码器来重建这个图像的caption有点像之前的反过来。如下图。所以Aditya再次发问基于文本的模拟是通向智能的方式吗作者又提到了iGPT。iGPT似乎是一个生成式的图像模型纯图像通过大规模生成式学习能够学习到数据的结构然后得到较好的表示尽管不是很足够那么文生图模型也能够学习到好的表示吗Aditya得到的答案是是。提到了your diffusion model is secretly a zero-shot classfier这个文章如果没看过可以看我往期的博客。这个文章基本的思想就是即使你在建模给定文本的图像分布这个模型也可以转换为分类模型。所以作者给出了一个结论我们的范式正在从给定图像来预测文本比如说文本是分类的标签转换为给定文本来预测图像三、下一步与未来接着作者提到了DALL-E3这里有一个take away就是在最具描述性ultradescriptive的文本上训练会更具有效率。这告诉人们可以通过将语言当作脚手架得到一个更好的无监督模型脚手架这个比喻在智源大会里也经常被提到。接着作者举了一个比较有意思的例子来解释他的思想如下图。中间这一列代表的是加了不同程度噪声的图像。加噪声的意义是为了代表剩下的部分即没加噪声的部分是希望去建模or生成的这里应该没说错就是没加噪声的部分是要生成的然后噪声的部分可能就是只要生成的合理即可的这样。如果说图像里没有噪声的话必须要用每一个具体的像素点来进行描述图像里就没有不确定性了。如果给模型添加一些噪声那么就会有一些模型需要学习才能得到的比如说狗的纹理之类的就会存在一些不确定性但是剩下的不确定性仅需要通过一个真正描述性的标题来得到。如果增加了很多的噪声那么就会有很多的不确定性为了解释仍然存在信号的部分只需要一个简单的说明了。如果再加的话模型就需要学习一切。此时并没有标题了因为anything is possible。接着Aditya介绍了左边的这个环的意义。假设现在要学习一个文生图的模型 p ( i m a g e ∣ c a p t i o n ) p(image|caption) p(image∣caption)如果给它输入的是每个点的pixel value那么它可能什么都学不到。如果计算量更多的话那么就可以学到一个把比较有描述性的文本转换成图像的模型但是它可能学不到特别多因为给它说得比较详细。如果计算量还能多那么就能够从更多的描述性文本中进行学习。如果有特别大的规模有可能就完全不需要conditional了。接着Aditya进行了一段总结然后补充了一下第二个图如下图。说觉得可以从模拟 p ( t e x t ∣ i m a g e ) p(text|image) p(text∣image)转移到 p ( i m a g e ∣ t e x t ) p(image|text) p(image∣text)。还提到说有一些迹象证明无条件建模任务的性能也会随着时间推移而提高。对着这个图Aditya又在这里进行了一番回顾我们最开始其实不太用文本只在预测一些信息的时候使用。接着就在训练模型的过程中越来越多的使用文本比如CLIP和Image captioners。最后发现了其实可以通过使用非常描述性的标题来训练良好的生成式模型最后可能随着时间的推移规模的扩大语言可能真的只是脚手架可以扔掉了因为视觉世界可能是比文本更通用的界面 Aditya在这里提到说之前的讨论代表了一个思维的转变。之前的思维是固定数据集找到更好的优化目标和模型结构来改善认知。而最近而言呢固定了优化目标和模型结构去找到更好的数据集。这个意思是比如说如何使用更加描述性的文本如何对文本排序等。四、在将语言纳入视觉中我们得到了什么 Aditya在这里又进行了一遍回顾最开始我们想从图里生成文本接着又想从文本里生成图。在随着计算的增加语言的作用似乎在被纳入视觉。在这里回顾了DALLE-2因为DALLE-2可以做一些有趣的风格迁移在拍了张图片之后使用CLIP得到图像表征之后就可以在视觉空间中进行风格化而且保持本身的细节。接着回顾了DALLE-1DALLE-1学习到了图像的上下文学习仅需给模型上半部分的图像就可以生成对上半部分进行一些改变的下半部分如第一个图的im2im尽管并没有被训练为如此。所以Aditya当时就认为这是一个通向各种图像控制的一个路径。五、总结作者最后总结压缩一切可能是正确的路径而语言只是一个必要的脚手架。当然最后可能也不够需要一些额外的trick来让我们抵达。语言虽然似乎可以帮我们抵达但是最终也会归为视觉智能。最后会给我们一个通用的界面来模拟任何我们想要的东西。