一个空间怎么放2个网站网站后台添加文字

当前位置: 首页 > news >正文

一个空间怎么放2个网站,网站后台添加文字,dw网页制作教程装修手册,杨颖做的车网站欢迎关注[【youcans的AGI学习笔记】](https://blog.csdn.net/youcans/category_12244543.html#xff09;原创作品 【微软#xff1a;多模态基础模型】#xff08;1#xff09;从专家到通用助手 【微软#xff1a;多模态基础模型】#xff08;2#xff09;视觉理解 【微… 欢迎关注[【youcans的AGI学习笔记】](https://blog.csdn.net/youcans/category_12244543.html原创作品 【微软多模态基础模型】1从专家到通用助手 【微软多模态基础模型】2视觉理解 【微软多模态基础模型】3视觉生成 【微软多模态基础模型】4统一视觉模型 【微软多模态基础模型】5多模态大模型 【微软多模态基础模型】6多模态代理 【微软多模态基础模型】5多模态大模型通过LLM训练 Multimodal Foundation Models: From Specialists to General-Purpose Assistants5. 多模态大模型通过LLM训练5.1 背景5.1.1 图像到文本的生成模型5.1.1 案例研究5.1.3 LMMs 研究与多模态GPT-4 的差距 5.2 先决条件大型语言模型中的指令调整5.2.1 指令调优5.2.2 自我指导微调和开源LLM 5.3 指令调优多模态大模型5.4 高级讨论5.5 如何接近OpenAI 多模态GPT4 Multimodal Foundation Models: From Specialists to General-Purpose Assistants 2023 年 6 月微软在 CVPR2023 发表论文「 多模态基础模型从专家到通用助手 」Multimodal Foundation Models: From Specialists to General-Purpose Assistants 。本文全面综述了多模态基础模型的分类和演化这些模型展示了视觉和视觉语言能力并重点关注了从专家向通用助手的过渡。 论文下载地址 https://arxiv.org/abs/2309.10020 https://ar5iv.labs.arxiv.org/html/2309.10020 5. 多模态大模型通过LLM训练 Chapter 4Large Multimodal Models: Training with LLM 在本章中我们全面探讨了大型多模态模型Alayrac等2022OpenAI2023a。 我们从第5.1节开始深入研究此类模型的背景重点介绍图像到文本生成模型的基础知识及其在各种案例研究中的代表性模型实例。我们还讨论了最先进的OpenAI多模GPT-4OpenAI2023a并确定了该领域现有的研究差距。为了更好地理解大型语言模型中的指令调优过程第5.2节考察了它在自学和开源LLM中的重要性和作用。接下来我们将在第5.3节中探讨指令调优的大型多模态模型阐明它们的基础、意义和应用。第5.4节涉及多模态模型领域的高级主题以加深对该主题的理解。最后我们在第5.5节中通过评估实现OpenAI多模态GPT-4的接近程度来评估该领域的当前进展这是人工智能研究的一个重要里程碑。 5.1 背景 5.1.1 图像到文本的生成模型 当前的多模态大模型Large Multimodal ModelsLMMs主要是一种图像到文本的生成模型它以图像为输入输出文本序列。图5.1a左侧展示了一个示例。所有模型的变体都有一个非常相似的模型架构和训练目标。 模型架构 如图5.1a 所示该模型通常包括包括一个图像编码器以提取视觉特征及一个语言模型以解码文本序列。视觉和语言模态可以选择性地通过可训练的连接模块相互连接。图像编码器和语言模型可以从头开始训练也可以从预训练模型初始化。训练目标 如图5.1b所示通常对输出文本标记采用自回归损失。在Transformer中的注意力图中Vaswani等2017图像标记可以相互关注当前文本标记关注所有图像标记和以前的文本标记。 图5.1图像到文本生成任务、架构和培训目标的说明。 5.1.1 案例研究 我们使用一些著名的LMMs作为示例以说明如何在不同模型中实例化上述的网络架构同时保持相同的自回归训练目标。 案例研究 1使用图像-文本成对实例训练的LMM。 大多数LMMs都是在大量的图像-文本对上进行训练的其中每个训练样本都是一对。GITWang等2022a和BLIP2Li等2023h是两个在许多数据集上取得了最先进SoTA性能的大型模型。比较结果如图5.2a所示。GIT使用对比性预训练的Florence模型Yuan等2021初始化图像编码器并从头开始训练语言模型。而 BLIP2 冻结了预训练图像编码器和预训练语言模型的权重同时训练了一个轻量级的Q-former模块来连接图像编码器和语言模型。 案例研究 2使用交错的图像文本序列实例训练LMM 我们以FlamingoAlayrac等2022为例如图5.2b所示。它通过在冻结的预训练图像编码器和语言模型之间添加新的架构组件来连接它们。具体来说感知采样器模块有助于降低计算复杂性而门控变换器模块块有助于在初始阶段稳定训练。Flamingo是 在仅来自网络的大规模多模态数据的混合数据上训练的而不使用任何用于机器学习目的的注释数据。训练完成后Flamingo可以通过简单的少量样本学习直接适应视觉任务而无需进行额外的特定于任务的调整。 图5.2图像到文本生成模型示例。 多模态上下文学习。 除了在数十个学术基准测试中具有最优秀的 SoTA性能之外Flamingo最吸引人的方面可能是新出现的特性多模态上下文学习。具体而言给定一对图像-文本对作为示例Flamingo可以零样本任务转移到未见过的问题例如解决视觉数学问题。这意味着Flamingo可以仅凭少量特定于任务的示例处理许多困难的问题无需进行额外的训练。例如在图5.3中向Flamingo提出了两个新任务。最上面一行提供了两个图像文本对作为提示中的上下文其中文本描述了图像中动物的名称后面是动物的地理信息。Flamingo能够理解示例中呈现的模式并为新图像输出相应的信息。在底部的行中文本首先显示了图像的OCR结果然后是数学问题的答案。Flamingo遵循多模态上下文中的任务说明并为第三个图像中的新数学问题输出正确答案。这种有趣的上下文学习能力使 Flamingo 成为多模态领域的GPT-3时刻Brown等2020。 图5.3网络规模交错图像文本数据预训练的新兴特性上下文学习中的多模态。 5.1.3 LMMs 研究与多模态GPT-4 的差距 在2023年3月OpenAI发布了GPT-4OpenAI2023a在视觉理解和推理方面具有令人印象深刻的能力。尽管模型的详细信息没有被公开但毫无疑问GPT-4可以实现许多新的应用场景这一点在技术报告中的示例中得到了突出体现。例如图5.4 中展示了两个流行的视觉示例。第一个示例识别了不寻常的视觉区域并表现出强大的复杂推理性能。第二个示例识别了图像中的文本并捕获了跨图像-文本的相关性。有一段时间研究界不知道这种新能力是如何实现的可能是因为它们与现有的学术任务/数据集并没有联系但所有人都确定这些都是令人兴奋的成果。这自然引发了一个问题我们如何构建类似GPT-4的多模态模型 图5.4:OpenAI多模态GPT-4。 为了回答这个问题让我们开始回顾OpenAI的大模型在图5.5中突出显示每个模型最吸引人的属性。有几个关键的观察结果 GPT-2Radford等2019是BERT时代Devlin等2019预训练-微调范式的自回归对应物。与GPT-2相比GPT-3Brown等2020是一个在网络规模文本语料库上训练的 175B 的模型展现出两个新出现的属性上下文学习Brown等, 2020和思维链CoT推理Wei 等, 2022a。这意味着在没有额外训练的情况下该模型可以通过一些特定任务的示例来解决各种新问题并通过逐步适当引导它来完成。这进一步导致了从特定任务微调的建模范式到引导冻结模型的范式后者在任务迁移中表现出更高的泛化能力和更低的适应成本ChatGPT和InstructGPT (Ouyang 等, 2022) 通过在高质量的指令遵循数据上微调基本语言模型GPT-3/GPT-3.5并通过人类反馈的强化学习奖励模型来改进它们展示了指令遵循和与人类意图对齐对LLMs的重要性。GPT-4不仅提高了以前模型的语言能力还允许视觉信号作为额外的输入进行视觉理解和推理。我们看到新一代模型保留/改进了以前模型的现有属性并启用了新属性。 换句话说从GPT-3到GPT-4我们看到了两个新属性指令遵循和多模态输入。这揭示了现有LMMs如Flamingo和多模态GPT-4之间的差距如何在多模态空间中进行指令遵循和对齐研究这也是本章的重点。 5.2 先决条件大型语言模型中的指令调整 请注意指令遵循是一个起源于自然语言处理领域的概念。为了理解它背后的直觉和全面了解它的历史我们首先回顾一下大型语言模型中的指令调整。 图5.5语言建模回顾OpenAI LLM发展历史。强调了每一代模型的独特属性从中揭示了LMM的研究差距。 图5.6分别以传统和教学语言数据表示的任务指令示例。 传统的语言数据。 在自然语言处理中序列到序列seq2seq表示被广泛应用于许多语言任务每个数据实例由两部分组成一个序列作为输入另一个序列作为输出。我们在图5.6a 中提供了两个示例。即使没有任何任务说明我们也知道它们分别是翻译和摘要任务。 这种seq2seq表示法也是自然语言处理研究中的传统数据格式其中任务说明指令是隐式的。基于每个数据领域训练单独的模型。或有时一个模型在多个数据域上使用多任务目标进行训练而不指定任务指令。在这两种情况下模型很难以零样本方式推广到新任务因为它们没有被训练来理解任务说明指令因此在测试时无法区分和推广要执行哪个任务。 指令语言数据。 最近研究人员开始在模型训练中明确添加任务说明指令如图5.6b所示。有趣的是大多数自然语言处理任务的任务说明也可以用自然语言来表达。这引发了一种新的数据格式指令-输入-输出的三元组。基于这种新格式可以训练单个模型执行多个任务每个任务都有特定的指令。由于模型在训练过程中观察到了许多任务说明指令和每个任务的许多实例因此它们更容易在推理阶段通过任务组合自然地将其推广到新任务。 例如如图5.6c 所示在评估阶段提供了一个需要摘要和翻译的新任务。尽管模型在训练过程中从未见过这个新任务但它观察到了单个任务的基础并学会了在新任务上执行。请注意我们人类在日常生活中总是在创造新的任务而这些新任务很可能从未被模型观察到。因此如果一个模型能够在未经训练的情况下解决成千上万个新任务这将是非常吸引人的。这就是为什么ChatGPT 如此迅速地流行起来的部分原因。 5.2.1 指令调优 我们如何收集多样化的高质量的指令遵循数据一般有两种方案。一种是通过人与人之间的交互其中一组人类任务提供者提供注释语句和要求然后另一组人类完成注释任务。这种方案通常费时且昂贵。另一种方法是通过人机互动类似地人类提供注释语句和要求但现在是机器/模型完成注释任务。 为了使LLM能够遵循自然语言指令并完成现实世界的任务研究人员一直在探索方法来对LLM进行指令调整。这是通过使用人工注释的提示和反馈对模型进行微调Ouyang等2022来实现或者使用公共基准和数据集进行监督微调并辅以手动或自动生成的指令Wang等2022f。在这些方法中自指导微调Self-instruct tuning是一种简单而有效的方法通过学习由SoTA LLM生成的遵循指令数据以将LLM与人类意图对齐。指令调整研究为提高LLM的零样本和少搜索泛化能力提供了有效的手段。自我指导利用了LLM的上下文学习能力。流程如图5.7所示。人类创建一些示例即种子示例作为生成指令的起点并要求GPT-3或GPT-4等LLM根据提示中的要求创建更多的指令和响应。随后可以进一步选择机器生成的指令遵循数据以便使用上下文学习的提示构建下一次数据生成的迭代。迭代该过程直到收集到一定数量的样本。由于与人工注释相比API 调用的相对较低成本和更快的响应速度自我构造在研究界变得越来越流行。 图5.7自我指导的流程示意图 5.2.2 自我指导微调和开源LLM 开源社区见证了开源LLM大型语言模型的激增。ChatGPTOpenAI2022和GPT-4OpenAI2023a的成功为通过指令调整改进开源 LLM 提供了巨大机会。图5.8比较了几个经过指令调整的开源LLM。LLaMATouvron 等2023是一系列开源 LLM与专有LLM如GPT-3的性能相当。为了教会LLaMA 遵循指令自我指导调整Self-instruct因其卓越的性能和低成本已迅速被采用。例如在这一研究领域的一些早期尝试中斯坦福的 AlpacaTaori等2023使用GPT-3.5 生成的 5.2万条遵循指令的样本而 VicunaVicuna2023用户和GPTShareGPT2023之间使用约50万条高质量遵循指令样本15万次对话。为了推进LLM的指令调整的最新技术Peng等2023a使用GPT-4 作为教师生成 Alpaca 指令的响应。许多后续工作Zhang等2023i改进了指令遵循的数据使开放LLM在聊天中具有更好的对齐质量。为了进行全面的回顾我们建议读者参考最近的一篇论文Wang等人2023k其中LLM Tulu是在几种高质量的指令数据的混合训练下对多个基准进行了全面比较。 图5.8LLaMA系列的模型示例。 LLM聊天机器人的快速评估 为了研究LLM聊天机器人的质量我们考虑了 Vicuna指令-801Vicuna2023一个包含80个问题的数据集基线模型Touvron等人2023发现这些问题具有挑战性。除了通用指令外指令还分为8类包括知识、数学、费米、反事实、角色扮演、通用、编码、写作和常识。为了定量比较性能我们使用 GPT-4 对两个给定的聊天机器人的响应进行评分从1到10然后计算相对得分。令人惊讶的是事实证明这个评估指标在不同的设置时相当一致。开源 LLaMA 家族似乎在性能上接近SoTA专有聊天机器人。 进一步讨论 关于LLM有几个重要的主题我们在本章中没有涉及但值得未来探索。 以数据为中心的人工智能。我们强调这些开源LLM的发展是以数据为核心的Mazumder等人2022而不是以模型为中心的因此我们希望读者在讨论这个话题时能够认同这一观点。随着训练目标和网络架构变得与 GPT类模型相似甚至相同关键的差异因素是数据。例如上述LLM的行为由指令调整数据决定。 虚假承诺关于开源 LLM 能否赶上专有LLM的说法存在争议这是一个虚假的承诺Gudibande等2023。为了使讨论保持一致我们认为LLM具有两种独特的能力一种是指令遵循能力即知道执行哪项任务另一种是大规模知识存储能力以高质量地完成任务。模仿的模型在前者方面表现出色通过模仿ChatGPT的风格但在响应的准确性方面表现不佳。在Gudibande等2023的研究中作者得出结论开源和专有LLM之间存在实质性的能力差距当前方法只能通过大量模拟数据或使用更有能力的基础LLM来弥补这一差距。他们还主张改进开源模型的最有效途径是应对开发更好的基础LLM的艰巨挑战。然而不幸的是训练这种基础LLM所需的资源只在少数工业实验室中可获得。对于大多数学术研究实验室来说探索将研究与负担得起的资源相结合的机会或者探索减少计算障碍的技术似乎更有希望。 基础LLM。开发更强大或商业上可用的LLM具有巨大的价值。除了LLaMA开源社区还开发了基础LLM的变体如LLaMA-2、OpenLLaMAGeng等2023、MPTTeam2023和 FalconPenedo等人2023或发布了训练方法Computer2023。 5.3 指令调优多模态大模型 在本节中我们将说明如何使用开源资源构建多模态 GPT-4的最小原型。具体而言我们以LLaVALiu等人2023c为例来进行在 MiniGPT-4Zhu等2023a中也提出了类似的想法。 近年来多模态领域的研究常常受到自然语言处理领域最新进展的启发。一种成功的方法是探索将自然语言处理领域最引人注目和成功的思想应用于视觉与语言领域例如自我指导。然而在多模态研究中自我指导面临的独特挑战在于目前没有强大的多模态数据公开可用。因此研究问题变成了我们如何使用纯文本的 GPT-4 等语言模型来创建多模态的指令遵循数据。 数据创建 与直接将图像输入到 OpenAI GPT-4不同我们使用如图5.9a 所示的符号序列表示。在 LLaVA 中考虑了标题和边界框原因如下1实验证明GPT-4可以很好地理解这两者而 ChatGPT 在理解边界框坐标方面的性能相比较差。2它们通常是互补的因此可以尽可能多地提供图像的信息。 如图 5.9b 所示考虑了三种类型的指令遵循数据 1多轮对话以便用户可以与模型聊天 2详细描述以便可以从模型生成长篇的响应 3复杂推理更多的是关于图像的含义而不是图像内容。 例如“这些人面临着什么挑战”这需要首先认识到图像是关于停车场的SUV地面上放置了相当多的行李然后推断出挑战是由于后备箱空间狭小如何能将行李装入SUV。总共收集了三种类型的158K个样本。总之无论用户希望模型在服务阶段执行什么任务重要的是创建相应的指令遵循数据进行训练。 图5.9多模式指令跟踪数据示例。 网络架构和训练 如图5.10所示LLaVA的网络架构是第5.1节图5.1介绍的通用图像到文本生成模型框架的一个示例。具体而言LLaVa通过简单的投影矩阵即线性投影层连接预训练的CLIP ViT-L/14视觉编码器Radford等2021和大型语言模型VicunaVicuna2023采用两阶段指令调优过程来训练模型。第一阶段特征对齐的预训练。基于CC3M的子集仅更新投影矩阵Changpinyo等2021。第二阶段端到端的微调。在针对日常用户应用的多模态指令遵循数据上同时更新投影矩阵和LLM。 图5.10网络架构左通用LMM右LLaVA。 性能 视觉对话向构建多模态 GPT-4级聊天机器人的努力。 LLaVA 在生成的多模态指示遵循数据上进行了微调其中包含各种面向日常用户应用的任务指示和的响应。经验表明仅微调线性投影层就足以用于聊天演示/场景尽管需要更长的训练时间。为了评估模型性能构建了一个名为 LLaVA-Bench 的评估数据集包括两个子集(1) LLaVA-BenchCOCO30 张未见过的 COCO 图像包含 90 个新的语言-图像指令(2) LLaVA-Bench野外包含 24 张图像和 60 个问题。每张图像可以与三种类型的指令相关联对话、详细描述和复杂推理。答案是通过手动重新编写 GPT-4 的输出来收集的。 我们测试了 LLaVA 并使用仅包含文本的 GPT-4 对它们的响应进行评分评分范围从1~10。总体而言在 LLaVA-BenchCOCO上LLaVA 达到了相对分数 85.1%在 LLaVA-BenchIn-the-Wild上为 73.5%。在后一个数据集上Google Bard2023年7月19日和微软 BingChat2023年6月29日分别获得了77.8%和71.5%的分数。这表明了自我指导方法在多模态环境中的有效性。 其中一个示例如表5.1所示。 表5.1比较LLaVA、GPT-4、BingChat、Bard、MiniGPT-4BLIP-2和OpenFlamingo在理解幽默方面的视觉推理能力的示例提示。LLaVA和GPT-4都解释了模因及其幽默而GPT-4则给出了更简洁的答案。 科学问答LLaVA与GPT-4的协同作用实现了新的技术水平。 LLaVA 在科学领域的多模态推理数据集上进行了微调Lu等2022b实现了90.92%的准确率。我们进一步探索了以仅包含语言的GPT-4作为评判标准根据其之前的答案和 LLaVA 的答案来预测最终答案。这种 “GPT-4作为评判者” 的方案达到了92.53%的 SOTA 准确率。 开放领域OCR一种新兴特性。 LLaVA从未针对OCR数据进行明确的训练即包含在相应字幕中的场景文本的图像。令人惊讶的是该模型展现出了强大的开放领域零样本OCR任务转移能力。 5.4 高级讨论 最近的指令调优的多模态大模型的历史如图5.11(a)所示。由于ChatGPT和GPT-4的流行自GPT-4提出后的三个月内指令调优的多模态大模型成为新兴研究领域。AlpacaTaori等人2023和VicunaVicuna2023于3月提出旨在使LLaMA在语言领域更具指导性。两周后MiniGPT-4Zhu等人2023a和LLaVALiu等人2023c提出使Vicuna能够观察和聊天有关视觉世界。十天后LLaMA-Adapter v2Gao等人2023b和mPlug-OWLYe等人2023b开始与MiniGPT-4/LLaVA进行性能比较标志着模型演进的开始。4月的数据点相对较少。5月arXiv上出现了大量的多模态大模型论文从多个不同方面改进了这一研究领域。这一势头一直持续到6月。 图5.11对已出现的LMM文献的回顾和总结。由于空间限制一些方法无法直观显示但我们的目标是在随附的文本中解决这些问题。 读者很容易忘记最近的所有论文我们的文献综述也是如此。为了更好地组织文献我们根据具体的研究主题对其进行分组如图5.11b所示。具有数十亿参数的早期LMM包括GPT-4OpenAI2023a、FlamingoAlayrac等人2022、PaLM-EDriess等人2023和KOSMOS-1Huang等人2023b。与这些专有的LMM相比LLaVA和MiniGPT-4为使用开源资源构建LMM提供了机会。除了RLHF的扩展Gunjal等人2023、密集预测Wang等人2023hZang等人2023Chen等人2023d、视频Zhang等人2023fLuo等人2023cLi等人2023i、图像生成Koh等人2023和具身代理Mu等人2024之外我们还将讨论以下几个主题。 对于读者来说很容易迷失在最近繁多的论文中我们的文献综述也是如此。为了更好地组织文献我们根据具体的研究主题对它们分组如图5.11b 所示。具有数十亿参数的早期大型多模态模型包括 GPT-4OpenAI2023a、FlamingoAlayrac等2022、PaLM-EDriess 等2023和 KOSMOS-1Huang 等2023b。与这些专有的大型多模态模型相比LLaVA 和MiniGPT-4 为使用开源资源构建大型多模态模型 提供了机会。除了RLHF的扩展Gunjal等2023、密集预测Wang 等2023hZang 等2023Chen 等2023d、视频Zhang 等2023fLuo等2023cLi 等2023i、图像生成Koh等2023和具身代理Mu等2023等方面我们将讨论以下几个主题。 更多模态超越VL 虽然 LMM 通过添加视觉模态扩展了LLM但进一步扩展框架以包括视觉和语言之外的更多模态是很自然的。 本着这种精神已经进行了一些尝试包括 ChatBridge赵等2023e、PandaGPTSu等2023、SpeechGPTZhang等2023d和 X-LLMChen等2023c。PandaGPT 利用 ImageBind 将更多模态添加到 LMM 中。ImageBind 模型Girdhar等人2023通过文本、图像/视频、音频和各种传感器学习一个共享的表示空间。这些传感器记录深度3D、热红外辐射或用于计算运动和位置的惯性测量单元IMU。ImageBind 提供了对视觉世界的全面理解将照片中的物体与它们的声音、3D形状、温度和移动方式联系起来。通过为LMM中的一个模态训练一个投影层模型可以零样本迁移以推断其他模态这要归功于共享的多模态嵌入空间。另一个代表性模型是SpeechGPT它为输入和输出启用了语言和语音模态。尽管模型变化丰富但连接不同模态的想法类似于将图像添加到LLM中的LMM。NExT-GPTWu等2023c连接了一个LLM与多模适配器和不同扩散解码器使NExT-GPT能够以文本、图像、视频和音频的任意组合感知输入和生成输出。LMM框架也已成功扩展到语音Zhao等2023c、3DWang等2023lHong等2023和点云Xu等2023c。 提高视觉指令调优数据的数量和质量 鉴于到模型架构趋于 GPT 类似的网络LMM 的性能主要由其训练数据决定。因此提高视觉指令调整数据的数量和质量至关重要。SVITZhao 等2023a采用了与 LLaVA 相同的数据生成流程但在提示 GPT-4 时还包括了区域描述除了图像标题和边界框数据如图 5.9a 所示。该数据规模扩大到 320 万是LLaVA中使用的数据规模的20倍。 与现有的研究侧重于正向指令样本不同LRV-InstructionLiu等2023a包括正向和负向指令以获得更稳健的指令调优。沿此方向的其他示例包括 LLaVARZhang等2023o它增加了与OCR相关的指令调优数据用于富文本图像理解以及StableLLaVALi等2023o它考虑了模型生成的图像用于图像对话数据。Polite FlamingoChen等2023b训练LLM重写指令数据。VIGCWang等人2023a不同于以GPT-4为数据生成源而是考虑利用 LMM 生成指令调整数据并在生成过程中逐步提高数据质量。 InstructionGPT-4 显示了指令调整数据的质量比数量更重要其中他们使用了200个高质量样本6%对MiniGPT-4进行了更好的微调这些样本是从原始MiniGPT-4中使用的3500个样本中精选出来的。 利用已建立学术数据库/任务的多任务调优 如前所述在第5.2节语言领域的指令调优有两种不同的实现方式通过在广泛的任务上进行微调使用人工注释的提示和反馈Ouyang等人2022或者使用经手动或自动生成的指令增强的公共基准和数据集进行监督微调Wang等人2022f。前者擅长用户导向的日常任务而后者擅长在已建立的基准上取得较好的性能。LLaVA和MiniGPT-4 属于前者类别。其他一些作品或者针对后者类别或者结合了两者包括MultiInstructXu 等2022b、mPlug-OWLYe 等2023b、InstructBLIPDai 等2023b、Multimodal-GPTGong 等2023、Instruction-ViTXiao 等2023和Qwen-VLBai 等2023a。 例如MultiInstruct 是在开源LLaMA之前对多模态数据集进行指令调整的早期尝试。InstructBLIP是一项最近的工作将聊天和基准指令遵循数据转换为指令调整格式。如图5.12所示InstructBLIP 将26个公开可用的数据集转化为指令调优格式涵盖了各种任务和功能。在13个保留的数据集上进行训练后InstructBLIP在所有13个保留的数据集上实现了零样本性能的SoTA大幅超越了BLIP-2和更大的Flamingo模型。Qwen-VL扩大了用于预训练的图像文本对数据和用于多任务预训练的学术数据集并在许多任务上取得了优异的性能。 图5.12:InstructBLIP中涵盖的视觉语言任务。 多模态上下文学习 与 LLMs 的行为类似可以通过处理有关任务的示例来解决语言任务多模态上下文学习是指一个可视化和文本界面可以引导模型解决多模态任务。给定一些图像输入和期望的文本响应的示例对以多模态提示的方式构成可以查询关于新图像或视频的问题然后生成答案。已经探索了将上下文学习从语言扩展到多模态的方向包括OpenFlamingoAwadalla等2023OtterLi等2023dM3ITLi等2023jMetaVLMonajatipoor等2023和SparklesHuang等2023d等。 OpenFlamingoAwadalla等2023是DeepMind的Flamingo模型的开源版本训练数据来自Multimodal C4数据集Zhu等2023b该数据集是一种包含数十亿规模的图像和文本数据的交错的数据集。为了增强LMMs的多模态上下文学习能力构建了MIMIC-ITLi 等2023c数据集其中包含240万多模态上下文示例。通过在MIMIC-IT上调整OpenFlamingo获得了一个新模型Otter具有更强的指示跟随能力。使用两个图像文本对作为上下文Otter学习了示例所展示的简洁回答风格否则将生成冗长的回应。 参数高效训练 尽管微调非常大的模型通常会导致高性能但它的成本非常高昂。例如对LLaMA-65B模型Touvron等2023的常规16位微调需要超过780 GB的GPU内存Dettmers等2023。因此减少LLMs/LMMs的内存占用是至关重要的特别是在改善大型模型对更广泛社区的可访问性方面。 参数高效训练是LMM自适应的有效方法。它冻结了大部分模型参数只允许一小部分可训练参数根据特定领域的数据进行更新。例如与7B/13B LLM参数相比LLaMA Adapter v2Gao等2023b和LAVINLuo等2023a只有1400万和380万可训练参数。另一种高效训练方法是量化。最近的QLoRADettmers等2023在单个GPU上对65B LLaMA进行了24小时的微调达到了ChatGPT性能水平的99.3%。由于指令调优通常涉及少量数据这使得参数高效训练或模型量化成为很实用的方法特别是在GPU资源有限的情况下。LLaVA代码库支持LoRAHu等2021和QLoRA允许在较少的GPU资源下进行LMM训练。实验证明在将LLaVA扩展到33B和65B时当使用大约150K的指令数据进行训练并使用LLaVA-Bench进行评估时LoRA/QLoRA可以实现与全模态微调类似的性能。 基准测试 尽管LMM在许多场景中以自由文本的形式展示出了出色的视觉识别和推理能力但LMM的评估成为一个紧迫且具有挑战性的问题。已经开发了一些相关基准测试来评估LMM的各个方面从它们的特定能力包括OCRLiu等2023k、幻觉POPELi等2023l和HaELMWang等2023d以及对抗稳健性Zhao等2023d到综合评估如LAMMYin等2023、LVLM-eHubXu等2023b。我们在表5.2 中总结了LMM评估基准。其中LLaVA-Bench是专门为 LMM设计的首个开放式视觉聊天基准测试。最近已经进行了早期的多模态实验以比较开源LMM与商业LMM如 BingChat和Bard以及LLaVA-BenchLiu等2023c和LVLM-eHubShao等2023。 表5.2最近提出的LMM评估基准的比较。 令人惊讶的是LMM在没有对文本识别数据进行明确训练的情况下在开放领域表现出强大的零样本OCR能力。为了揭示LMM中 OCR的隐秘之谜Liu等2023k进行了一项全面的实证研究比较了24个学术文本识别数据集上的开源LMMs如图5.13所示。强调了三个观察结果1尽管LLaVA的训练数据规模小了一个数量级但在24个数据集中有21个表现一直优于MiniGPT-4。 2使用更多的训练数据通常会导致更高的OCR性能正如BLIP2Li等2023h和mPLUG-Owl所示。 3在大多数情况下监督SoTA结果明显优于零样本LMM。然而值得注意的是在 WordArt数据集Xie等2022a中该数据集主要包含具有挑战性的艺术文本BLIP2超越了监督SoTA。这揭示了LMM在识别更复杂的文本类型方面的潜力。 图5.13:LMM在24个数据集上的零样本OCR性能。 应用 ChatGPT/GPT-4在通用领域的成功激发了人们对在医学、游戏和教育等垂直领域构建助手的兴趣。这种特定领域的助手相比通用领域的助手具有几个优点 1使用高质量的领域特定数据进行训练使助手更有帮助 2模型尺寸可以更小降低服务器成本以及 3通过在本地提供模型服务可以将敏感的用户提示数据保留在内部以避免隐私问题。 其关键思想是利用从PubMed Central提取的大规模、广覆盖的生物医学图注数据集使用GPT-4自我指导来自图注的开放式指令跟踪数据然后使用一种新颖的课程学习方法对大型通用领域视觉-语言模型LLaVA进行微调 具体来说该模型首先学会使用图像-图注对齐生物医学词汇然后使用GPT-4生成的指令跟踪数据学会开放式对话语义广泛模仿了外行人如何逐渐获得生物医学知识。在图5.14中我们提供了与不同的聊天机器人进行生物医学视觉对话的示例。LLaVA-Med精确回答需要生物医学知识的问题而LLaVA则表现得像外行人基于常识产生幻觉。LLaVA-Med已经启发了一些通用的生物医学AI模型包括Google Med-PaLM-MTu et al., 2023Stanford Med-FlamingoMoor et al., 2023和放射科通用模型Wu et al., 2023b。 为了提高LMM的文本识别能力已经开发了OCR特定模型包括BLIVAHu等2023、LLaVARZhang等2023o、mPlug-DocWLYe 等2023a。LMM 最近在生物医学领域进行了探索Sun 等2023cZhang 等2023mLi 等2023e其中会话生成人工智能在增强生物医学人员能力方面表现出了巨大的前景。LLaVA-MedLi 等2023e是一种经济高效的方法用于训练一种可以回答关于生物医学图像的开放性研究问题的视觉-语言对话助手。其关键思想是利用从 PubMed Central 提取的大规模、广泛覆盖的生物医学图形字幕数据集使用 GPT-4 根据字幕数据进行自主开放式教学然后使用新的课程学习方法微调大型通用视觉语言模型 LLaVA。具体来说该模型首先使用图像字幕学习对齐生物医学词汇然后使用GPT-4生成的指令跟踪数据学习开放式会话语义大致模仿外行如何逐渐获取生物医学知识。在图5.14中我们提供了与不同聊天机器人进行生物医学视觉对话的示例。LLaVA-Med 精确地回答了需要生物医学知识的问题而LLaVA的行为就像一个外行基于常识产生幻觉。LLaVA-Med 已经启发了几种通用的生物医学人工智能模型包括 Google Med-PaLM-MTu 等2023、Stanford Med-FlamingoMoor 等2023和放射科通用模型Wu 等2023b。 图5.14:LMM在生物医学图像中的应用。上图从LLaVA到LLaVA Med的域名适应。下图两个聊天机器人的聊天行为。 5.5 如何接近OpenAI 多模态GPT4 通过上述所有工作我们能否接近甚至超过OpenAI 的多模态 GPT-4令人鼓舞的是开源社区已迅速开发了各种模型和原型以实现各种新功能。。例如LLaVA/Mini-GPT4 为构建多模态聊天机器人铺平了道路其中一些示例能够重现OpenAI GPT-4技术报告中的结果CM3leonYu等2023、EmuSun等2023a、GILLKoh等2023扩展了 LMM 以实现端到端的图像生成据我们所知这是当前GPT-4没有表现出的能力。从使用最少的原型实现新功能的角度来看开源社区似乎接近于 OpenAI 多模态 GPT-4探索了构建通用多模态助手的初步步骤。 然而就能力的扩展而言仍然存在明显的差距例如我们在LLaVA中观察到的视觉推理能力。OpenAI技术报告中还有两个视觉示例要正确回答这些问题需要模型理解图像中描述的多个高分辨率图像和图像中描绘的长序列文本还需要用领域知识来作出回应。这需要更多的计算资源和更强大的语言模型而这对大多数人来说是不可获得的。 总之我们介绍了LMM的背景和强大功能回顾了LLM中的指令调优并展示了如何使用开源资源构建 LLaVA 和 MiniGPT-4 等原型。我们还总结了这一研究领域的最新论文以帮助那些有兴趣开始LMM研究之旅的人。作为一个社区下一步的工作一个可持续的建议是那些有资源的人可以继续专注于扩展成功和研究新的新兴特性而其他人则专注于新功能的原型和评估以及开发减少计算障碍的技术从而使更多人能够更容易访问大型模型。 【本节完待续】 参考资料 Chuanyuan LiZhe GanZhengyuan Yang等Multimodal Foundation Models: From Specialists to General-Purpose AssistantsMicrosoft Corporationarxiv.org/html/2309.10020 v1 版权声明 本文是对论文 “Multimodal Foundation Models: From Specialists to General-Purpose Assistants” 的翻译仅供学习使用。 youcansxidian 作品转载必须标注原文链接 【微软多模态基础模型】5多模态大模型通过LLM训练 Copyright 2024 youcansXIDIAN Crated2024-11