首页 - AI世界

MMaDA：多模态扩散大语言模型

作者: 五速梦信息网
时间: 2026年05月18日 17:56

MMaDA是什么？

MMaDA是由普林斯顿大学、字节跳动、清华大学及北京大学联合研发的多模态扩散大语言模型，旨在突破传统多模态模型在架构统一性与后训练方法上的局限性。其核心目标是通过统一的扩散架构，实现文本推理、多模态理解与图像生成的跨领域卓越性能。

核心技术

统一扩散架构：MMaDA采用共享概率公式和模态无关设计，消除对特定模态组件的依赖，实现文本、图像等不同类型数据的无缝集成与处理。
混合长链式思考（CoT）微调策略：通过设计跨模态的统一CoT格式，强制AI在文本和视觉领域对齐推理过程，提升复杂任务处理能力。
统一强化学习算法UniGRPO：专为扩散模型设计的策略梯度算法，通过多样化奖励建模统一推理和生成任务的后训练，确保性能持续提升。

性能表现与行业对比

文本推理：在MMLU基准测试中，MMaDA-8B准确率达68.4%，超越LLaMA-3-8B、Qwen2-7B等模型，展现出更强的逻辑推理能力。
多模态理解：在POPE、VQAv2等基准测试中，与LLaVA、Qwen-VL等专用模型持平，在复杂跨模态任务中表现优异。
文本到图像生成：CLIP Score达32.46，超越SDXL、Janus等模型，尤其在文化知识生成任务（WISE）中准确率提升56%，生成更符合世界知识的图片。

模型架构与训练方法

统一Token化策略：将文本和图像转换为统一的离散Token，实现跨模态的无缝处理。
三阶段训练流程：

3. 模型优势与应用场景

文本推理：在MMLU基准测试中，准确率达到68.4%，超越LLaMA-3-8B、Qwen2-7B等模型，展现出更强的逻辑推理能力。
多模态理解：在POPE、VQAv2等基准测试中，与LLaVA、Qwen-VL等专用模型持平，但在复杂场景下表现更为全面。
文本到图像生成：在CLIP Score和WISE文化知识生成任务中，表现优于SDXL和Janus，生成更准确、更符合世界知识的图片。

实际应用与扩展能力

图像修复与外推：MMaDA天然支持图像修复和外推功能，无需额外微调，可直接应用于视觉问答、图像补全等任务。
灵活推理策略：文本生成采用半自回归去噪策略，生成更复杂、更详细的描述；图像生成则采用并行非自回归采样，效率更高。

开源与社区支持

MMaDA已在GitHub开源，提供文本生成、多模态生成和图像生成的推理和训练代码。
发布了MMaDA-8B-Base模型，MMaDA-8B-MixCoT和MMaDA-8B-Max模型也即将上线。
社区可通过在线演示或本地部署体验模型功能，参与模型优化与应用开发。

未来发展

MMaDA的诞生标志着多模态AI领域的一次重要突破，展示了扩散模型作为下一代多模态智能基础的巨大潜力。未来，随着模型尺寸的扩大和功能的进一步优化，MMaDA有望在更多领域实现广泛应用，推动AI技术向更智能、更高效的方向发展。

上一篇： Mitata AI：AI文章检测工具
下一篇： MNN：阿里巴巴开源的高性能推理引擎

相关文章