宁安市建设局网站网站建设中期检查表怎么写
- 作者: 五速梦信息网
- 时间: 2026年03月21日 10:15
当前位置: 首页 > news >正文
宁安市建设局网站,网站建设中期检查表怎么写,好的app设计网站,企业管理者培训查询Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding 相关工作 大型语言模型#xff1a; 本文的工作基于这些LLM#xff0c;并提供即插即用插件#xff0c;使其能够理解视频中的视觉和听觉内容。 多模态大型语言模型#xff1a; 现有…Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding 相关工作 大型语言模型 本文的工作基于这些LLM并提供即插即用插件使其能够理解视频中的视觉和听觉内容。 多模态大型语言模型 现有的方法可以分为两大类。 第一类包括使用LLM作为控制器和利用现有的多模态模型作为工具。 当接收到用户的文本指令时LLM识别出用户的注意力并决定调用哪些工具。然后它通过整合从这些现成的多模态模型中获得的结果生成全面的响应。 第二类集中于训练基本的大规模多模态模型。 关键思想是将用于其他模态的预训练基础模型与文本LLM对齐。 本文的工作属于第二类训练基本模型来理解视频中的视觉和听觉内容。 与之前专注于静态图像的视觉LLM不同如MiniGPT-4/LLaVAVideo-LLaMA主要解决了两个挑战 捕捉视觉场景中的时间变化提出一种视频QFormer,将预训练的图像编码器组装到我们的视频编码器中并引入视频到文本生成任务来学习视频语言对应关系。 整合视听信号利用ImageBind这是一种将多个模态对齐的通用嵌入模型作为预训练的音频编码器并在ImageBind之上引入音频Q-Former以学习LLM模块的合理听觉查询嵌入。 为了使视觉和音频编码器的输入与LLM的嵌入空间对齐使用大量指令调整(instruct-tuned)数据集训练Video-LLaMA。 视频语言模型 由一个用于从视频帧中提取特征的冻结视觉encoder一个用于将时间信息注入视频帧的位置嵌入曾一个聚合帧表示的视频Q-Former和一个将输出视频表示映射到LLM的线性层。 如图1的左部所示它包括 一个冻结的预训练图像编码器用于从视频帧中提取特征文章使用Blip-2中的视觉预训练组件作为冻结的视觉encoder来提取图像的特征encoder包括一个Vit模型与一个预训练好的Q-former。 一个位置嵌入层用于将时间信息注入视频帧文章在分支中加入了位置嵌入层作为指示器来将时间信息注入视频帧。 来自冻结图像编码器的帧表示 是在不考虑任何时间信息的条件下进行计算的因此需要加入位置嵌入作为帧的事件表示。然后将位置编码的帧表示送入视频Q-Former以获得维度为 的视频嵌入向量。给定N个帧组成视频Visual Encoder首先将每个帧映射到个图像嵌入向量中产生视频帧表示为V [v1,v2,v3,vN],其中 是对应于第i个帧的df维图像嵌入的集合。 一个视频Q-former用于聚合帧级表示视频Q-former被训练来得到含文本信息量最大的的视觉嵌入向量。 一个线性层用于将输出视频表示投影到与LLM的文本嵌入相同的维度。为了使视频表示适应LLM的输入文章添加了一个线性层将不定长的视频嵌入向量转换为固定维数的视频查询向量。视频查询向量将被连接到输入文本嵌入中作为视频软提示引导冻结的LLM根据视频内容生成文本。 添加一个线性层将视频嵌入转化为视频Query查询Query查询向量与LLM文本嵌入维度相同以便输入。在前向传递过程中连接到输入文本嵌入作为视频prompt引导冻结的LLM生成相关文本。利用BLIP-2(李等2023b)的预训练视觉组件作为冻结视觉编码器它包括来自EVA-CLIP(方等2022)的ViT G/14和预训练Q-former。 音频语言模块 如图1的右部所示它包括 一个预训练的音频编码器用于在给定一小段原始音频的情况下计算特征文章使用ImageBind作为音频的encoderImageBind强大的多模态对齐能力可以使音频与语言对齐。 一个位置嵌入层用于将时间信息注入音频段 一个音频Q-former用于融合不同音频段的特征 一个线性层用于将音频表示映射到LLMs的嵌入空间。
多分支跨模态训练-视频文本 分别训练视觉与音频分支第一阶段使用大规模的视觉字幕数据集进行训练第二阶段使用高质量的指令跟随数据集进行微调。阶段一 目标使用大数据使视频特征包含尽可能多的视觉知识。 问题视频表示使用冻结的LLMs生成的文本不足以描述完整的视频。 原因视频语义与视频文本语义并不完全一致 数据集 Webvid-2M短视频数据集 CC59KCC3M过滤的图像字幕数据集 结果能够生成视频信息内容但遵循指令能力下降
阶段二 目标视觉文本对齐 指令跟随能力——使用高质量数据集微调 数据集 MiniGPT4图像细节描述数据集 LLaVA图像指令数据集 Video-chat: 视频指令数据集 结果理解图像和视频方面表现出非凡的能力 多分支跨模态训练-音频文本 目的将冻结音频编码器的输出嵌入与LLM的嵌入空间对准 问题音频文本数据的稀缺 解决变通思路 ImageBind音频编码器具有将不同模态的beddings排列到一个公共空间的能力在跨模态检索和生成任务中表现优秀。 鉴于音频文本数据的稀缺和视觉文本数据的丰富使用视觉文本数据训练音频语言分支遵循与视觉分支相同的数据和过程。 结果由于ImageBind提供的共享嵌入空间Video-LLaMA在推理过程中表现出理解音频的能力即使音频接口从未在音频数据上训练过。 项目部署 项目地址Video-LLaMA:[EMNLP 2023 Demo] Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding - GitCode 论文链接https://arxiv.org/pdf/2306.02858.pdf 代码链接https://github.com/DAMO-NLP-SG/Video-LLaMA 展示样例https://www.youtube.com/watch?vRDNYs3Rswhcfeatureyoutu.be Video-LLaMA-main资源-CSDN文库 [2024年06月03日] 我们正式推出了VideoLLaMA2具有更强性能和更易用的代码库快来尝试吧 [2023年11月14日] ⭐️ 当前的README文件仅适用于Video-LLaMA-2使用LLaMA-2-Chat作为语言解码器关于使用上一版本Video-LLaMA使用Vicuna作为语言解码器的说明请参阅此处。[2023年08月03日] 发布Video-LLaMA-2采用Llama-2-7B/13B-Chat作为语言解码器 不再提供增量权重和单独的Q-形成器权重运行Video-LLaMA所需的完整权重都在这里[7B][13B]支持从我们的预训练检查点开始进一步定制[7B预训练][13B预训练][2023年06月14日] 注意当前在线互动演示主要用于英文聊天提问中文问题可能不是最佳选择因为Vicuna/LLaMA对中文文本的支持不够好。[2023年06月13日] 注意目前音频支持仅限于Vicuna-7B尽管我们有其他解码器的多个VL检查点可用。[2023年06月10日] 注意我们尚未更新HF演示因为整个框架包括音频分支在A10-24G上无法正常运行。当前运行的演示仍然是之前版本的Video-LLaMA我们将会很快解决这个问题。[2023年06月08日] 发布了带有音频支持的Video-LLaMA的检查点。文档和示例输出也已更新。[2023年05月22日] 互动演示上线在Hugging Face和ModelScope试试我们的Video-LLaMA使用Vicuna-7B作为语言解码器[2023年05月22日] ⭐️ 发布基于Vicuna-7B构建的Video-LLaMA v2[2023年05月18日] 支持中文的视频对话 Video-LLaMA-BiLLA我们引入了 BiLLa-7B-SFT作为语言解码器并使用机器翻译的VideoChat指令来微调视频与语言对齐的模型即阶段1模型。Video-LLaMA-Ziya类似于Video-LLaMA-BiLLA但更换了语言解码器为Ziya-13B。[2023年05月18日] ⭐️ 创建了一个Hugging Face 仓库以存储Video-LLaMA所有变体的模型权重。[2023年05月15日] ⭐️ 发布Video-LLaMA v2的检查点利用VideoChat提供的训练数据进一步增强了Video-LLaMA遵循指令的能力。[2023年05月07日] 发布Video-LLaMA的初始版本包括其预训练和指令微调的检查点。 简介 Video-LLaMA基于BLIP-2和MiniGPT-4构建主要由两个核心组件构成(1) 视觉-语言(VL)分支和(2) 音频-语言(AL)分支。 VL分支视觉编码器ViT-G/14 BLIP-2 Q-Former 引入两层视频Q-Former及帧嵌入层计算视频表示。在Webvid-2M视频字幕数据集上训练VL分支以执行视频到文本生成任务。同时添加来自LLaVA的约59.5万个图像标题对到预训练数据中以增强静态视觉概念的理解。预训练后我们使用来自MiniGPT-4、LLaVA和VideoChat的指令微调数据进一步细调我们的VL分支。AL分支音频编码器ImageBind-Huge 引入两层音频Q-Former及音频段嵌入层用于计算音频表示。由于使用的音频编码器即ImageBind已在多种模态之间对齐我们仅在视频/图像指令数据上训练AL分支仅连接ImageBind的输出至语言解码器。在跨模态训练期间只有视频/音频Q-Former、位置嵌入层和线性层是可训练的。 使用方法 环境准备 首先安装ffmpeg。 apt update apt install ffmpeg然后创建一个conda环境 conda env create -f environment.yml conda activate videollama先决条件 不需要做任何事 如何本地运行演示 首先在eval_configs/video_llama_eval_withaudio.yaml中相应地设置llama_model(语言解码器路径)、imagebind_ckpt_path(音频编码器路径)、ckpt(VL分支路径)和ckpt_2(AL分支路径)。接着运行脚本 python demo_audiovideo.py --cfg-path eval_configs/video_llama_eval_withaudio.yaml --model_type llama_v2 \ # 或者 vicuna–gpu-id 0 更改权重文件路径 运行demo_audiovideo.py进行演示 遇到的问题 下载镜像网站比如modelscope就非常好用魔搭社区网速非常快 版本问题video-llama由于快速迭代有一些依赖包的一些方法被弃用了这导致你直接pip install -r requirements.txt所下载的东西无法使用主要原因就是因为requirements.txt没有指定相应的版本号 tqdm decord timm einops opencv_python4.8.0.74 torchvision0.14.0 torch1.13.0 bitsandbytes omegaconf iopath webdataset ftfy SentencePiece transformers4.28.0 gradio3.24.1 pytorchvideo gradio-client0.0.8 torchaudio 运行结果
- 上一篇: 宁安市建设局网站搭建简单网站
- 下一篇: 宁波cms建站界面设计排版
相关文章
-
宁安市建设局网站搭建简单网站
宁安市建设局网站搭建简单网站
- 技术栈
- 2026年03月21日
-
您与此网站建立的连接不安全义乌市网站建设
您与此网站建立的连接不安全义乌市网站建设
- 技术栈
- 2026年03月21日
-
您提交的网站域名无备案中信建设证券网站
您提交的网站域名无备案中信建设证券网站
- 技术栈
- 2026年03月21日
-
宁波cms建站界面设计排版
宁波cms建站界面设计排版
- 技术栈
- 2026年03月21日
-
宁波h5建站中铁十六门网户登录
宁波h5建站中铁十六门网户登录
- 技术栈
- 2026年03月21日
-
宁波seo排名方案seo博客网站
宁波seo排名方案seo博客网站
- 技术栈
- 2026年03月21日
